跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 100G 数据如何先随机读取 1%?
未分類
23 11 月 2020

100G 数据如何先随机读取 1%?

100G 数据如何先随机读取 1%?

資深大佬 : fanqieipnet 4

100G 数据如何先随机读取 1%?今天番茄加速就来给大家介绍下。

  对于动辄就几十或几百个 G 的数据,在读取的这么大数据的时候,我们有没有办法随机选取一小部分数据,然后读入内存,快速了解数据和开展 EDA ?

  使用 Pandas 的 skiprows 和 概率知识,就能做到。解释具体怎么做,如下所示,读取某 100 G 大小的 big_data.csv 数据

  使用 skiprows 参数,

   x > 0 确保首行读入,

   np.random.rand() > 0.01 表示 99% 的数据都会被随机过滤掉

  言外之意,只有全部数据 1% 才有机会选入内存中。

   import pandas as pd

   import numpy as np

   df = pd.read_csv(“big_data.csv”,

   skiprows =

   lambda x: x>0and np.random.rand() > 0.01)

   print(“The shape of the df is {}.

   It has been reduced 100 times!”.format(df.shape))

  使用这种方法,读取的数据量迅速缩减到原来的 1% ,对于迅速展开数据分析有一定的帮助。

大佬有話說 (0)

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具