100G 数据如何先随机读取 1%?

資深大佬 : fanqieipnet 4

100G 数据如何先随机读取 1%?今天番茄加速就来给大家介绍下。

　　对于动辄就几十或几百个 G 的数据，在读取的这么大数据的时候，我们有没有办法随机选取一小部分数据，然后读入内存，快速了解数据和开展 EDA ?

　　使用 Pandas 的 skiprows 和概率知识，就能做到。解释具体怎么做，如下所示，读取某 100 G 大小的 big_data.csv 数据

　　使用 skiprows 参数，

　　 x > 0 确保首行读入，

　　 np.random.rand() > 0.01 表示 99% 的数据都会被随机过滤掉

　　言外之意，只有全部数据 1% 才有机会选入内存中。

　　 import pandas as pd

　　 import numpy as np

　　 df = pd.read_csv(“big_data.csv”,

　　 skiprows =

　　 lambda x: x>0and np.random.rand() > 0.01)

　　 print(“The shape of the df is {}.

　　 It has been reduced 100 times!”.format(df.shape))

　　使用这种方法，读取的数据量迅速缩减到原来的 1% ，对于迅速展开数据分析有一定的帮助。

大佬有話說 (0)