写了一个优化 pandas 内存的工具
資深大佬 : YUX 13
pandas 爆内存主要是两个原因
- 默认 int64, float64
- object 类型经常有太多重复项
针对这两点都做了优化, int 、float 转化为合适都类型, object 如果重复项太多就转化为 category
用法很简单
import fast_csv as fc data = fc.read_csv('$PATH/$FILE.csv')
一般来讲 (我最近用的几个 kaggle 的 data),能减少 50%内存,有时能减少 90%以上. 没有什么副作用,和一般直接用pandas
读 csv 是一样的,都是 pandas.DataFrame
开源在 https://github.com/YUX-IO/fast_csv
安装 pip install fast_csv
大佬有話說 (4)