跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 写了一个优化 pandas 内存的工具
未分類
28 3 月 2020

写了一个优化 pandas 内存的工具

写了一个优化 pandas 内存的工具

資深大佬 : YUX 13

pandas 爆内存主要是两个原因

  • 默认 int64, float64
  • object 类型经常有太多重复项

针对这两点都做了优化, int 、float 转化为合适都类型, object 如果重复项太多就转化为 category

用法很简单

import fast_csv as fc data = fc.read_csv('$PATH/$FILE.csv') 

一般来讲 (我最近用的几个 kaggle 的 data),能减少 50%内存,有时能减少 90%以上. 没有什么副作用,和一般直接用pandas读 csv 是一样的,都是 pandas.DataFrame

开源在 https://github.com/YUX-IO/fast_csv

安装 pip install fast_csv

写了一个优化 pandas 内存的工具

大佬有話說 (4)

  • 資深大佬 : lithiumii

    kaggle

  • 資深大佬 : nzd

    这个有点厉害,学习了

  • 資深大佬 : dlsflh

    等我上班后就实测对大量的工业传感器数据的优化效果。

  • 資深大佬 : ipwx

    。。。你需要的是在调用 pd.read_csv 的时候手动指定 dtype={…},然后 engine=’C’

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具