砍柴郎 大佬有话说 : 2020-1-12 15:51:57
请教一个数据去重的问题
有100多个EXCEL文件,每个文件里只有一个表,表里只有一列数据,但每个表里有大约60万条数据(在一列里),现在我已将每个表里的数据进行了重复性删除,但一个表和另一个表中的数据会有很多重复的,我想将这100多个表里的数据放在一起,删除重复的,得到一组没有重复的数据。
上面这些数据已是我经过了几天原始数据的处理结果了,但进一步去重却没有了方法,因为EXCEL每个表的行数有限,大约是100多万条,多了就放不进去了,另外行数太多,利用EXCEL本身的去重功能,EXCEL特别容易死掉。
想请教一下有数据处理经验的大佬们,这种情况用什么方法可以比较方便的去重得到一组没有重复的数据呢?谢谢大家了。
千牛 大佬有话说 : 2020-1-12 15:56:05
导出csv然后用
Emeditor你试试看,这东西我怎么研究都觉得他很强
EmEditor可以删除重复行
Mr. 大佬有话说 : 2020-1-12 16:05:53
楼上说的 导出csv 然后按行读取 可以,但要导出100多次也是累…
你要的话直接给你写个软件,我Q在线的
砍柴郎 大佬有话说 : 2020-1-12 16:12:20
Mr. 大佬有话说 : 2020-1-12 16:05
楼上说的 导出csv 然后按行读取 可以,但要导出100多次也是累…
你要的话直接给你写个软件,我Q在线的 …
那最好了,正好你也可能用得着。我现在是将06年到目前的所有的淘宝热搜词全部导出来了。就是想做一份淘宝热搜词关键词库。
demonsya 大佬有话说 : 2020-1-12 16:28:40
这种不是随便玩,pandas批量读取,拼接,然后去重,保存 就可以了?
XiaoFaye 大佬有话说 : 2020-1-12 16:32:40
写个程序,全部读进内存,也就几分钟的事情。。。。
ApkB 大佬有话说 : 2020-1-12 16:36:27
处理成文本格式,导入数据库里
lgc 大佬有话说 : 2020-1-12 16:45:41
试试excel的power query