可乐呀 大佬有话说 :
关于SQL的导入
本帖最后由 可乐呀 于 2020-11-29 22:59 编辑
最近楼主在学习SQL
这边有一个719806832行大小十多G的txt文件。
我用LOAD DATA INFILE导入到MySQL在某一行发生了错误
主要是格式问题
正确的格式是 xxxx—-xxxx
我用sed看了下这一行格式变成xxxx—-xxxx—-xxxx导致出错。
yc022t
请问各位大佬这种情况是不是只能用Shell或者Pyhon进行一些行格式不对的进行修正后再导入?(这样修正遍历每一行是不是会很慢)
本贴遵纪守法,绝对和一些违法的东西无关:lol
落叶随风 大佬有话说 :
https://www.hostloc.com/forum.php?mod=viewthread&tid=772196
可乐呀 大佬有话说 :
落叶随风 大佬有话说 : 2020-11-29 23:04
https://www.hostloc.com/forum.php?mod=viewthread&tid=772196
这个大佬的方法就是忽略了一些无效行吗yc022t
落叶随风 大佬有话说 :
可乐呀 大佬有话说 : 2020-11-29 23:10
这个大佬的方法就是忽略了一些无效行吗
好像只是忽略了,我今天用python处理了下也确实遇到这个问题,一行会出现两个 ‘—-‘,第一和第二都是qq,但是花了大概3个小时……,所以还是用楼上那位发的方案导入快一点。
可乐呀 大佬有话说 :
本帖最后由 可乐呀 于 2020-11-30 00:31 编辑
落叶随风 大佬有话说 : 2020-11-29 23:32
好像只是忽略了,我今天用python处理了下也确实遇到这个问题,一行会出现两个 ‘—-‘,第一和第二都是qq …
我用正则匹配了下,发现中间有一部分的数据都是两边qq号的数据
h20 大佬有话说 :
grep预处理一遍不就解决了?
Qys 大佬有话说 :
python遍历一遍好像也就5分多钟,不慢的
cobra1 大佬有话说 :
Qys 大佬有话说 : 2020-11-30 00:39
python遍历一遍好像也就5分多钟,不慢的
哪有?单线程绝对不止。多线程考虑全局锁懒得写,直接导文件了
Qys 大佬有话说 :
cobra1 大佬有话说 : 2020-11-30 01:21
哪有?单线程绝对不止。多线程考虑全局锁懒得写,直接导文件了
我遍历所有行,检测一行是否只有"—-",满足的话写进新的文件里,这样遍历一遍感觉也没多久