爬虫查重复,数据库占 cpu 超高,怎么解决呢?
資深大佬 : llsquaer 8
之前写一个爬虫,爬好数据直接就存进 MongoDB 了.存入代码如下
”’
def save(dic): if table.find_one(dic): print('已经有数据 ,跳过',dic['info_title']) return table.insert(dic) print('保存成功', dic['info_title'])
”’
运行都是正常的..但是我看 cpu 占用的时候 MongoDB 进程已经 80%上下了..有时候还是 100%
刚开始学,,以前一直没想到怎么解决这个问题..基本都是按照上面方法写的.感觉方便.但是随着数据扩大,估计扛不住了.
请问大神是怎么做的呢?提高效率,减少占用.
大佬有話說 (6)