关于爬虫几个问题请教
資深大佬 : Colorful 6
1 、win10 里面如何写爬虫的定时任务?没想过定时任务这块不太懂 2 、每次爬取出来的数据,有重复的,用的是 mysql 数据库,如何更好的解决这个问题? 暂时想到的两个方法,一个是定时清除重复数据,另外一种是显示最新的那条数据
大佬有話說 (24)
1 、win10 里面如何写爬虫的定时任务?没想过定时任务这块不太懂 2 、每次爬取出来的数据,有重复的,用的是 mysql 数据库,如何更好的解决这个问题? 暂时想到的两个方法,一个是定时清除重复数据,另外一种是显示最新的那条数据
定时任务和写爬虫不搭嘎的好吧
“定时” 任务 = 定时执行任务 , 任务=写好的爬虫脚本
合起来理解为
每分钟、小时,天,周 或其他时间区间,运行写好的脚本 = 脚本=bat,bash,php,java,perl 等
重复的 replace into 也可以
更好的使用临时表存储,然后做数据清洗后入正常表 (提前去重)
另外,如果是你爬取一个网站的很多页面的话,每次把爬过了的链接存起来,后面不再爬这些链接就行了