跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 关于爬虫几个问题请教
未分類
11 7 月 2020

关于爬虫几个问题请教

关于爬虫几个问题请教

資深大佬 : Colorful 6

1 、win10 里面如何写爬虫的定时任务?没想过定时任务这块不太懂 2 、每次爬取出来的数据,有重复的,用的是 mysql 数据库,如何更好的解决这个问题? 暂时想到的两个方法,一个是定时清除重复数据,另外一种是显示最新的那条数据

大佬有話說 (24)

  • 資深大佬 : ShuoHui

    1 定时任务的话,你看看 APScheduler 能不能满足你的需求
    2 重复的话,数据量不大的话存入前可以确认下吧(本菜鸟的想法

  • 資深大佬 : ohao

    。。。。。。。。
    醒醒。。。。。。。
    你这逻辑和对应的关系都没搞清楚写什么爬虫。。。。。

    定时任务和写爬虫不搭嘎的好吧
    “定时” 任务 = 定时执行任务 , 任务=写好的爬虫脚本
    合起来理解为
    每分钟、小时,天,周 或其他时间区间,运行写好的脚本 = 脚本=bat,bash,php,java,perl 等

    重复的 replace into 也可以
    更好的使用临时表存储,然后做数据清洗后入正常表 (提前去重)

  • 資深大佬 : ctro15547

    1.开机启动,然后脚本 if time==9 点 ,开工,if time==18 点,收工
    2.看自己需求

  • 資深大佬 : BBrother

    windows 自带计划任务

  • 主 資深大佬 : Colorful

    @ShuoHui APScheduler 我刚刚看了,那个暂时针对 python 的,但是爬虫的时候,是在命令行里面执行的,这块我得好好看看,看能不能满足需求。
    因为爬取的网站都是一样的,数据肯定会有重复的。只是不知道怎么样更方便的去解决

  • 主 資深大佬 : Colorful

    @ohao 有点懂了,那可能我的理解不太对吧。定时任务就是,定时执行什么脚本。然后脚本里面去写我的爬虫任务。这样才算是我的需求了。

  • 資深大佬 : xiri

    windows 有计划任务,跟 linux 下的 crontab 相对
    至于重复数据的问题,你都玩爬虫了,去重不是基本操作吗?每次写入数据之前数据是否已经存在,数据量比较大的话可以试试 redis 的布隆过滤器

  • 資深大佬 : xiri

    @xiri 每次写入数据之前判断数据是否已经存在

    另外,如果是你爬取一个网站的很多页面的话,每次把爬过了的链接存起来,后面不再爬这些链接就行了

  • 主 資深大佬 : Colorful

    @xiri 有点理解了。懂了,太感谢了

  • 資深大佬 : sockball07

    关键词 schtasks

  • 資深大佬 : crella

    我一开始还是想问这些问题,后来还是自己多查查已有的方法来解决的。
    也就多逼自己自行解决问题。

  • 主 資深大佬 : Colorful

    @crella 你是怎么解决这些问题的啊?

  • 資深大佬 : tikazyq

    关键词,爬虫管理平台,crawlab 了解一下?加我 wx 拉群咨询,tikazyq1

  • 資深大佬 : musi

    @tikazyq 借问一下,我想把我司的爬虫迁到 crawlab,有技术指导不

  • 資深大佬 : tikazyq

    @musi 可以的,加我 wx 咨询吧

  • 資深大佬 : jsnjfz

    windows 自带计划任务启动 python 爬虫脚本

  • 資深大佬 : jeeyong

    计划任务?????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????????

  • 資深大佬 : jugelizi

    mysql 里可以设置主键或唯一索引 replace into 替换或插入 也可以借助 redis
    定时可以设置锁 防止多个运行

  • 主 資深大佬 : Colorful

    @jsnjfz 只知道有个计划任务,但是启动 python 脚本就不太会了

  • 主 資深大佬 : Colorful

    @jugelizi 原来 mysql 还有这个功能,太感谢了..

  • 資深大佬 : holajamc

    数据量不大的情况下可以用 UNIQUE INDEX 来避免重复,数据量比较大可以采用 redis BloomFilter

  • 資深大佬 : Mr0Han

    定时任务 schedule 模块够用,去重。。。都用上 mysql 了。。。。索引去重他不香吗,劝退。。。

  • 資深大佬 : Hider5

    代码丢服务器,cron 创建定时任务就好了

  • 主 資深大佬 : Colorful

    @Hider5 懂了,感谢感谢..没想到服务器这块,只想到了本地

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具