跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 爬取 x 宝的商品信息,休息一下弹窗怎么解决?
未分類
9 3 月 2021

爬取 x 宝的商品信息,休息一下弹窗怎么解决?

爬取 x 宝的商品信息,休息一下弹窗怎么解决?

資深大佬 : iscurry 6

需求: 根据商品 sku 获取商品的 一些属性和评论

目前: 使用 python 的 selenium 模拟登录,然后通过 request 请求重定向,xpath 分析数据

问题: 每一次 request 后睡眠 1s,但是发送 20 次后就会出现休息一下的界面,即使手动划过去也不行, 有没有什么好的办法?或者其他的方法?

大佬有話說 (48)

  • 資深大佬 : kaiki

    网页版正常浏览都很困难,你还想爬它

  • 資深大佬 : wangxinpier

    随机休息时间

  • 資深大佬 : xihefeng

    抓 app 吧,web 人工都难用

  • 資深大佬 : murmur

    你这速度就是比正常人快啊,1 秒看一页是不是以为淘宝的风控是傻子

  • 資深大佬 : love

    我看不行,我正常浏览只要超几分钟都会出现,且划不过去,那个验证就是个摆设,划了没有一点鸟用

  • 資深大佬 : invalid522

    某宝以至阿里系的反爬都是出了名的恶心,如果脸黑的话,连用 app 都会被强制休息一下

  • 資深大佬 : lawler

    x 宝采集一定要做分布式,刷新间隔 60s 以上。

  • 資深大佬 : Smash

    我正常刷网页都要弹,你还想爬??

  • 資深大佬 : westoy

    淘客 API,一方和三方都行

    @xihefeng
    app 现在多浏览几页也要登录, 登录之后频繁访问也会触发验证, 有时候验证码锁是锁全平台的, 包括高德、阿里妈妈……. 一样绕不过的

  • 資深大佬 : imgbed

    换 ip 了吗

  • 資深大佬 : OHyn

    正常使用都困难的东西。。。

  • 資深大佬 : Dvel

    Web 上高德地图也老弹这个。。。

  • 資深大佬 : wqzjk393

    模拟点击吧

  • 資深大佬 : alexbigbigworld

    我自己店铺是在应用市场买的接口做的退货管理之类,你要是采集别人的话估计不好弄,彩多了直接给你 404

  • 資深大佬 : systemcall

    没救了的东西,你正常浏览,只要不下单,要不了半个小时就会卡弹窗,没办法跳过的那种
    感觉是只要看了 20 个商品左右就会开始弹,谁让你只看不买的?

  • 資深大佬 : dbow

    淘宝风控非常严格,我以前买东西搜索一下都会让拖滑块,现在不上淘宝了, 基本在京东买。

  • 資深大佬 : leega0

    正常搞快了都休息,你还机器人爬。。。分布式吧

  • 資深大佬 : yaoye555

    淘宝 web 就不是给人用的玩意

  • 資深大佬 : yaapoo

    time.sleep()

  • 資深大佬 : annielong

    正常访问都弹窗

  • 資深大佬 : Thymolblue

    想请教一下使用 selenium chrome drive 有没有什么办法在后台输入 hotkeys 而不受桌面窗口影响

  • 資深大佬 : applehater

    小新破坏计算机信息的名头

  • 資深大佬 : linuxcat

    tb 连正常访问都拦,更别说爬虫了

  • 資深大佬 : zictos

    动态 ip vps + 切换 UA + 切换浏览器指纹 + 隐身模式或者清除浏览器缓存和 cookies

  • 資深大佬 : lmmortal

    @Dvel 因为这个原因 web 端我换百度了

    @love 我也多次遇见,画到头了全绿然后说出现问题让刷新重滑 滑完下边是两个绿条,还是不让进页面

  • 資深大佬 : sumn255

    正常浏览都出现休息一下怎么解决

  • 資深大佬 : thursday

    @alexbigbigworld 你用的是哪个 应用了。我也有类似需求

  • 資深大佬 : jousca

    正常浏览在上面找东西都会弹出验证滑块,还别说你搞爬虫。

    垃圾网站早晚要挂。

  • 資深大佬 : meinjoy

    @alexbigbigworld 请问在哪能卖?

  • 資深大佬 : alexbigbigworld

    @meinjoy 服务市场里找集市宝

  • 資深大佬 : muzuiget

    正常浏览都会弹,有时候货比三家确实会频繁刷新同一页,都会弹,垃圾。

  • 資深大佬 : zckevin

    https://g.alicdn.com/AWSC/AWSC/awsc.js

  • 主 資深大佬 : iscurry

    @zckevin 请问这个该怎么用?

  • 主 資深大佬 : iscurry

    @leega0 分布式的目的是什么?

  • 主 資深大佬 : iscurry

    @zictos selenium 怎样弄动态 ip

  • 資深大佬 : zictos

    @iscurry #35 动态 vps 可以通过通过程序自动切换系统 ip 的,windows 系统可以通过 cmd 命令( python 通过 os.system()调用)。系统 ip 变了,selenium 自然也变 ip 了。可以在 python 中每隔指定时间切换一下 ip,

  • 資深大佬 : cnscorpions

    web 的反爬太厉害了,可以考虑下 app 的吧

  • 資深大佬 : inwar

    人用都几次弹一次窗。。

  • 資深大佬 : newmlp

    正常人谁会准时 1S 刷一次这么准,淘宝风控又不是傻逼

  • 資深大佬 : faqqcn

    我觉得淘宝最狗的就是,不登录都不能搜索。。。

  • 資深大佬 : Lemeng

    淘宝以前被爬的太多了吧,有时候正常看都会出来,不知道怎么个算法
    不过加点时间,总不会错。相对会少点

  • 資深大佬 : RiESA

    收购阿里

  • 主 資深大佬 : iscurry

    @xihefeng 怎么抓,可以更加详细的说吗?我对这个并不熟悉

  • 主 資深大佬 : iscurry

    @xihefeng 也可以有偿学习

  • 主 資深大佬 : iscurry

    @imgbed 每个 ip 能用几十次

  • 主 資深大佬 : iscurry

    @lawler 分布式的目的是什么呢?

  • 資深大佬 : z5e56

    淘宝的员工满意地笑了并关闭了本标签页

  • 資深大佬 : imgbed

    @iscurry 那要有足够的 IP 才行

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具