最近爬虫遇到了一个吊诡的事情:更换 virtualenv 环境会导致反爬
資深大佬 : Te11UA 8
前提:爬取的是亚马逊。爬虫代码不变,俩 virtualenv 都装了一模一样的包,在同一台机子上,用同一个代理。
其中一个环境一直出验证码和 503,但是切换到另外一个环境上却都是正常响应。另外,使用抓包软件看的话,一直出验证码的环境走抓包软件代理后也会正常,但一不用就恢复原状……
使用了最简单的 requests demo 也是一模一样的情况
有没有同学遇到过一样的问题呢? 或者说有什么排查点呢?
PS: 被反爬的环境是一直在运行爬虫代码的,目测可能是有机器学习机制,但是特征点完全找不到在哪,HTTP 层是一模一样的,TCP 层粗略看了下也没什么区别……
大佬有話說 (30)