phpsky 大佬有话说 :
我来说下真假蜘蛛的判断
越来越多采集器伪装蜘蛛爬取数据,怎么判断真假蜘蛛呢?
1、百度蜘蛛IP主要是北京和山西阳泉李艳红老家两个地方 集中在220.181.*.*和116.179.*.*两个IP段
2、假蜘蛛会一个目录从第一页到最后一页全部爬完,真蜘蛛是混爬的
future 大佬有话说 :
说得好,那具体应该怎么屏蔽假蜘蛛呢? 求个教程
hxuf 大佬有话说 :
百度还有很多临时工蜘蛛。不要乱屏蔽。
citywar 大佬有话说 :
是啊 ,但是蜘蛛IP很多的
https://www.pigji.com/304.html
3351239779 大佬有话说 :
长见识了
镜子里的我 大佬有话说 :
有点意思,支持一下
allnetstore 大佬有话说 :
真的蜘蛛会公布自己使用的UA和IP的
https://help.baidu.com/question?prod_id=99&class=476&id=2996
在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspider的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。
Venkio 大佬有话说 :
这两天正好被蜘蛛攻击了 一天爬几十万次 机器一打开直接宕机 把IP屏蔽完后才恢复https://cdn.jsdelivr.net/gh/hishis/forum-master/public/images/patch.gif