小脑袋困掉了 大佬有话说 :
利用零宽度字符防止被爬虫
首先举个栗子:
https://baidu.com
复制以上链接粘贴到浏览器地址栏,会发现无法打开。:lol
这是为什么呢?就是因为这个字符串中出了叛徒——零宽度字符。yc018t
这些叛徒我们看不到,但它确实破坏了链接的有效性。yc007t
所以各位站长如果想要反爬虫,可以将站内的链接都用 js 函数修饰一下。yc022t
等访客点击的时候可以用 js 解释一下。{:3_61:}
helone 大佬有话说 :
奇才,你以为百度蜘蛛能识别出来url吗?那这样还不如关站呢
3721 大佬有话说 :
标签元素 加个随机数算了,不用这么
llyang 大佬有话说 :
小脑袋困掉了 大佬有话说 : 2020-4-6 13:50
正则可以去,顶多防小白,大佬防不住的。
我在35楼写的正则,咋去不了呀
大佬,请教2个问题:
1、如何用常规软件,或者linux中,制造零字节。劳驾科普下
2、regEx咋删除
hehe 大佬有话说 :
小脑袋困掉了 大佬有话说 : 2020-4-4 22:12
爬虫不都是用正则检测链接的吗?这个用正则检测不到啊。。
这个用正则可以检测,不信你把含有零宽字符粘贴到这个输入框中,正则检测到输入框中有零宽字符,然后复制按钮就被禁用了
https://hunter.gitlab.io/tools/harmonious/
Zeros 大佬有话说 :
https://baidu.com
控制台看到的
小脑袋困掉了 大佬有话说 :
DROP 大佬有话说 : 2020-4-3 19:35
你太小看爬虫大佬了
天下没有攻不破的盾,能防住大部分就已经很不错了。
ByteCat 大佬有话说 :
a上工具
不,我不是小尾巴,你也看不见我,哼唧
peng123 大佬有话说 :
https://baidu.com
peng123 大佬有话说 :
但是源代码可以查看呀https://ooo.0x0.ooo/2020/04/03/O7EUN.jpg
一个不知名网友 大佬有话说 :
https://baidu.com
sky21022 大佬有话说 :
有意思。研究研究。按说源代码可以看到的代码,通配符都能搞定
peng123 大佬有话说 :
https://www.hostloc.com
jackwolf 大佬有话说 :
正则去掉非字母部分看看行不行
小脑袋困掉了 大佬有话说 :
peng123 大佬有话说 : 2020-4-3 19:15
但是源代码可以查看呀
是可以看到,但是复制到浏览器里打不开。