跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 利用零宽度字符防止被爬虫
未分類
7 4 月 2020

利用零宽度字符防止被爬虫

小脑袋困掉了 大佬有话说 :

利用零宽度字符防止被爬虫

首先举个栗子:
h​​​t​​​t​​​p​​​s​​​:​​​/​​​/​​​b​​​a​​​i​​​d​​​u​​​.​​​c​​​o​​​m
复制以上链接粘贴到浏览器地址栏,会发现无法打开。:lol
这是为什么呢?就是因为这个字符串中出了叛徒——零宽度字符。yc018t
这些叛徒我们看不到,但它确实破坏了链接的有效性。yc007t
所以各位站长如果想要反爬虫,可以将站内的链接都用 js 函数修饰一下。yc022t
等访客点击的时候可以用 js 解释一下。{:3_61:}

helone 大佬有话说 :

奇才,你以为百度蜘蛛能识别出来url吗?那这样还不如关站呢

3721 大佬有话说 :

标签元素 加个随机数算了,不用这么

llyang 大佬有话说 :

小脑袋困掉了 大佬有话说 : 2020-4-6 13:50
正则可以去,顶多防小白,大佬防不住的。

我在35楼写的正则,咋去不了呀

大佬,请教2个问题:
1、如何用常规软件,或者linux中,制造零字节。劳驾科普下
2、regEx咋删除

hehe 大佬有话说 :

小脑袋困掉了 大佬有话说 : 2020-4-4 22:12
爬虫不都是用正则检测链接的吗?这个用正则检测不到啊。。

这个用正则可以检测,不信你把含有零宽字符粘贴到这个输入框中,正则检测到输入框中有零宽字符,然后复制按钮就被禁用了
https://hunter.gitlab.io/tools/harmonious/

Zeros 大佬有话说 :

h​​​t​​​t​​​p​​​s​​​:​​​/​​​/​​​b​​​a​​​i​​​d​​​u​​​.​​​c​​​o​​​m
控制台看到的

小脑袋困掉了 大佬有话说 :

DROP 大佬有话说 : 2020-4-3 19:35
你太小看爬虫大佬了

天下没有攻不破的盾,能防住大部分就已经很不错了。

ByteCat 大佬有话说 :

a上工具

不,我不是小尾巴,你也看不见我,哼唧

peng123 大佬有话说 :

h​​​t​​​t​​​p​​​s​​​:​​​/​​​/​​​b​​​a​​​i​​​d​​​u​​​.​​​c​​​o​​​m

peng123 大佬有话说 :

但是源代码可以查看呀https://ooo.0x0.ooo/2020/04/03/O7EUN.jpg

一个不知名网友 大佬有话说 :

h​​​t​​​t​​​p​​​s​​​:​​​/​​​/​​​b​​​a​​​i​​​d​​​u​​​.​​​c​​​o​​​m

sky21022 大佬有话说 :

有意思。研究研究。按说源代码可以看到的代码,通配符都能搞定

peng123 大佬有话说 :

h​t​t​p​s​:​/​/​w​w​w​.​h​o​s​t​l​o​c​.​c​o​m

jackwolf 大佬有话说 :

正则去掉非字母部分看看行不行

小脑袋困掉了 大佬有话说 :

peng123 大佬有话说 : 2020-4-3 19:15
但是源代码可以查看呀

是可以看到,但是复制到浏览器里打不开。

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具