有没有什么简单好用的反爬虫办法?
我个人的爬虫使用经验中,主要有几类反爬措施,
其一是使用 refer,判断 clientagency 这种比较原始的方式,
其二是将页面套在 iframe 中进行懒加载
其三是类似 pixiv 最近几年的操作,登录时接入了一个某某反爬业务,前端 js 会生成一些东西,非模拟登录很难得到这些数据
对我个人而言,因为我也不是专门做爬虫的,通常反爬如果达到第三层,就会拦住我。
=====
我目前感觉可行的有效反爬办法如下(基于 spa,有权限验证,但这并不妨碍直接调用数据接口)
一是部署时限制接口访问频次,比如短期大量访问后暂时屏蔽。
二是检验 refer
三,也是我想问的,前端有没有一些好用的工具,可以实现强制用户如果想爬虫也必须使用模拟客户端?比如混淆过的 js 代码生成一些 hash 之类的。
后端又如何对其合法性进行验证呢