现在爬虫对付脚本构造的网页还有什么方法,除了 selenium
之前就遇到 douban movie 用 js 构造问题,还好爬的东西不多,不急切,弄个 selenium 扔后台降低频率跑就是了
现在感觉越来越多网页 js 的作用很大,总以调起浏览器方式作用不大,也不好玩(没满足感
现在感觉越来越多网页 js 的作用很大,总以调起浏览器方式作用不大,也不好玩(没满足感
不好解密就上 headless chrome
网上搜了一圈,基本上只能当场渲染获得成品内容,没有什么简单的方案。。。
路过打击一下主
selenium 也并不万能,因为发现 webdriver 会向浏览器写入多项特征数据导致能够被识别,如果目标网站做了对应的防御,爬取难度会非常大,而且这些特征有些是无法移除或修改的,例如 navigator.webdriver,这点深受使用者吐槽,老外都骂 google 做了婊子还要立牌坊,不过 google 应该是为了保证网站的知情权吧
已经有开发者发起挑战,宣称将基于 chromium 开发无法检测的 webdriver 浏览器
headless 和 webdriver 区别还是很大的: https://go-rod.github.io/i18n/zh-CN/#/why-rod?id=selenium
我个人时间比较有限,欢迎有兴趣的同学加入,很早之前就开了 issue 了 https://github.com/go-rod/rod/issues/333