如何纯前端实现爬虫

資深大佬 : easylee1996 22

不通过后端的服务器，相当于用户每次访问网页，在前端爬取数据后，再上传到后端，每次使用用户的 ip 。当然需要告之用户，类似做一个更新最新数据的按钮，用户自己点击，然后再爬取数据。

大佬有話說 (26)

資深大佬 : xiaoxinshiwo

你说的啥？？？
資深大佬 : sun019

百度爬虫里面有个自动提交的 js 功能，你可以参考下他怎么做的。
他的流程就是用户访问了该网页，然后就把网址提交了。后续爬虫定时再来爬。
資深大佬 : lzdyes

浏览器跨域你的想法就被 kill 了
資深大佬 : lshero

油猴写个脚本就搞定了啊
資深大佬 : dcalsky

浏览器有跨域的限制，不会让你从这个页面发送 http 请求给其他页面的，除非人家开了针对你的 CORS （或者*），或者你 get 到了他的 jsonp 接口（但是没人会给 html 页面开 jsonp 吧）。所以理论上不行，除非你说的前端不是 web，而是其他客户端。
主資深大佬 : easylee1996

@xiaoxinshiwo 用前端 js 能不能爬取数据，不使用 python，java 这些
資深大佬 : coderluan

最简单的办法是油猴脚本，比较折中的办法是浏览器插件，这些都能保证爬取的过程都是用户行为，单纯的网页肯定还得你提供服务，严格来说就不能算纯前端了。
資深大佬 : hcwhan

@easylee1996 不能具体原因请搜索同源策略跨域
資深大佬 : tyx1703

用油
資深大佬 : also24

需要先定义一下『纯前端』指的是什么。

是说你自己搭建一个前端页面，然后去爬其它网站？

还是说你在其它人的页面上执行一段前端脚本（类似油猴、浏览器扩展），来实现对其它网站的抓取？
資深大佬 : binbinyouliiii

浏览器:”不，你不想”
資深大佬 : ic2y

使用浏览器扩展，是可以的。

一些比价插件，就会通过插件扩展机制，去扫描当前页面的 document，根据不同的网站 url，执行不同的采集策略。

采集到的数据，会通过 http 传送到后端，既能让用户帮助自己辅助数据抓取，也能满足用户更精准的比价需求 [爬当前页的商品基本文案，可以比价推荐类似的产品] 。
資深大佬 : ljpCN

@easylee1996 puppeteer
資深大佬 : shanghai1998

不行
資深大佬 : azh7138m

就是省一个 ip 池的钱嘛

纯 Web 做不了，原因看 #5 dcalsky
資深大佬 : xiaoxinshiwo

@easylee1996 #6 http://blog.mspider.cn/
資深大佬 : DOLLOR

用油猴子+Chrome/Firefox 可以，我自己都试过。
借助油猴子绕过跨域检测。
主資深大佬 : easylee1996

@azh7138m 对，除了省钱，主要是采集的东西及时性比较强，页面比较多，如果可以实现的话，用户看得都是最新的
資深大佬 : endoffight

好实现，找一个只会前端小伙伴帮你写爬虫就行了
資深大佬 : tabris17

1 、浏览器扩展
2 、Electron 自制浏览器
資深大佬 : ajaxfunction

先搞清楚这个爬虫是你自己用还是给用户用

要是你自己用咋也好说，浏览器插件扩展脚本都行

如果是给用户用，那么浏览器就限制死了，无法发起跨域操作，你总不能让用户去安装扩展脚本这些吧？
資深大佬 : netnr

爬取行政区域，基于浏览器

https://github.com/netnr/zoning

需要跨域可以加一个代理，参考：netnr/workers 或 netnr/proxy
資深大佬 : netnr

再一个例子，域名备案查询，直接在浏览器发起站长之家的链接，匹配 HTML 提取关键内容

https://ss.netnr.com/icp
資深大佬 : Tink

你跨域了
資深大佬 : iX8NEGGn

@netnr 可是，加代理了走的不就是代理的 ip 了吗，主想用户的 ip 。同源策略，跨域，看来主想多了
資深大佬 : angryfish

浏览器是不行的。安卓，ios 这些 app 是可以做到的