跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 如何纯前端实现爬虫
未分類
14 2 月 2020

如何纯前端实现爬虫

如何纯前端实现爬虫

資深大佬 : easylee1996 22

不通过后端的服务器,相当于用户每次访问网页,在前端爬取数据后,再上传到后端,每次使用用户的 ip 。 当然需要告之用户,类似做一个更新最新数据的按钮,用户自己点击,然后再爬取数据。

大佬有話說 (26)

  • 資深大佬 : xiaoxinshiwo

    你说的啥???

  • 資深大佬 : sun019

    百度爬虫里面有个 自动提交的 js 功能,你可以参考下他怎么做的。
    他的流程就是用户访问了该网页,然后就把网址提交了。后续爬虫定时再来爬。

  • 資深大佬 : lzdyes

    浏览器跨域你的想法就被 kill 了

  • 資深大佬 : lshero

    油猴写个脚本就搞定了啊

  • 資深大佬 : dcalsky

    浏览器有跨域的限制,不会让你从这个页面发送 http 请求给其他页面的,除非人家开了针对你的 CORS (或者*),或者你 get 到了他的 jsonp 接口(但是没人会给 html 页面开 jsonp 吧)。所以理论上不行,除非你说的前端不是 web,而是其他客户端。

  • 主 資深大佬 : easylee1996

    @xiaoxinshiwo 用前端 js 能不能爬取数据,不使用 python,java 这些

  • 資深大佬 : coderluan

    最简单的办法是油猴脚本,比较折中的办法是浏览器插件,这些都能保证爬取的过程都是用户行为,单纯的网页肯定还得你提供服务,严格来说就不能算纯前端了。

  • 資深大佬 : hcwhan

    @easylee1996 不能 具体原因请搜索 同源策略 跨域

  • 資深大佬 : tyx1703

    用油

  • 資深大佬 : also24

    需要先定义一下 『纯前端』指的是什么。

    是说你自己搭建一个前端页面,然后去爬其它网站?

    还是说你在其它人的页面上执行一段前端脚本(类似油猴、浏览器扩展),来实现对其它网站的抓取?

  • 資深大佬 : binbinyouliiii

    浏览器:”不,你不想”

  • 資深大佬 : ic2y

    使用浏览器扩展,是可以的。

    一些比价插件,就会通过插件扩展机制,去扫描当前页面的 document,根据不同的网站 url,执行不同的采集策略。

    采集到的数据,会通过 http 传送到后端,既能让用户帮助自己辅助数据抓取,也能满足用户更精准的比价需求 [爬当前页的商品基本文案,可以比价推荐类似的产品] 。

  • 資深大佬 : ljpCN

    @easylee1996 puppeteer

  • 資深大佬 : shanghai1998

    不行

  • 資深大佬 : azh7138m

    就是省一个 ip 池的钱嘛

    纯 Web 做不了,原因看 #5 dcalsky

  • 資深大佬 : xiaoxinshiwo

    @easylee1996 #6 http://blog.mspider.cn/

  • 資深大佬 : DOLLOR

    用油猴子+Chrome/Firefox 可以,我自己都试过。
    借助油猴子绕过跨域检测。

  • 主 資深大佬 : easylee1996

    @azh7138m 对,除了省钱,主要是采集的东西及时性比较强,页面比较多,如果可以实现的话,用户看得都是最新的

  • 資深大佬 : endoffight

    好实现,找一个只会前端小伙伴帮你写爬虫就行了

  • 資深大佬 : tabris17

    1 、浏览器扩展
    2 、Electron 自制浏览器

  • 資深大佬 : ajaxfunction

    先搞清楚这个爬虫是你自己用 还是给用户用

    要是你自己用咋也好说,浏览器插件 扩展 脚本都行

    如果是给用户用,那么浏览器就限制死了,无法发起跨域操作,你总不能让用户去安装 扩展 脚本这些吧?

  • 資深大佬 : netnr

    爬取行政区域,基于浏览器

    https://github.com/netnr/zoning

    需要跨域可以加一个代理,参考:netnr/workers 或 netnr/proxy

  • 資深大佬 : netnr

    再一个例子,域名备案查询,直接在浏览器发起站长之家的链接,匹配 HTML 提取关键内容

    https://ss.netnr.com/icp

  • 資深大佬 : Tink

    你跨域了

  • 資深大佬 : iX8NEGGn

    @netnr 可是,加代理了走的不就是代理的 ip 了吗,主想用户的 ip 。同源策略,跨域,看来主想多了

  • 資深大佬 : angryfish

    浏览器是不行的。安卓,ios 这些 app 是可以做到的

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具