跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 不知道这个问题是属于爬虫问题还是属于服务器问题?想请教下,爬二级页面的问题
未分類
18 5 月 2020

不知道这个问题是属于爬虫问题还是属于服务器问题?想请教下,爬二级页面的问题

不知道这个问题是属于爬虫问题还是属于服务器问题?想请教下,爬二级页面的问题

資深大佬 : Colorful 0

实际情况是这样的 在爬取二级页面的时候,我在浏览器里面发现,每个二级页面都会请求 10 个接口

假如说,我现在不爬取这个二级页面,改为爬虫这个接口,去请求 3 个接口

那么是直接爬取二级页面对服务器压力大?还是直接去请求那三个接口对服务器压力会大一点? 我不太懂原理这块,想了解一下

大佬有話說 (12)

  • 資深大佬 : 2bNot2b

    那肯定是爬页面服务器压大啊

  • 主 資深大佬 : Colorful

    @2bNot2b 你是说直接爬取二级页面?

  • 資深大佬 : keepeye

    你以什么方式请求二级页面呢?

  • 主 資深大佬 : Colorful

    @keepeye 列表页面里面有 url 直接通过 url 请求

  • 資深大佬 : jugelizi

    上是问你用 requests 还是 webdriver

  • 主 資深大佬 : Colorful

    @jugelizi 用的 scrapy

  • 主 資深大佬 : Colorful

    @jugelizi requests

  • 資深大佬 : keepeye

    @Colorful 如果你的数据要通过接口获取,那么你用 requests 请求二级页面也拿不到数据啊,你只能拿到一个 html 而已,就产生了一次请求,可能还是 cdn 的,对服务器来说肯定是这种情况压力小啊

  • 資深大佬 : 2bNot2b

    @Colorful 如果是用 webdriver 之类的爬取的话,相当于是打开页面,页面多次请求接口(这个是请求数最多的);如果使用 requests 之类的直接 get 二级页面的话,就只有一次请求;如果你直接用 requests 请求接口 也是只有一次请求

  • 主 資深大佬 : Colorful

    @keepeye
    @2bNot2b

    理解了,太感谢了

  • 資深大佬 : imn1

    肯定应该请求接口,除非你不知道接口的 url (变化的 url ),要从页面解析出来
    单纯获取页面得不到数据,还要继续获取接口

    但你的问题是问哪个压力大,那就答案相反

  • 資深大佬 : dallaslu

    有接口当然用接口啊

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具