跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 爬虫问题:只爬取标题,url 是否构成侵权?
未分類
6 12 月 2020

爬虫问题:只爬取标题,url 是否构成侵权?

爬虫问题:只爬取标题,url 是否构成侵权?

資深大佬 : baijiahei 0

  • 爬虫频率设置的很低 10 分钟一次 不对源站造成性能问题
  • 抓取标题 URL 本地存储 用户点击跳转到源站 是否构成侵权
  • 我知道这个是 百度(蜘蛛) 的做法,但是他们是大厂 个人这样做是否有问题
  • 麻烦大家帮我科普一下
大佬有話說 (19)

  • 主 資深大佬 : baijiahei

    咋都是进来瞄一眼就跑的啊,没人帮忙解答一下吗?

    之前 RSS 很多被下架 原因都是什么

  • 資深大佬 : natashahollyz

    个人觉得不构成。
    流量还是回到源站的话,这没什么问题。
    转载注明出处也没啥问题。源站注明拒绝转载除外。

  • 主 資深大佬 : baijiahei

    @natashahollyz 我也是这么想的 但是 RSS 类的为啥被下架那么多呢 是因为不受控 有外网内容?

  • 資深大佬 : natashahollyz

    @baijiahei 苹果说有违反中国法律的内容。。。大概能猜到是什么了

  • 資深大佬 : czfy

    10 分钟一次,这个频率挺高了其实
    只抓标题,理论上肯定比抓全文风险更低

  • 資深大佬 : natashahollyz

    @baijiahei 抓全文可能涉及到版权,抓标题应该不涉及。如果源站不让抓,通知你一下,你不抓就是了。法律风险微乎其微

  • 資深大佬 : ztxcccc

    看 robot.txt 做事
    频率合理
    只爬公开页面
    不直接盈利

    至少被告的时候还能抗诉下

  • 資深大佬 : westoy

    通用搜索引擎并不是定向爬取+定向利用

    定向爬取定向利用是有争议的, 对方是有机会搞你的

    feed 是平台主动把数据展示给你

    几个性质不一样的

  • 主 資深大佬 : baijiahei

    @natashahollyz 大概是想象的样子 毕竟 rss 是用户自定义 不可控

  • 主 資深大佬 : baijiahei

    @natashahollyz 是的

  • 資深大佬 : natashahollyz

    @baijiahei 时政别碰,搞不好喝茶。其它的不要怕

  • 主 資深大佬 : baijiahei

    @natashahollyz 没这想法 很多东西是红线

  • 資深大佬 : opengps

    爬虫现在没有明确边界,除了已经想到的问题,多关注这一行里的新闻及时调整吧

  • 資深大佬 : opengps

    文中有看到类比百度,这是个不太合适的类比,毕竟百度给源站带去流量,可能是源站期望的效果。

  • 資深大佬 : jones2000

    找个律师事务所咨询下不就可以了。

  • 資深大佬 : 2088TXT

    百度也是 看 robot.txt 协议吧

  • 資深大佬 : Ayersneo

    @2088TXT 百度看 但是百度好像看不懂 User-agent:* Disallow: /

  • 主 資深大佬 : baijiahei

    @Ayersneo 百度对一些站根本不鸟 robots

  • 資深大佬 : zerofancy

    @baijiahei 不抓正文感觉问题不大吧。RSS 在中国流行不起来我感觉有一个重要原因是 RSS 是会被阅读器缓存的。假如微博热搜提供 RSS,那么怎么撤热搜?事实上现在提供 RSS 的基本也就是一些博客或者技术性的论坛了,这些基本都没有删文章的需求。

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具