跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 舆情爬虫项目框架及存储选择
未分類
9 1 月 2021

舆情爬虫项目框架及存储选择

舆情爬虫项目框架及存储选择

資深大佬 : liwenbest 2

手上有个舆情爬虫项目,需要监控几百个企业和一些关键词的网络舆情。本人之前主要有爬取单个网站的经历,查找了些资料,打算使用 scrapy_redis 分布式爬虫,数据库用 mongodb,还有在考虑用 hadoop 存储框架 这样数据传输和计算方便些。有没有做过同时采集多个网站的高手指点下 爬虫框架和存储应该选择哪种更好

大佬有話說 (13)

  • 資深大佬 : AntoniotheFuture

    舆情爬虫有商业服务了,要不要考虑一下?

  • 主 資深大佬 : liwenbest

    @AntoniotheFuture 加我 QQ986636628 私聊

  • 資深大佬 : AntoniotheFuture

    @liwenbest 我没有做,你百度一下有很多啊

  • 資深大佬 : Keyes

    预算多少,买个现成的,卖两个人过去看着吧,我司舆情项目都 saas 化了,单一系统根本收不回成本

  • 資深大佬 : wzwwzw

    @liwenbest QQ 有答案无法回复。

  • 資深大佬 : czfy

    这种从 0 开始不太现实吧..数说故事 /明略 /秒针之类的都有解决方案

  • 資深大佬 : murmur

    是真的要做还是要坑人钱,爬微博知乎就省省吧,贴吧那么多你爬哪里

  • 主 資深大佬 : liwenbest

    @wzwwzw 沙滩车

  • 主 資深大佬 : liwenbest

    @Keyes 公司接了个舆情项目 要开发的 开发周期一年 要自己搞了

  • 主 資深大佬 : liwenbest

    @czfy 要自己开发的

  • 資深大佬 : czfy

    @liwenbest 自己开发..只能祝你好运

  • 資深大佬 : smgui

    可以试试这个,试过用 kafka 和 rabbitmq 作为队列爬了些网络小说:
    https://github.com/Insutanto/scrapy-distributed
    这些框架的源代码都很简单,完全可以自己造轮子。

  • 主 資深大佬 : liwenbest

    @smgui 非常感谢 我看看

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具