舆情爬虫项目框架及存储选择
資深大佬 : liwenbest 2
手上有个舆情爬虫项目,需要监控几百个企业和一些关键词的网络舆情。本人之前主要有爬取单个网站的经历,查找了些资料,打算使用 scrapy_redis 分布式爬虫,数据库用 mongodb,还有在考虑用 hadoop 存储框架 这样数据传输和计算方便些。有没有做过同时采集多个网站的高手指点下 爬虫框架和存储应该选择哪种更好
大佬有話說 (13)
手上有个舆情爬虫项目,需要监控几百个企业和一些关键词的网络舆情。本人之前主要有爬取单个网站的经历,查找了些资料,打算使用 scrapy_redis 分布式爬虫,数据库用 mongodb,还有在考虑用 hadoop 存储框架 这样数据传输和计算方便些。有没有做过同时采集多个网站的高手指点下 爬虫框架和存储应该选择哪种更好