Python 爬虫 请教能实现我的这两点吗?
因为自己需要浏览很多的页面,工作量太大,也找不到合适类似的软件. 所以自己想写两个爬虫
1:根据需要的网站 爬取到标题和 url 根据自己的需求浏览 2:设置关键词 搜索 全部抓取数据 然后设置爬虫判断是否展示
如果 Python 小白 开始学习的话.需要多长的时间可以.
因为自己需要浏览很多的页面,工作量太大,也找不到合适类似的软件. 所以自己想写两个爬虫
1:根据需要的网站 爬取到标题和 url 根据自己的需求浏览 2:设置关键词 搜索 全部抓取数据 然后设置爬虫判断是否展示
如果 Python 小白 开始学习的话.需要多长的时间可以.
放弃原因并不是难写,而是耗费储存空间、耗时,一个工作要么空间换时间、要么时间换空间,两者都耗费就不值得做
而且这样爬不仅仅是一两天的事,是个常态,这样就极可能被网站 ban,得不偿失
建议善用 Ctrl-F 或者写页内脚本,把不想看的内容 display:none,或者 highlight 想看的内容
总体努力的话 1 周可以了~
例如:网站 A 更新了新的文章 然后我就可以看到 B 更新了文章 我可以看到.
接下来 xpath 的分析直接参考代码中的实现。先按 xpath:<article id=”post-ID” …>来选择项目,再分析每个项目的值。
代码: https://gitee.com/crella/codes/guori0c8dh9s6myz32b5n96
@leihongjiang
python 对应用 lxml 或者 beautifulsoup,写的 xpath 与 ruby 的 Nokogiri 的形式可能有不同。