跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 聚合多个的网站最新文章入库 然后自己索引可以搜索到 有什么办法能够实现吗.
未分類
12 6 月 2020

聚合多个的网站最新文章入库 然后自己索引可以搜索到 有什么办法能够实现吗.

聚合多个的网站最新文章入库 然后自己索引可以搜索到 有什么办法能够实现吗.

資深大佬 : leihongjiang 16

之前发布了两个主题

聚合浏览网页的 PHP 源码或者软件有吗 www.v2ex.com/t/680814

Python 爬虫 请教能实现我的这两点吗? www.v2ex.com/t/681172

都不太理想.可能是我表达问题的方式不对.

要求如下

1-10 网站 自己写采集规则 采集到标题 跟链接 入库 方便自己索引

采集到的 标题跟 url 按照抓取到的更新时间排序

可以选择查看 1-10 某个网站所采集的全部文章(不需要内容 只需要标题 跟 url)

应该 php 能够实现 我的需求.请指点学习方向

大佬有話說 (1)

  • 資深大佬 : Luoyuanlong

    我之前做过 Java 论坛爬虫,多个论坛的信息抽取规则我将其分别写成一条类选择( document.select())语句,然后作为相应论坛的模板属性,爬取论坛的时候,使用 JEXL 执行此语句,得到执行结果,就是需要抽取的论坛信息。

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具