跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 爬虫大佬进来看看 这个书籍的详细信息部分该怎么抓取
未分類
19 9 月 2021

爬虫大佬进来看看 这个书籍的详细信息部分该怎么抓取

小心二次元 大佬有话说 :

爬虫大佬进来看看 这个书籍的详细信息部分该怎么抓取

https://book.kongfz.com/247990/3896087752/
https://s1.328888.xyz/2021/09/19/9114457.png
这里f12看是无序列表 有的书信息不全 怎么才能按字段把信息抓取出来 比如 作者 出版社 这样分开提取 出来
https://s1.328888.xyz/2021/09/19/38.png

tonyma 大佬有话说 :

不都是一个结构里面的数据吗?结构化数据,if else判断提取就行

asan1148 大佬有话说 :

xpath 定位作者 出版时间等 然后提取子节点数据

盯裆猫 大佬有话说 :

正则 css xpath 都可以啊

van 大佬有话说 :

取所以的ul把,匹配标识

JustDoing 大佬有话说 :

提供一个思路,
先把detail-list1 的内容搞到,然后 get_all 所有的 li 标签,每个li标签都转成文字(.text()),之后在分割字符串:,实现信息的数组化

我思路是用python爬,其他的语言借鉴即可

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具