小心二次元 大佬有话说 :
爬虫大佬进来看看 这个书籍的详细信息部分该怎么抓取
https://book.kongfz.com/247990/3896087752/
https://s1.328888.xyz/2021/09/19/9114457.png
这里f12看是无序列表 有的书信息不全 怎么才能按字段把信息抓取出来 比如 作者 出版社 这样分开提取 出来
https://s1.328888.xyz/2021/09/19/38.png
tonyma 大佬有话说 :
不都是一个结构里面的数据吗?结构化数据,if else判断提取就行
asan1148 大佬有话说 :
xpath 定位作者 出版时间等 然后提取子节点数据
盯裆猫 大佬有话说 :
正则 css xpath 都可以啊
van 大佬有话说 :
取所以的ul把,匹配标识
JustDoing 大佬有话说 :
提供一个思路,
先把detail-list1 的内容搞到,然后 get_all 所有的 li 标签,每个li标签都转成文字(.text()),之后在分割字符串:,实现信息的数组化
我思路是用python爬,其他的语言借鉴即可