跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 请教个关于爬虫的二级页面的问题
未分類
28 3 月 2020

请教个关于爬虫的二级页面的问题

请教个关于爬虫的二级页面的问题

資深大佬 : Colorful 7

数据库用的是 mongo

在保存数据的时候,发现,假如说保存的格式是 ‘aaa’ 就类似这种 html 格式的时候,会报错 如果说报名的是文字则不会 假如说我想保存 html 的话,应该怎么写啊?

大佬有話說 (17)

  • 資深大佬 : ClericPy

    每个字都认识, 连起来没看懂…………..

  • 資深大佬 : liuxey

    主这语言组织能力就不要假如了,直接上真的,看看 v 友能不能帮的

  • 資深大佬 : burringcat

    Escape 一下特殊字符?

  • 資深大佬 : burringcat

    @burringcat 而且”aaa”不是 html 吧

  • 資深大佬 : jianzhao123

    我猜 lz 想保存 html 却又不知道怎么写代码,保存成 aaa 格式又会错

  • 資深大佬 : yuzo555

    V2EX 解析了 < a > 标签导致的一场大型回复误解。。。

    诸位 F12 查看源代码就知道主原意是什么了。

    但这和数据库也没有关系吧,应该是你后端过滤了 HTML 字符吧。

  • 資深大佬 : burringcat

    @yuzo555 omfg !

  • 資深大佬 : fushall

    @yuzo555 哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈

  • 資深大佬 : imn1

    数据库用的是 mongo
    在保存数据的时候,发现,
    假如说保存的格式是 〈 a href=’aaaa.html’〉 aaa 〈/a 〉,就类似这种 html 格式的时候,会报错
    如果说 保存 的是文字则不会
    假如说我想保存 html 的话,应该怎么写啊?
    —————————————————–
    v2ex 自动解析
    打错一个词
    还有可能手机发的,换行消失
    共同构成大型事故

  • 資深大佬 : petaflops

    这不是爬虫的问题,只是写数据库的问题。。。

  • 資深大佬 : crella

    数据库转义,用已有的库

  • 資深大佬 : winnerczwx

    #11 转义+1,也可以把 html 标签替换掉再入库,用到的时候再替换回来

  • 資深大佬 : llsquaer

    @yuzo555 原来上 V2EX 是需要技巧的..哈哈

  • 資深大佬 : llsquaer

    我也是用 MongoDB 存的 html,是没有问题..但可能遇到过和主的情况..

    但是有可能你爬的第某个字节是 bytes 类型,(具体原因我也不太明白)
    记得有一次爬什么网站遇到过,打死存不进去..直接数据库报错.. 你在存入之前,手动加 str()
    你最好把错误码贴出来.

  • 資深大佬 : liuxu

    转译 html 标签,php 有 htmlspecialchars()这个函数

  • 主 資深大佬 : Colorful

    好丢人的一次啊,真的是大型的误解。。

    〈 a href=’aaaa.html’〉 aaa 〈/a 〉 就是这样的

    然后爬虫是用的 python

    不过看了评论,大概有思路了

  • 資深大佬 : locoz

    htmlencode 了解一下

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具