请教个关于爬虫的二级页面的问题

資深大佬 : Colorful 7

数据库用的是 mongo

在保存数据的时候，发现，假如说保存的格式是 ‘aaa’ 就类似这种 html 格式的时候，会报错如果说报名的是文字则不会假如说我想保存 html 的话，应该怎么写啊？

大佬有話說 (17)

資深大佬 : ClericPy

每个字都认识, 连起来没看懂…………..

資深大佬 : liuxey

主这语言组织能力就不要假如了，直接上真的，看看 v 友能不能帮的

資深大佬 : burringcat

Escape 一下特殊字符？

資深大佬 : burringcat

@burringcat 而且”aaa”不是 html 吧

資深大佬 : jianzhao123

我猜 lz 想保存 html 却又不知道怎么写代码，保存成 aaa 格式又会错

資深大佬 : yuzo555

V2EX 解析了 < a > 标签导致的一场大型回复误解。。。

诸位 F12 查看源代码就知道主原意是什么了。

但这和数据库也没有关系吧，应该是你后端过滤了 HTML 字符吧。

資深大佬 : burringcat

@yuzo555 omfg ！

資深大佬 : fushall

@yuzo555 哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈

資深大佬 : imn1

数据库用的是 mongo
在保存数据的时候，发现，
假如说保存的格式是〈 a href=’aaaa.html’〉 aaa 〈/a 〉，就类似这种 html 格式的时候，会报错
如果说保存的是文字则不会
假如说我想保存 html 的话，应该怎么写啊？
—————————————————–
v2ex 自动解析
打错一个词
还有可能手机发的，换行消失
共同构成大型事故

資深大佬 : petaflops

这不是爬虫的问题，只是写数据库的问题。。。

資深大佬 : crella

数据库转义，用已有的库

資深大佬 : winnerczwx

#11 转义+1，也可以把 html 标签替换掉再入库，用到的时候再替换回来

資深大佬 : llsquaer

@yuzo555 原来上 V2EX 是需要技巧的..哈哈

資深大佬 : llsquaer

我也是用 MongoDB 存的 html,是没有问题..但可能遇到过和主的情况..

但是有可能你爬的第某个字节是 bytes 类型,(具体原因我也不太明白)
记得有一次爬什么网站遇到过,打死存不进去..直接数据库报错.. 你在存入之前,手动加 str()
你最好把错误码贴出来.

資深大佬 : liuxu

转译 html 标签，php 有 htmlspecialchars()这个函数

主資深大佬 : Colorful

好丢人的一次啊，真的是大型的误解。。

〈 a href=’aaaa.html’〉 aaa 〈/a 〉就是这样的

然后爬虫是用的 python

不过看了评论，大概有思路了

資深大佬 : locoz

htmlencode 了解一下