未分類 28 4 月 2020 讷鱼 – 游向某一片海洋( Python 爬,手机使用) 讷鱼 – 游向某一片海洋( Python 爬,手机使用) 資深大佬 : jizhou 10 之前收集过互联网上博客的网址:1309 个独立博客 大佬有話說 (20) 資深大佬 : Whsiqi 兰州养生网? 主 資深大佬 : jizhou @Whsiqi 网址是啥,可以删除!目前规则还没有非常严格。 資深大佬 : Whsiqi @jizhou 兰州养生网是一个奇怪的网站,什么都有seo 非常高 主 資深大佬 : jizhou @Whsiqi 库里面没有这个网址,奇怪~ 主 資深大佬 : jizhou @Whsiqi 确实,估计是作弊了吧。 資深大佬 : mgrddsj 上大概是在吐槽这爬取博客的方法像兰州养生网这样的垃圾采集站吧,并不是建议收录到你的库里去。 資深大佬 : mlboy 求收录 http://1thx.com 資深大佬 : learningman 怎么判断一个网站是博客?这可不是个容易活,想不到人工以外的方法。 主 資深大佬 : jizhou @learningman 这个其实蛮简单,博客有共性,比如 links 友情链接里面基本是博客。其次程序版本,其次就是内容,甚至文章页面规则。当日,具体规则还在优化。还需要完善。 主 資深大佬 : jizhou @mlboy 已收录^_^ 資深大佬 : raymanr @learningman 决策树或者朴素贝叶斯?判断错了删了就是了 資深大佬 : janda 这网站是做什么的?就是随机打开一个网址? 資深大佬 : yujiang 玩了一会,发现有概率跳转到菠菜网站。。。收录是人工审核的吗? 資深大佬 : Macguffin 似乎会跳转到一些小说网,音乐网之类的,是因为页面布局和博客很像吗?建议加个关键词筛选 資深大佬 : yafoo 建议使用 location.href 来跳转,这样跳转后还能返回回来 資深大佬 : laycher 很有意思!! 資深大佬 : i0error 哦哦我猜到可能是怎么爬的了,评论博文时一般都会填评论者自己的博客地址。上说有 bc 网站,应该是灌水评论故意写的。 資深大佬 : learningman @raymanr 你也不知道你判断错了啊。。。判断判断错了还不是要人工 資深大佬 : learningman 不过这个真的挺好玩的,每次跳转感觉都是打开了另外一个人的人生 資深大佬 : learningman 刷到这么个玩意儿。。。https://www.pan199.cn/ 这种我觉得挺勉强吧