跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 讷鱼 – 游向某一片海洋( Python 爬,手机使用)
未分類
28 4 月 2020

讷鱼 – 游向某一片海洋( Python 爬,手机使用)

讷鱼 – 游向某一片海洋( Python 爬,手机使用)

資深大佬 : jizhou 10

之前收集过互联网上博客的网址:1309 个独立博客

大佬有話說 (20)

  • 資深大佬 : Whsiqi

    兰州养生网?

  • 主 資深大佬 : jizhou

    @Whsiqi 网址是啥,可以删除!目前规则还没有非常严格。

  • 資深大佬 : Whsiqi

    @jizhou 兰州养生网是一个奇怪的网站,什么都有
    seo 非常高

  • 主 資深大佬 : jizhou

    @Whsiqi 库里面没有这个网址,奇怪~

  • 主 資深大佬 : jizhou

    @Whsiqi 确实,估计是作弊了吧。

  • 資深大佬 : mgrddsj

    上大概是在吐槽这爬取博客的方法像兰州养生网这样的垃圾采集站吧,并不是建议收录到你的库里去。

  • 資深大佬 : mlboy

    求收录 http://1thx.com

  • 資深大佬 : learningman

    怎么判断一个网站是博客?这可不是个容易活,想不到人工以外的方法。

  • 主 資深大佬 : jizhou

    @learningman 这个其实蛮简单,博客有共性,比如 links 友情链接里面基本是博客。其次程序版本,其次就是内容,甚至文章页面规则。
    当日,具体规则还在优化。还需要完善。

  • 主 資深大佬 : jizhou

    @mlboy 已收录^_^

  • 資深大佬 : raymanr

    @learningman
    决策树或者朴素贝叶斯?判断错了删了就是了

  • 資深大佬 : janda

    这网站是做什么的?就是随机打开一个网址?

  • 資深大佬 : yujiang

    玩了一会,发现有概率跳转到菠菜网站。。。收录是人工审核的吗?

  • 資深大佬 : Macguffin

    似乎会跳转到一些小说网,音乐网之类的,是因为页面布局和博客很像吗?建议加个关键词筛选

  • 資深大佬 : yafoo

    建议使用 location.href 来跳转,这样跳转后还能返回回来

  • 資深大佬 : laycher

    很有意思!!

  • 資深大佬 : i0error

    哦哦我猜到可能是怎么爬的了,评论博文时一般都会填评论者自己的博客地址。上说有 bc 网站,应该是灌水评论故意写的。

  • 資深大佬 : learningman

    @raymanr 你也不知道你判断错了啊。。。判断判断错了还不是要人工

  • 資深大佬 : learningman

    不过这个真的挺好玩的,每次跳转感觉都是打开了另外一个人的人生

  • 資深大佬 : learningman

    刷到这么个玩意儿。。。https://www.pan199.cn/ 这种我觉得挺勉强吧

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具