跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • #新手教程# 批量采集网址所有指定字符
未分類
30 4 月 2020

#新手教程# 批量采集网址所有指定字符

燕十三丶 大佬有话说 :

#新手教程# 批量采集网址所有指定字符

教大家如何采集网站所有指定字符 (大神勿喷)

三个思路
1.采用python爬虫 直接遍历网站所有网页 搜索去重所有关键字并整理输出(高手)
2.下载所有网页到本地idm站点下载   然后使用工具批量提取指定字符    (网络新手)
3.用火车头采集    (小学生我)

本文采用第三种方式   欢迎大佬补充 第一 第二 方式
—————————————————————————————————————————————-

拿98tang做栗子

需求:
我们要找到所有包含磁力链接的字符

—————————————————————————————————————————————-
1.下载火车头   这里我提供一个学习的版本 http://tmp.link/f/5eaa87f97ab5d仅供学习之用

2.安装所需环境和依赖 (文件包里面已提供vcredist等依赖包下载地址
   2.1 .net 4.0
   2.2 vcredist
3.火车头等使用 分为四个部分
   3.1 网址采集规则
          很好理解 就是你需要采集什么网页 (分析网页结构
          https://www.98tang.me/thread-[地址参数]-1-10.html
         数字变化 每次递增1 共xx项(xx 代表你要采集到多少)有预览可以看到你要采集到页面
      
   3.2 内容采集规则
         很好理解 就是你需要采集什么内容
      磁力链接在<ol><li>
      </ol></div> 之间

   3.3内容发布(本文不做研究)
   3.4 采集设置 (线程啥的设置

4.0可以设置采集文件保存为txt html等等文件 默认是db3需要SQLite 才能打开

5.0采集了磁力接下来你可以拖到115 或者Aria2迅雷啥的批量下载

6.0下载了记得上传gd 分析出来

本文完   菜鸡的成果
https://s3.jpg.cm/2020/04/30/VG6XS.png

我是大水逼 大佬有话说 :

说得好,我选择python

yanaxiao 大佬有话说 :

感谢分享。学习了。

JOSH 大佬有话说 :

遍历容易。
生成数字的话 估计很多是死链

https://cdn.jsdelivr.net/gh/hishis/forum-grandmaster-for-discuz/public/images/patch.gif

燕十三丶 大佬有话说 :

我是大水逼 大佬有话说 : 2020-4-30 16:25
说得好,我选择python

我也想选择python啊但是去重整理输出搞不定

b66667777 大佬有话说 :

感谢分享

燕十三丶 大佬有话说 :

JOSH 大佬有话说 : 2020-4-30 16:33
遍历容易。
生成数字的话 估计很多是死链

死链没有磁力 他会跳过的:lol

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具