#新手教程# 批量采集网址所有指定字符

燕十三丶 大佬有话说 :

#新手教程# 批量采集网址所有指定字符

教大家如何采集网站所有指定字符（大神勿喷）

三个思路
1.采用python爬虫直接遍历网站所有网页搜索去重所有关键字并整理输出（高手）
2.下载所有网页到本地idm站点下载然后使用工具批量提取指定字符（网络新手）
3.用火车头采集（小学生我）

本文采用第三种方式欢迎大佬补充第一第二方式
—————————————————————————————————————————————-

拿98tang做栗子

需求：
我们要找到所有包含磁力链接的字符

—————————————————————————————————————————————-
1.下载火车头这里我提供一个学习的版本 http://tmp.link/f/5eaa87f97ab5d仅供学习之用

2.安装所需环境和依赖 (文件包里面已提供vcredist等依赖包下载地址
2.1 .net 4.0
2.2 vcredist
3.火车头等使用分为四个部分
3.1 网址采集规则
      很好理解就是你需要采集什么网页（分析网页结构
      https://www.98tang.me/thread-[地址参数]-1-10.html
      数字变化每次递增1 共xx项（xx 代表你要采集到多少）有预览可以看到你要采集到页面

3.2 内容采集规则
      很好理解就是你需要采集什么内容
   磁力链接在<ol><li>
   </ol></div> 之间

3.3内容发布（本文不做研究）
3.4 采集设置（线程啥的设置

4.0可以设置采集文件保存为txt html等等文件默认是db3需要SQLite 才能打开

5.0采集了磁力接下来你可以拖到115 或者Aria2迅雷啥的批量下载

6.0下载了记得上传gd 分析出来

本文完菜鸡的成果
https://s3.jpg.cm/2020/04/30/VG6XS.png

我是大水逼 大佬有话说 :

说得好，我选择python

yanaxiao 大佬有话说 :

感谢分享。学习了。

JOSH 大佬有话说 :

遍历容易。
生成数字的话估计很多是死链

https://cdn.jsdelivr.net/gh/hishis/forum-grandmaster-for-discuz/public/images/patch.gif

燕十三丶 大佬有话说 :

我是大水逼大佬有话说 : 2020-4-30 16:25
说得好，我选择python

我也想选择python啊但是去重整理输出搞不定

b66667777 大佬有话说 :

感谢分享

燕十三丶 大佬有话说 :

JOSH 大佬有话说 : 2020-4-30 16:33
遍历容易。
生成数字的话估计很多是死链

死链没有磁力他会跳过的:lol