燕十三丶 大佬有话说 :
#新手教程# 批量采集网址所有指定字符
教大家如何采集网站所有指定字符 (大神勿喷)
三个思路
1.采用python爬虫 直接遍历网站所有网页 搜索去重所有关键字并整理输出(高手)
2.下载所有网页到本地idm站点下载 然后使用工具批量提取指定字符 (网络新手)
3.用火车头采集 (小学生我)
本文采用第三种方式 欢迎大佬补充 第一 第二 方式
—————————————————————————————————————————————-
拿98tang做栗子
需求:
我们要找到所有包含磁力链接的字符
—————————————————————————————————————————————-
1.下载火车头 这里我提供一个学习的版本 http://tmp.link/f/5eaa87f97ab5d仅供学习之用
2.安装所需环境和依赖 (文件包里面已提供vcredist等依赖包下载地址
2.1 .net 4.0
2.2 vcredist
3.火车头等使用 分为四个部分
3.1 网址采集规则
很好理解 就是你需要采集什么网页 (分析网页结构
https://www.98tang.me/thread-[地址参数]-1-10.html
数字变化 每次递增1 共xx项(xx 代表你要采集到多少)有预览可以看到你要采集到页面
3.2 内容采集规则
很好理解 就是你需要采集什么内容
磁力链接在<ol><li>
</ol></div> 之间
3.3内容发布(本文不做研究)
3.4 采集设置 (线程啥的设置
4.0可以设置采集文件保存为txt html等等文件 默认是db3需要SQLite 才能打开
5.0采集了磁力接下来你可以拖到115 或者Aria2迅雷啥的批量下载
6.0下载了记得上传gd 分析出来
本文完 菜鸡的成果
https://s3.jpg.cm/2020/04/30/VG6XS.png
我是大水逼 大佬有话说 :
说得好,我选择python
yanaxiao 大佬有话说 :
感谢分享。学习了。
JOSH 大佬有话说 :
遍历容易。
生成数字的话 估计很多是死链
https://cdn.jsdelivr.net/gh/hishis/forum-grandmaster-for-discuz/public/images/patch.gif
燕十三丶 大佬有话说 :
我是大水逼 大佬有话说 : 2020-4-30 16:25
说得好,我选择python
我也想选择python啊但是去重整理输出搞不定
b66667777 大佬有话说 :
感谢分享
燕十三丶 大佬有话说 :
JOSH 大佬有话说 : 2020-4-30 16:33
遍历容易。
生成数字的话 估计很多是死链
死链没有磁力 他会跳过的:lol