跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 98中文字幕
未分類
5 2 月 2020

98中文字幕

bbsbbs 大佬有话说 : 2020-1-23 17:35:10

98中文字幕

闲来无事写了一个抓取某网站magnet链接脚本。python不会用,只能用shell脚本
写的比较粗糙,献丑了。初步估算4600+个中文字幕

#!/bin/bash
DOMAIN=www.98ssw.space
#DOMAIN=www.98tang.com
#DOMAIN=www.98ddt.xyz
#DOMAIN=98ssw.site
#中文字幕版块ID为103
FORUM_ID=103
#THREAD_START即版块进去页码数,需要按照论坛版块实际情况修改。中文字幕版块有156页
THREAD_START=156
THREAD_STOP=1
#为了减少被封,特意增加sleep参数,取消抓取速度会更快
SLEEP_TIME=1

#按照时间由早到近倒叙抓取,可以按照需要修改成由新到旧。
for((i=$THREAD_START;i>=$THREAD_STOP;i–));
#for((i=$THREAD_STOP;i<=$THREAD_START;i++));
do
#grep命令解释下,直接抓取thread开头,中间包含“-1-”字符,以结尾.html字符串。
wget -qO- https://$DOMAIN/forum-$FORUM_ID-$i.html| grep -oP ‘thread.*?(?=-1-).*?.html(?=")’ > thread$i.txt;
#不排序去除重复行
awk ‘!x[$0]++’ thread$i.txt > sort_thread$i.txt;
#添加网址前缀,形成完整链接
sed -i "s/^/https://$DOMAIN/&/g" sort_thread$i.txt;
cat sort_thread$i.txt | while read line; do sleep $SLEEP_TIME && curl $line | grep -i magnet|cut -d ">" -f6|cut -d "<" -f1; done > magnet$i.txt
#取消sleep参数,请用下面命令
#cat sort_thread$i.txt | while read line; do curl $line | grep -i magnet|cut -d ">" -f6|cut -d "<" -f1; done > magnet$i.txt
done

cat magnet*.txt >> magnet_all.txt

CACss 大佬有话说 : 2020-1-23 17:41:13

本帖最后由 CACss 于 2020-1-23 17:45 编辑

要是能表明番号就更好

类似这样的
http://img01.sogoucdn.com/app/a/100520146/12FD6685E68BDF4904700F1A9A85A051

bbsbbs 大佬有话说 : 2020-1-23 17:36:44

本帖最后由 bbsbbs 于 2020-1-25 13:27 编辑

TA分享了1个文件给你,在奶牛快传首页(cowtransfer.com)输入取件码:wtv1oy (24小时内有效) 查看文件列表,或直接点击取件链接:: https://c-t.work/s/ff55bd24a8794d 查看文件列表

带番号版本
TA分享了1个文件给你,在奶牛快传首页(cowtransfer.com)输入取件码:86ccsy (24小时内有效) 查看文件列表,或直接点击取件链接:: https://c-t.work/s/e0efb8f96de64d 查看文件列表

#!/bin/bash
#DOMAIN=www.98ssw.space
#DOMAIN=www.98tang.com
#DOMAIN=www.98ddt.xyz
DOMAIN=www.98ssw.site
#中文字幕版块ID为103
FORUM_ID=103
#THREAD_START即版块进去页码数,需要按照论坛版块实际情况修改。中文字幕版块有157页
THREAD_START=157
THREAD_STOP=1
TMP_HTML="/tmp/tmp.html"
#为了减少被封,特意增加sleep参数,取消抓取速度会更快
SLEEP_TIME=1

function GET_INFO()
{
keywords="$(grep keywords $1|cut -d ‘"’ -f4)"
magnet_link="$(grep magnet $1|cut -d ">" -f6|cut -d "<" -f1)"
echo -e "$keywordst$magnet_link"
}

#按照时间由早到近倒叙抓取,可以按照需要修改成由新到旧。
for((i=$THREAD_START;i>=$THREAD_STOP;i–));
#for((i=$THREAD_STOP;i<=$THREAD_START;i++));
do
#grep命令解释下,直接抓取thread开头,中间包含“-1-”字符,以结尾.html字符串。
wget -qO- https://$DOMAIN/forum-$FORUM_ID-$i.html| grep -oP ‘thread.*?(?=-1-).*?.html(?=")’ > thread$i.txt;
#不排序去除重复行
awk ‘!x[$0]++’ thread$i.txt > sort_thread$i.txt;
#添加网址前缀,形成完整链接
sed -i "s/^/https://$DOMAIN/&/g" sort_thread$i.txt;
#cat sort_thread$i.txt | while read line; do sleep $SLEEP_TIME && curl $line | grep -i magnet|cut -d ">" -f6|cut -d "<" -f1; done > magnet$i.txt
cat sort_thread$i.txt | while read line; do curl -o $TMP_HTML $line | GET_INFO $TMP_HTML; done > Chinese$i.txt
done

Reves 大佬有话说 : 2020-1-23 17:38:07

是让人营养不良的那个站吗

十里山路不换 大佬有话说 : 2020-1-23 17:43:19

什么来的

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具