etc 大佬有话说 : 2020-1-1 17:56:03
大佬们,初学python,写的爬小.姐姐视频代码好像根本没用….
# -*- coding:UTF-8 -*-
from bs4 import BeautifulSoup
import requests
if __name__ == ‘__main__’:
target = ‘http://sv.ismicool.cn/k-v.php’
req = requests.get(url=target)
html = req.text
bf = BeautifulSoup(html)
for item in bf.find_all("source"):
file=open("list.txt","w")
file.write(item.get("src")+"n")
file.close()
想爬http://sv.ismicool.cn/k-v.php这个网站的视频链接,然后写到txt里面,一会去重后直接wget就行
但是现在有两个问题,这个网站每次刷新都会出现不同的视频,不知道怎么让代码循环爬
还有就是,我这个写入文件好像根本不行,运行两次,前面的链接会被后面一次的链接给替换了
感觉我不适合写代码,这玩意太费脑子了,我好难yc014t
robot 大佬有话说 : 2020-1-1 18:00:03
让代码循环爬:
while True:
下面是你原来的代码
写入文件不替换而是在后面追加:
file=open("list.txt","a")
ljm4216 大佬有话说 : 2020-1-1 18:00:29
你这写的神马,建议看看视频跟着写一下,你这连网页结构都没分析呢,beautifulshop用哪里了
etc 大佬有话说 : 2020-1-1 18:01:32
ljm4216 大佬有话说 : 2020-1-1 18:00
你这写的神马,建议看看视频跟着写一下,你这连网页结构都没分析呢,beautifulshop用哪里了 …
不用分析,你打开就知道了,很简单的一个网页
直接找source标签然后爬src链接就行
忘江湖 大佬有话说 : 2020-1-1 18:02:49
本帖最后由 忘江湖 于 2020-1-1 18:03 编辑
我也爬了不少呢,首先连接地址自动去重,然后采到本地后对比视频md5和sha1,重复的删除掉继续采。
https://s2.ax1x.com/2020/01/01/lGOdxO.png
ljm4216 大佬有话说 : 2020-1-1 18:03:22
可以用Python多线程直接下载命名好呢
etc 大佬有话说 : 2020-1-1 18:04:57
robot 大佬有话说 : 2020-1-1 18:00
让代码循环爬:
大佬真乃神人也,的确可以了:lol
ljm4216 大佬有话说 : 2020-1-1 18:05:23
写入文件,一个是删除原文件的所有内容,再输入,还有一个是追加输入,你用的是前者
ljm4216 大佬有话说 : 2020-1-1 18:06:51
随机视频的话,简单无脑的办法就是建立数据库,每次写入先遍历数据库比对,如果相同则不写入。
etc 大佬有话说 : 2020-1-1 18:07:30
ljm4216 大佬有话说 : 2020-1-1 18:05
写入文件,一个是删除原文件的所有内容,再输入,还有一个是追加输入,你用的是前者 …
谢谢大佬指点,受教了