大佬们，初学python，写的爬小.姐姐视频代码好像根本没用….

etc 大佬有话说 : 2020-1-1 17:56:03

大佬们，初学python，写的爬小.姐姐视频代码好像根本没用….

# -*- coding:UTF-8 -*-
from bs4 import BeautifulSoup
import requests
if __name__ == ‘__main__’:
   target = ‘http://sv.ismicool.cn/k-v.php’
   req = requests.get(url=target)
   html = req.text
   bf = BeautifulSoup(html)
   for item in bf.find_all("source"):
         file=open("list.txt","w")
         file.write(item.get("src")+"n")
   file.close()

想爬http://sv.ismicool.cn/k-v.php这个网站的视频链接，然后写到txt里面，一会去重后直接wget就行

但是现在有两个问题，这个网站每次刷新都会出现不同的视频，不知道怎么让代码循环爬

还有就是，我这个写入文件好像根本不行，运行两次，前面的链接会被后面一次的链接给替换了

感觉我不适合写代码，这玩意太费脑子了，我好难yc014t

robot 大佬有话说 : 2020-1-1 18:00:03

让代码循环爬：
while True:
下面是你原来的代码

写入文件不替换而是在后面追加：
file=open("list.txt","a")

ljm4216 大佬有话说 : 2020-1-1 18:00:29

你这写的神马，建议看看视频跟着写一下，你这连网页结构都没分析呢，beautifulshop用哪里了

etc 大佬有话说 : 2020-1-1 18:01:32

ljm4216 大佬有话说 : 2020-1-1 18:00
你这写的神马，建议看看视频跟着写一下，你这连网页结构都没分析呢，beautifulshop用哪里了 …

不用分析，你打开就知道了，很简单的一个网页
直接找source标签然后爬src链接就行

忘江湖 大佬有话说 : 2020-1-1 18:02:49

本帖最后由忘江湖于 2020-1-1 18:03 编辑

我也爬了不少呢，首先连接地址自动去重，然后采到本地后对比视频md5和sha1，重复的删除掉继续采。
https://s2.ax1x.com/2020/01/01/lGOdxO.png

ljm4216 大佬有话说 : 2020-1-1 18:03:22

可以用Python多线程直接下载命名好呢

etc 大佬有话说 : 2020-1-1 18:04:57

robot 大佬有话说 : 2020-1-1 18:00
让代码循环爬：

大佬真乃神人也，的确可以了:lol

ljm4216 大佬有话说 : 2020-1-1 18:05:23

写入文件，一个是删除原文件的所有内容，再输入，还有一个是追加输入，你用的是前者

ljm4216 大佬有话说 : 2020-1-1 18:06:51

随机视频的话，简单无脑的办法就是建立数据库，每次写入先遍历数据库比对，如果相同则不写入。

etc 大佬有话说 : 2020-1-1 18:07:30

ljm4216 大佬有话说 : 2020-1-1 18:05
写入文件，一个是删除原文件的所有内容，再输入，还有一个是追加输入，你用的是前者 …

谢谢大佬指点，受教了