跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 大佬们,初学python,写的爬小.姐姐视频代码好像根本没用….
未分類
8 2 月 2020

大佬们,初学python,写的爬小.姐姐视频代码好像根本没用….

etc 大佬有话说 : 2020-1-1 17:56:03

大佬们,初学python,写的爬小.姐姐视频代码好像根本没用….

# -*- coding:UTF-8 -*-
from bs4 import BeautifulSoup
import requests
if __name__ == ‘__main__’:
      target = ‘http://sv.ismicool.cn/k-v.php’
      req = requests.get(url=target)
      html = req.text
      bf = BeautifulSoup(html)
      for item in bf.find_all("source"):
            file=open("list.txt","w")
            file.write(item.get("src")+"n")
      file.close()

想爬http://sv.ismicool.cn/k-v.php这个网站的视频链接,然后写到txt里面,一会去重后直接wget就行

但是现在有两个问题,这个网站每次刷新都会出现不同的视频,不知道怎么让代码循环爬

还有就是,我这个写入文件好像根本不行,运行两次,前面的链接会被后面一次的链接给替换了

感觉我不适合写代码,这玩意太费脑子了,我好难yc014t

robot 大佬有话说 : 2020-1-1 18:00:03

让代码循环爬:
while True:
    下面是你原来的代码

写入文件不替换而是在后面追加:
file=open("list.txt","a")

ljm4216 大佬有话说 : 2020-1-1 18:00:29

你这写的神马,建议看看视频跟着写一下,你这连网页结构都没分析呢,beautifulshop用哪里了

etc 大佬有话说 : 2020-1-1 18:01:32

ljm4216 大佬有话说 : 2020-1-1 18:00
你这写的神马,建议看看视频跟着写一下,你这连网页结构都没分析呢,beautifulshop用哪里了 …

不用分析,你打开就知道了,很简单的一个网页
直接找source标签然后爬src链接就行

忘江湖 大佬有话说 : 2020-1-1 18:02:49

本帖最后由 忘江湖 于 2020-1-1 18:03 编辑

我也爬了不少呢,首先连接地址自动去重,然后采到本地后对比视频md5和sha1,重复的删除掉继续采。
https://s2.ax1x.com/2020/01/01/lGOdxO.png

ljm4216 大佬有话说 : 2020-1-1 18:03:22

可以用Python多线程直接下载命名好呢

etc 大佬有话说 : 2020-1-1 18:04:57

robot 大佬有话说 : 2020-1-1 18:00
让代码循环爬:

大佬真乃神人也,的确可以了:lol

ljm4216 大佬有话说 : 2020-1-1 18:05:23

写入文件,一个是删除原文件的所有内容,再输入,还有一个是追加输入,你用的是前者

ljm4216 大佬有话说 : 2020-1-1 18:06:51

随机视频的话,简单无脑的办法就是建立数据库,每次写入先遍历数据库比对,如果相同则不写入。

etc 大佬有话说 : 2020-1-1 18:07:30

ljm4216 大佬有话说 : 2020-1-1 18:05
写入文件,一个是删除原文件的所有内容,再输入,还有一个是追加输入,你用的是前者 …

谢谢大佬指点,受教了

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具