跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 爬虫,找不到视频文件 url
未分類
3 5 月 2020

爬虫,找不到视频文件 url

爬虫,找不到视频文件 url

資深大佬 : viiii 54

打算爬某网站视频内容练手(短视频),检查 html 源码发现没有任何 mp4 或 m3u8 等格式的文件 url,刷新并开始播放后,看 F12 里的 Network 也只发现加载了几个 .ts 格式文件( index0.ts/index1.ts/index2.ts ),一脸懵逼中……请问这种情况该如何下手?

PS,播放器使用的 DPlayer,git 地址: https://github.com/MoePlayer/DPlayer

大佬有話說 (17)

  • 資深大佬 : dosmlp

    也可能是通过 ws 传的数据

  • 資深大佬 : Curtion

    HLS 协议

  • 主 資深大佬 : viiii

    @Curtion 查了下定义,感觉应该是 HLS 协议,请问这种该如何爬取视频资源?
    用 scrapy 具体怎么做?

  • 資深大佬 : Tink

    都有 ts 文件了扒下来拼接啊

  • 資深大佬 : loopinfor

    .ts 就是分割出来的视频片段

  • 資深大佬 : ctro15547

    抓包 。也可以把所有的 ts 文件 download 下来 用 ffmpeg 拼一下

  • 資深大佬 : cz5424

    某些 M3u8 文件实际上也只是记录 ts 的地址,记事本打开可以看到

  • 資深大佬 : also24

    所以网站地址呢?没有网站地址凭空猜测么?

  • 資深大佬 : mumbler

    视频地址被加密了,通过一系列 JS 计算才能拿到真实视频地址,这个过程叫视频解析,普通爬虫只能爬公开数据,这种加密数据需要先解析再下载,HlS 下载完还需要拼接

  • 資深大佬 : locoz

    @mumbler #9

  • 資深大佬 : locoz

    你可以换个思路:先抓个包看看,一般来说,页面加载完毕且视频还在加载的时候,仍然有在进行通信的就大概率会跟这个视频有关系了。
    因为正常来说不可能还有除了视频以外的其他大型资源需要加载了,而如果有大量用户操作日志之类的东西混淆视听的话又很容易分辨,可以直接过滤掉。
    在简单筛选一下之后就可以找出来了。找到之后如果请求中有加密参数的话就翻 js 吧…

  • 資深大佬 : l4ever

    1.看看有没有 m3u8. 现在流行 ts 文件加密, 都是用 AES-128-CFB 的. m3u8 里面有 Key 偏移值. 看看里面到底配置了加密没有. 通常 key 是另外一个 http 请求去获取的.仔细分析一下.

    2.根据 m3u8 提供的 ts 文件地址下载 ts 文件.

    3.如果加密了, 还要解密 ts

    4.合并 ts

  • 資深大佬 : imaning

    @l4ever key 是对视频内容加密用的,不是加密 url 的。他既然能请求到 ts 地址,肯定就有 m3u8 地址,只是可能他没注意到而已。关键是要找到 m3u8 地址才行。

  • 資深大佬 : l4ever

    @imaning 我说的就是对 ts 加密啊?难道我的表达能力有问题?你是没看懂?

  • 資深大佬 : annielong

    有 index0.ts 肯定有 m3u8,一般没仔细看,最多是没有明确 m3u8,但是有 api 获取了 m3u8 的内容,检查所有 post

  • 資深大佬 : pandait

    用 ts 还原就好了啊。

  • 資深大佬 : chenliangngng

    马克,现在各视频站技术水平比以前高好多,应该就是这两年才改的,为什么呢?/摊手

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具