网页抓取解密(【】基本开发环境相关模块的使用目标网页分析)
优采云 发布时间: 2021-12-16 21:45网页抓取解密(【】基本开发环境相关模块的使用目标网页分析)
前言
本文文字及图片均来自网络,仅供学习交流之用。它们没有任何商业用途。如果您有任何问题,请联系我们进行处理。
今天群里的小伙伴发了个链接,出于好奇,点击查看,然后一定要试一试。
基础开发环境
相关模块的使用
着陆页分析
根据朋友提供的地址,是关于火影的博客。
在使用开发者工具的时候,发现有现成的mp4地址。请注意,您仍在考虑它:
复制链接会自动下载,点击打开......
这是为什么?回头看网页,原来是一个广告的视频==
再分析
1、视频获取多个ts文件
其实网站的视频数据是一一分为TS文件的,这些TS文件都在m3u8的链接里。每个ts文件链接就是对应视频中的一个片段,整个视频是由片段一一组成的。
既然知道了视频的来源,就需要找到m3u8地址的来源,分析规则,才能批量抓取ts文件数据。当然,如果你的m3u8 url地址,也可以使用一些特殊的软件,直接下载合成视频即可。
2、获取m3u8的url地址
通过两个链接的对比可以发现,一个是日期不同,另一个是相似ID的参数不同。找源码可以复制一个关键参数1556_fd900088,在开发者工具中搜索。
此链接中收录的参数:
根据导航栏中的url,可以找到:
ID:95应该对应这个*敏*感*词*博人传的ID
pid: 175 应该对应多少集
如果最后两个参数没有值,复制url地址,删除最后两个参数就可以访问了,说明这两个参数没有特别大的影响。
3、下载、保存并合并成mp4文件
首先保存每个 ts 文件。
只需合并为 mp4 文件:
电脑一般自带WinRaR解压软件,选中所有ts文件后,右键选择添加到压缩文件,如下图界面,
注1:压缩文件名后缀应改为.MP4,
注2:存储方式选择压缩方式,默认为标准不可接受。
当心:
这个合并的前提是你的ts文件都是0000,然后0001按顺序排列,不然合并后播放顺序会乱。
如果下载的ts文件不是这样排序的,则需要将数据保存在整个m3u8链接中。然后通过cmd命令将所有ts合并到一个文件中:
复制 /bd:\xxx\download_ts\*.ts d:\xxx\download_ts\new.mp4
也可以用代码和FFmpg合并,爬到B站视频之前合并音频数据和视频图片。