网页抓取解密(【】基本开发环境相关模块的使用目标网页分析)

优采云 发布时间: 2022-01-06 19:02

  网页抓取解密(【】基本开发环境相关模块的使用目标网页分析)

  前言

  本文文字及图片均来自网络,仅供学习交流之用。它们没有任何商业用途。如果您有任何问题,请联系我们进行处理。

  

  今天群里的小伙伴发了个链接,出于好奇,点击查看,然后一定要试一试。

  基础开发环境

  相关模块的使用

  

  着陆页分析

  

  根据朋友提供的地址,是关于火影的博客。

  

  在使用开发者工具的时候,发现有现成的mp4地址。请注意,您仍在考虑它:

  

  复制链接会自动下载,点击打开......

  

  

  

  这是为什么?回头看网页,原来是一个广告的视频==

  

  

  再分析

  1、视频获取多个ts文件

  其实网站的视频数据是一一分为TS文件的,这些TS文件都在m3u8的链接里。每个ts文件链接就是对应视频中的一个片段,整个视频是由片段一一组成的。

  

  

  既然知道了视频的来源,就需要找到m3u8地址的来源,分析规则,才能批量抓取ts文件数据。当然,如果你的m3u8 url地址,也可以使用一些特殊的软件,直接下载合成视频即可。

  

  2、获取m3u8的url地址

  

  通过两个链接的对比可以发现,一个是日期不同,另一个是相似ID的参数不同。找源码可以复制一个关键参数1556_fd900088,在开发者工具中搜索。

  

  

  此链接中收录的参数:

  

  根据导航栏中的url,可以找到:

  ID:95应该对应这个*敏*感*词*博人传的ID

  pid: 175 应该对应多少集

  如果最后两个参数没有值,复制url地址,删除最后两个参数就可以访问了,说明这两个参数没有特别大的影响。

  

  3、下载、保存并合并成mp4文件

  

  首先保存每个 ts 文件。

  

  

  只需合并为 mp4 文件:

  电脑一般自带WinRaR解压软件,选中所有ts文件后,右键选择添加到压缩文件,如下图界面,

  注1:压缩文件名后缀应改为.MP4​​,

  注2:存储方式选择压缩方式,默认为标准不可接受。

  

  

  当心:

  这个合并的前提是你的ts文件都是0000,然后0001按顺序排列,不然合并后播放顺序会乱。

  如果下载的ts文件不是这样排序的,则需要将数据保存在整个m3u8链接中。然后通过cmd命令将所有ts合并到一个文件中:

  复制 /bd:\xxx\download_ts\*.ts d:\xxx\download_ts\new.mp4

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线