教程:Python采集某网站小视频内容, m3u8内容下载
优采云 发布时间: 2022-10-30 09:33教程:Python采集某网站小视频内容, m3u8内容下载
前言
大家早上好,下午好,晚上好~
如何在pycharm中配置python解释器?如何在pycharm中安装插件?? ? 如何在源码和教程中实现蠕虫案例:通用>代码显示效果显示结束词?
环境使用: 模块使用:
您可以在 python 环境中安装内置模块。
模块安装问题:如果安装python第三方模块:
win + R 输入cmd 点击确定,输入安装命令 pip install 模块名称(pip install requests) 回车
在pycharm中点击终端输入安装命令
安装失败原因:如何在pycharm中配置python解释器?
选择文件>>>设置>>>项目>>>python解释器(python解释器)
点击齿轮,选择添加
添加python安装路径
pycharm如何安装插件?
选择文件>>>设置>>>插件
单击 Marketplace 并输入要安装的插件的名称。例如:翻译插件输入翻译/中文插件输入中文
选择对应的插件,点击安装。
安装成功后会弹出重启pycharm的选项,点击确定,重启生效。
点击蓝色字体获取信息,我放在这里。
如何实现一个bug案例:General > 1.数据源分析分析,明确我们想要的数据内容,在哪里,长什么样子
使用开发者工具进行抓包分析:视频数据和视频标题
一、F12或右键勾选选择网络刷新网页
有这么多数据包,我希望视频数据在哪里?
所有视频片段都收录在 m3u8 的文件链接中
二、直接在开发者工具中搜索m3u8直接找到对应的链接地址
继续分析这个m3u8 url地址是从哪里来的,从哪里来的
三、我们希望网页源代码中有视频数据
获取整个视频内容->分成N个视频片段->在m3u8链接中->在视频播放详情页源码中
2.代码实现步骤:
发送请求,模拟浏览器向视频播放详情页的url发送请求
获取数据,获取服务器返回响应数据
开发人员工具中的响应
解析数据,提取我们想要的数据内容
- m3u8 链接
- 视频标题
发送请求,模拟浏览器向m3u8链接发送请求
从第三步中提取链接并发送请求
获取数据,获取服务器返回响应数据
开发人员工具中的响应
解析数据,提取我们想要的数据内容
所有 ts 文件链接
保存数据,保存所有视频片段,并将它们组合成一个完整的视频
多页数据采集
代码显示?? ? 源码,教程合集
点击蓝色字体获取信息,我放在这里。
导入模块
# 导入数据请求模块 ---> 要安装 在cmd里面 pip install requestsimport requests# 导入正则模块 ---> 内置模块 不需要安装import re# 导入json模块 ---> 内置模块 不需要安装import json# 导入格式化输出模块 ---> 内置模块 不需要安装from pprint import pprint
1.发送请求,模拟浏览器向视频播放详情页的url发送请求
如果您想要多个视频内容,您需要获取视频 ID
碎片化写请求链接:
批量替换内容:
(.*?):(.*)'$1':'$2',
请求链接
请求参数
data ={'quickViewId':'ac-space-video-list','reqID':'13','ajaxpipe':'1','type':'video','order':'newest','page':'2','pageSize':'20','t':'1666360290070',}
模拟伪装
headers ={# User-Agent 用户代理 表示浏览器基本身份信息'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'}
发送请求
response_1 = requests.get(url=link, params=data, headers=headers)
分析数据
video_id_list = re.findall('atomid.*?":.*?"(\d+).*?",', response_1.text)# for循环遍历for video_id in video_id_list:
# 发送请求 response = requests.get(url=url, headers=headers)
2.获取数据,获取服务器返回响应数据
response.text 获取响应文本数据
3.解析数据,提取我们想要的数据内容
调用re模块中的findall方法找到我们想要的所有数据内容
re.findall('什么数据', '哪里')
在哪里可以找到您想要的数据
从response.text中找到"title":"(.*?)",其中(.*?)就是我们要的数据
[1] 列出索引位置值
表示提取列表中的第二个元素
提取标题
title = re.findall('"title":"(.*?)",', response.text)[1]
提取视频信息
–> 字符串数据类型
html_data = re.findall('window.pageInfo = window.videoInfo = (.*?);', response.text)[0]
传输数据类型:方便值
--> 字典数据类型键值对值:根据冒号[key]左边的内容,提取冒号[value]右边的内容
json_data = json.loads(html_data)
提取m3u8链接
m3u8_url = json.loads(json_data['currentVideoInfo']['ksPlayJson'])['adaptationSet'][0]['representation'][0]['backupUrl'][0]
4.发送请求,模拟浏览器发送m3u8链接请求
从第三步中提取链接并发送请求
5.获取数据,获取服务器返回响应数据
开发者工具中的响应需要发送请求+获取数据
ts_content = requests.get(url=ts_url, headers=headers).content withopen('video\\'+ title +'.mp4', mode='ab')as f:# 写入数据 f.write(ts_content)print(ts_url)
显示结果
文章 没看懂,特地录了对应的视频讲解,本文只是一个大概的展示,完整的代码和视频教程点击下方蓝字
点击蓝色字体捡起来,我都放在这里了。
宁外为你推荐一个不错的教程:
【48小时搞定全套教程!你离老大只有一步之遥【python教程】
好了,我的文章文章就到这里了!
如果您有更多的建议或问题,欢迎评论或私信我!一起努力吧(ง•_•)ง
教程:企业站群网页制作是什么?怎么做?
网站生产是企业开展电子商务的基础设施和信息平台,也是企业无形资产的组成部分,网站是网上宣传和反映企业形象的重要窗口。企业形象和文化。网站通过页面结构定位、合理布局、图像文字处理、程序设计、数据库设计等一系列工作的总和,那么什么是企业网页制作?怎么做?网页设计应该能够充分吸引访问者的注意力,让他们在视觉上感到愉悦。因此,在创建网页时,网站的整体设计必须与网页设计的相关原则紧密结合。网站设计就是表达策划案中的内容,网站的主题模式,通过艺术的方式结合自己的理解;网页制作通常是网页设计师设计的设计稿,按照W3C规范是用html语言制作成网页格式,那么制作网页的前提是什么?具体流程步骤可分为: 1.明确自己要做什么网站,网站的目的、目标、群体定位;首先确定要做什么网站,也就是说,这样做的目的是什么网站;比如我想做的网站是一个企业网站,它是一个电器业务,所以我会重点关注这些内容。构想,也可以参考一些类似的网站,2.采集材料,制定场地建设方案,估算网站建设投资基金,确定网站的名称;确定网站的作用,主题结束后,我们开始准备材料,包括网站构建的基本信息如:网站域名,网站空间, 网站需要展示网站所需的内容(产品、案例、服务项目、公司介绍等)和一些宣传图片。数据的采集需要围绕主题展开,如果想让自己的网站内容越丰富,吸引的用户越多,就需要尽可能多的采集和整理数据。只要数据更丰富,建网站就会更容易。3、根据建站方案确定编程语言和网站属性;网站制作完成后,我们需要测试通过后发布网站,通过域名解析服务器。允许我们通过互联网访问网站,并上传我们要在网站中呈现的所有内容,例如企业产品、案例演示等。 4、根据的名称或目标网站,申请域名和ICP备案。网站程序源码完成,本地测试正常后,将根据网站使用的空间需求租用服务器空间。平均企业 网站 使用 300M 的空间。,还有一点要注意的是:服务器分为国内和国外,最大的区别是国内空间需要备案,国外空间不用,购买后可直接使用;5、服务器空间购买后,将网站的程序源码用ftp上传工具上传到服务器空间,后台数据导入空间数据库,网站 > 可以正常上网。