网页视频抓取脚本( 2019年,文中示例代码介绍(二):,)

优采云发布时间: 2021-11-13 12:15

　　网页视频抓取脚本(

2019年,文中示例代码介绍(二):,)

　　Python爬虫bilibili视频弹幕提取过程详解

　　更新时间：2019年7月31日09:32:32 作者：唐老儿

　　本文文章主要介绍Python爬虫bilibili视频弹幕提取过程的详细讲解。文章通过示例代码对其进行了详细介绍。对大家的学习或工作有一定的参考学习价值。有需要的朋友可以参考

　　两个重要的点

　　1. 获取弹幕的url以.xml结尾

　　2.弹幕url需要的参数在视频url响应的javascript中

　　先看代码

import requests

from lxml import etree

import re

# 使用手机UA

headers = {

"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1"

}

# 视频url

video_url = "https://m.bilibili.com/video/av37834086.html"

html = requests.get(url=video_url, headers=headers).content.decode('utf-8')

# 获取弹幕url的参数

cid = re.findall(r"comment: '//comment.bilibili.com/' \+ (.*?) \+ '.xml',", html)

url = "https://comment.bilibili.com/" + cid[0] + ".xml"

print(url)

response = requests.get(url, headers=headers)

html = response.content

xml = etree.HTML(html)

# 提取数据

str_list = xml.xpath("//d/text()")

# 写入文件

with open('bibi_xuxubaobao.txt', 'w', encoding='utf-8') as f:

for line in str_list:

f.write(line)

f.write('\n')

　　先找到弹幕的url，以.xml结尾，所以先找到一串数字的位置，拿到一串数字来发起第二次请求

　　而这串数字在第一个请求响应的JavaScript中，可以通过re正则表达式提取出来

　　接下来的工作就是获取弹幕url返回的所有弹幕数据，然后对响应数据进行处理。

　　在代码示例中，使用 lxml 来获取它。然后保存到个人本地文件中

　　以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

0

2021-11-13

网页视频抓取脚本

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页视频抓取脚本( 2019年,文中示例代码介绍(二):,)

0 个评论

发起人

AI时代内容工厂

网页视频抓取脚本( 2019年,文中示例代码介绍(二):,)

0 个评论

发起人

相关问题