网页视频抓取脚本( 2019年,文中示例代码介绍(二):,)

优采云 发布时间: 2021-11-13 12:15

  网页视频抓取脚本(

2019年,文中示例代码介绍(二):,)

  Python爬虫bilibili视频弹幕提取过程详解

  更新时间:2019年7月31日09:32:32 作者:唐老儿

  本文文章主要介绍Python爬虫bilibili视频弹幕提取过程的详细讲解。文章通过示例代码对其进行了详细介绍。对大家的学习或工作有一定的参考学习价值。有需要的朋友可以参考

  两个重要的点

  1. 获取弹幕的url以.xml结尾

  2.弹幕url需要的参数在视频url响应的javascript中

  先看代码

  

import requests

from lxml import etree

import re

# 使用手机UA

headers = {

"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1"

}

# 视频url

video_url = "https://m.bilibili.com/video/av37834086.html"

html = requests.get(url=video_url, headers=headers).content.decode('utf-8')

# 获取弹幕url的参数

cid = re.findall(r"comment: '//comment.bilibili.com/' \+ (.*?) \+ '.xml',", html)

url = "https://comment.bilibili.com/" + cid[0] + ".xml"

print(url)

response = requests.get(url, headers=headers)

html = response.content

xml = etree.HTML(html)

# 提取数据

str_list = xml.xpath("//d/text()")

# 写入文件

with open('bibi_xuxubaobao.txt', 'w', encoding='utf-8') as f:

for line in str_list:

f.write(line)

f.write('\n')

  先找到弹幕的url,以.xml结尾,所以先找到一串数字的位置,拿到一串数字来发起第二次请求

  

  而这串数字在第一个请求响应的JavaScript中,可以通过re正则表达式提取出来

  

  接下来的工作就是获取弹幕url返回的所有弹幕数据,然后对响应数据进行处理。

  在代码示例中,使用 lxml 来获取它。然后保存到个人本地文件中

  以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线