网站内容抓取(如何分析b站同一个视频下面的弹幕和评论(图))

优采云 发布时间: 2021-10-10 07:36

  网站内容抓取(如何分析b站同一个视频下面的弹幕和评论(图))

  因为学期的项目,需要分析b站同一个视频下的弹幕和评论,所以专门研究了一下,抓到了大概100多条视频评论和弹幕。

  b站的视频有两个相关的id号,一个​​是cid,一个是大家都知道的AV号。你需要抓住弹幕的是cid。最简单的方法就是直接查看网页源码,搜索cid,这样就可以得到单个视频的cid。然后就可以通过这个网址“/”+cid+“.xml”获取相关视频的弹幕。但问题是因为b站设置了弹幕,每个视频都有弹幕上限。如果数量达到一定数量,它将被清除。所以这个方法只能得到哈密瓜视频下方的当前弹幕。当然,如果你是批处理,需要用regular搜索cid,然后通过这个url处理xml结构文件。

  对于评论,需要的是每个视频的 av 号。通过下面的网址,可以得到视频下的评论“/feedback?aid="+av号。此 URL 将返回第一页评论和三个 utf-8 格式的热门评论。还可以通过设置URL(&page=和&pagesize=)来设置最大评论数和第一页评论数。最大pagesize好像是300.

  大概就是这样。完整的和具体的自动爬取代码我稍微编辑一下后会上传到github

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线