【论文分享】LiveBot弹幕手动生成

优采云 发布时间: 2020-08-09 12:36

  这次给你们分享的论文是发表在AAAI 2019的论文, LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts [1].

  背景与简介

  互联网时代的到来催生了视频产业和直播行业的盛行。视频评论是用户在观看视频后留下的自己的观点,例如对视频的总结和感想。其中“弹幕”这种评论形式极为非常,评论文字会从屏幕的两侧向两侧飞出,像炮弹一样。在国外,著名的弹幕视频网站有Bilibili, ACFun等。“弹幕”这种在线评论方法除了才能让视频内容更吸引人,还能搭建起一个用户之间互相沟通的桥梁。本文从Bilibili网站采集了2361个视频以及对应的弹幕评论,构筑了一个*敏*感*词*的弹幕评论的数据集,并提出了一个新颖的评论预测任务,根据视觉信息和评论信息,自动生成出合理的弹幕评论。最后提出了一个retrieval-based测评方式来评估模型的优劣。

  数据采集与剖析

  为了才能抓取具有代表性的视频和弹幕,作者定义了19种视频类别,如宠物,运动,*敏*感*词*等等,并搜集搜索引擎返回的前10页内容。去除冗余和较短的视频以后,最终得到了一个高质量的收录2361个视频的数据集。在搜集弹幕时,同时会搜集弹幕出现的时间戳,这样才能让弹幕对应到特定的视觉和文本上下文环境(当前弹幕前后的视频帧和弹幕)。最终得到一共895929条弹幕和对应的时间戳。(图1)

  

  图1 数据集统计信息

  统计发觉,大部分弹幕不超过5个成语或则10个字符(图2)。一个缘由是5个成语或则10个字符早已足够抒发与其他用户交互的信息,另一个缘由是用户的在线评论,即弹幕大部分都是在观看视频时进行的,所以她们会尽可能写的简略精略。同时,作者从编辑距离,TF-IDF和人工评测三种指标发觉,距离越远的弹幕,相似性越低,也就是距离逾的弹幕具有很高的相关性。(图3)

  

  图2 弹幕宽度分布与弹幕平均相似度统计问题定义

  弹幕生成的任务与其他Visual to Language的任务(Image Caption,Video Description,Machine Translation,VQA,Visual Dialog等)有所不同,设计的模型除了要才能理解视频的内容,生成对视频观看体验评论,还要才能生成与其他用户互动的弹幕(图3)。任务的难点在于弹幕与视频内容的复杂依赖关系。首先,弹幕依赖于视频内容和周围的其他弹幕,而周围的其他弹幕同时又依赖于视频内容。其次,当前弹幕并不完全取决于当前视频帧的内容,它也有可能和前面视频内容相关,例如我们常常会听到一些“高能预警”类弹幕来预告将要到来的恐怖画面,或是剧透弹幕会提早告诉用户旁边的剧情。

  所以作者最终将问题定义为,给定一个视频V,视频中的一帧f和其对应的时间戳t,以及时间戳周围的弹幕集合C和视频帧集合I ,模型还能生成与那些弹幕或视频帧相关的弹幕。

  

  图3 不同任务中视觉和语言的关系模型

  Baseline:

  Show and tell: A neural image caption generator[2]

  根据该文模型,利用CNN将视频帧编码,用*敏*感*词*生成弹幕。输入仅为视频帧。

  Sequence to sequence learning with neural networks[3]

  根据该文模型,利用LSTM编码周围弹幕,用*敏*感*词*生成弹幕。输入仅为周围弹幕。

  Sequence to sequence - video to text[4]

  根据该文模型,两个编码器分别将视频帧和周围弹幕进行编码,将编码器输出拼接后,利用LSTM*敏*感*词*生成弹幕。输入为视频帧和周围弹幕。

  Proposed models:

  作者用单向LSTM和Attention对视频帧进行编码,用LSTM和Attention分别对词组级别和短语级别的周围弹幕进行编码,最终解码生成一个当前的弹幕。

  与Fusional RNN Model中Encoder-decoder的模式相同,将LSTM换为Transformers[5],

  测评指标

  不同类别不同内容的视频中弹幕内容不尽相同,因此很难找出所有可能的references来进行比较判别。所以reference-based评价指标(如BLEU,ROUGE)用到弹幕评估中就不太合适。作者受视觉对话任务[6]中评估方式的启发,将评估过程设计成一个排序的任务。评估过程要求模型对一个给定的候选评论集合,基于概率值进行排序。由于模型一定生成概率值最高的评论,那么排序结果的优劣,也能够反映出模型生成弹幕结果的优劣。

  候选集合由四部份组成:

  和之前视觉对话的工作相同,采用Recall@k,Mean Rank和Mean Reciprocal Rank作为评测指标。

  结果与剖析

  图4中的表格中数据为三个baseline和两个所提出模型的结果。很明显,利用视觉和弹幕信息要比之借助一个模态的结果好好多,符合弹幕既是内容相关有和其他弹幕互动相关的特征。同时,只使用周围弹幕信息要比只使用视觉信息效果好,原因是周围的弹幕信息相比视觉信息来说,能够提供愈发直观的信息去生成一条弹幕。

  

  图4 Baseline和所提出模型在不同模态上的表现

  作者还用了三种指标来进行人工测评:流畅性(Fluency),相关性(Relevance)和正确性(Correctness),分别表示生成弹幕的语言流畅度,与视频内容的相关程度,以及是真人依据上下文所留下的弹幕的可信度。结果如图5所示。

  

  图5 人工测评结果总结与展望

  本文建立了一个*敏*感*词*的弹幕视频数据集,提出了一个新的弹幕预测任务,以及两个弹幕生成模型。无论是借助弹幕信息还是视觉信息,所提出模型都比baseline的结果好。目前任务的定义还是一个较为笼统的框架,未来可能会有更多有趣的相关任务出现,例如防剧透弹幕过滤,机器人弹幕聊天等等。

  参考文献:

  [1] Ma, Shuming, et al. "Livebot: Generating live video comments based on visual and textual contexts." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33. 2019.

  [2] Vinyals, Oriol, et al. "Show and tell: A neural image caption generator." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015..

  [3] Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. "Sequence to sequence learning with neural networks." Advances in neural information processing systems. 2014.

  [4] Venugopalan, Subhashini, et al. "Sequence to sequence-video to text." Proceedings of the IEEE international conference on computer vision. 2015.

  [5] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems. 2017.

  [6] Das, Abhishek, et al. "Visual dialog." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线