【论文分享】LiveBot弹幕手动生成

优采云发布时间: 2020-08-09 12:36

　　这次给你们分享的论文是发表在AAAI 2019的论文， LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts [1].

　　背景与简介

　　互联网时代的到来催生了视频产业和直播行业的盛行。视频评论是用户在观看视频后留下的自己的观点，例如对视频的总结和感想。其中“弹幕”这种评论形式极为非常，评论文字会从屏幕的两侧向两侧飞出，像炮弹一样。在国外，著名的弹幕视频网站有Bilibili, ACFun等。“弹幕”这种在线评论方法除了才能让视频内容更吸引人，还能搭建起一个用户之间互相沟通的桥梁。本文从Bilibili网站采集了2361个视频以及对应的弹幕评论，构筑了一个*敏*感*词*的弹幕评论的数据集，并提出了一个新颖的评论预测任务，根据视觉信息和评论信息，自动生成出合理的弹幕评论。最后提出了一个retrieval-based测评方式来评估模型的优劣。

　　数据采集与剖析

　　为了才能抓取具有代表性的视频和弹幕，作者定义了19种视频类别，如宠物，运动，*敏*感*词*等等，并搜集搜索引擎返回的前10页内容。去除冗余和较短的视频以后，最终得到了一个高质量的收录2361个视频的数据集。在搜集弹幕时，同时会搜集弹幕出现的时间戳，这样才能让弹幕对应到特定的视觉和文本上下文环境（当前弹幕前后的视频帧和弹幕）。最终得到一共895929条弹幕和对应的时间戳。（图1）

　　图1 数据集统计信息

　　统计发觉，大部分弹幕不超过5个成语或则10个字符（图2）。一个缘由是5个成语或则10个字符早已足够抒发与其他用户交互的信息，另一个缘由是用户的在线评论，即弹幕大部分都是在观看视频时进行的，所以她们会尽可能写的简略精略。同时，作者从编辑距离，TF-IDF和人工评测三种指标发觉，距离越远的弹幕，相似性越低，也就是距离逾的弹幕具有很高的相关性。（图3）

　　图2 弹幕宽度分布与弹幕平均相似度统计问题定义

　　弹幕生成的任务与其他Visual to Language的任务（Image Caption，Video Description，Machine Translation，VQA，Visual Dialog等）有所不同，设计的模型除了要才能理解视频的内容，生成对视频观看体验评论，还要才能生成与其他用户互动的弹幕（图3）。任务的难点在于弹幕与视频内容的复杂依赖关系。首先，弹幕依赖于视频内容和周围的其他弹幕，而周围的其他弹幕同时又依赖于视频内容。其次，当前弹幕并不完全取决于当前视频帧的内容，它也有可能和前面视频内容相关，例如我们常常会听到一些“高能预警”类弹幕来预告将要到来的恐怖画面，或是剧透弹幕会提早告诉用户旁边的剧情。

　　所以作者最终将问题定义为，给定一个视频V，视频中的一帧f和其对应的时间戳t，以及时间戳周围的弹幕集合C和视频帧集合I ，模型还能生成与那些弹幕或视频帧相关的弹幕。

　　图3 不同任务中视觉和语言的关系模型

　　Baseline：

　　Show and tell: A neural image caption generator[2]

　　根据该文模型，利用CNN将视频帧编码，用*敏*感*词*生成弹幕。输入仅为视频帧。

　　Sequence to sequence learning with neural networks[3]

　　根据该文模型，利用LSTM编码周围弹幕，用*敏*感*词*生成弹幕。输入仅为周围弹幕。

　　Sequence to sequence - video to text[4]

　　根据该文模型，两个编码器分别将视频帧和周围弹幕进行编码，将编码器输出拼接后，利用LSTM*敏*感*词*生成弹幕。输入为视频帧和周围弹幕。

　　Proposed models:

　　作者用单向LSTM和Attention对视频帧进行编码，用LSTM和Attention分别对词组级别和短语级别的周围弹幕进行编码，最终解码生成一个当前的弹幕。

　　与Fusional RNN Model中Encoder-decoder的模式相同，将LSTM换为Transformers[5]，

　　测评指标

　　不同类别不同内容的视频中弹幕内容不尽相同，因此很难找出所有可能的references来进行比较判别。所以reference-based评价指标（如BLEU，ROUGE）用到弹幕评估中就不太合适。作者受视觉对话任务[6]中评估方式的启发，将评估过程设计成一个排序的任务。评估过程要求模型对一个给定的候选评论集合，基于概率值进行排序。由于模型一定生成概率值最高的评论，那么排序结果的优劣，也能够反映出模型生成弹幕结果的优劣。

　　候选集合由四部份组成：

　　和之前视觉对话的工作相同，采用Recall@k，Mean Rank和Mean Reciprocal Rank作为评测指标。

　　结果与剖析

　　图4中的表格中数据为三个baseline和两个所提出模型的结果。很明显，利用视觉和弹幕信息要比之借助一个模态的结果好好多，符合弹幕既是内容相关有和其他弹幕互动相关的特征。同时，只使用周围弹幕信息要比只使用视觉信息效果好，原因是周围的弹幕信息相比视觉信息来说，能够提供愈发直观的信息去生成一条弹幕。

　　图4 Baseline和所提出模型在不同模态上的表现

　　作者还用了三种指标来进行人工测评：流畅性（Fluency），相关性（Relevance）和正确性（Correctness），分别表示生成弹幕的语言流畅度，与视频内容的相关程度，以及是真人依据上下文所留下的弹幕的可信度。结果如图5所示。

　　图5 人工测评结果总结与展望

　　本文建立了一个*敏*感*词*的弹幕视频数据集，提出了一个新的弹幕预测任务，以及两个弹幕生成模型。无论是借助弹幕信息还是视觉信息，所提出模型都比baseline的结果好。目前任务的定义还是一个较为笼统的框架，未来可能会有更多有趣的相关任务出现，例如防剧透弹幕过滤，机器人弹幕聊天等等。

　　参考文献：

　　[1] Ma, Shuming, et al. "Livebot: Generating live video comments based on visual and textual contexts." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 33. 2019.

　　[2] Vinyals, Oriol, et al. "Show and tell: A neural image caption generator." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015..

　　[3] Sutskever, Ilya, Oriol Vinyals, and Quoc V. Le. "Sequence to sequence learning with neural networks." Advances in neural information processing systems. 2014.

　　[4] Venugopalan, Subhashini, et al. "Sequence to sequence-video to text." Proceedings of the IEEE international conference on computer vision. 2015.

　　[5] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems. 2017.

　　[6] Das, Abhishek, et al. "Visual dialog." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.

0

2020-08-09

自动采集文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

【论文分享】LiveBot弹幕手动生成

0 个评论

发起人