基于内容视频数据进行的人物匹配问题示例

优采云 发布时间: 2021-08-04 21:36

  基于内容视频数据进行的人物匹配问题示例

  头像| CSDN视觉中国下载

  

  简介

  人员重新识别 (re-ID) 在现实世界中是一项非常具有挑战性的任务。它旨在通过视觉算法模型,从不同的角度匹配不同摄像机下的同一个人。无处不在的遮挡、复杂的背景、光线的变化等都让这个问题变得困难。目前大部分开源数据集,如Market1501、DukeMTMC等,都是采集监控视频下的行人数据。这些数据集中的人物大多是直立和固定的姿势。目前主流的算法模型都是针对这些数据集进行了很好的性能优化和提升。然而,基于内容视频数据的字符重识别研究工作很少。不同于传统的监控视频,内容视频中存在大量的手动剪辑和镜头切换,以及大量的多角度、多机位镜头拍摄。这些都使得内容视频中的人物出现了不同程度的遮挡和人体区域的丢失。角度、姿势和大小的变化。我们可以通过图1所示的一个具体例子来看一看。图1(a)中,A和B用于描述同一场景的不同角度和摄像机位置。镜头A和镜头B中的人物匹配问题可以看成是全身和半身的匹配问题。在图 1(b) 中,镜头 A 中的人有一个可识别的正面。这时候,如果我们能在镜头B中匹配到同一个人,那么我们就可以最终识别出那些只出现在某些镜头中的人了。只有背面或侧面的字符信息。这有助于我们提高视频内容分析指标的准确性和有效性。

  

  (a) (b) 图 1 内容视频中的字符匹配。综上所述,我们可以看出内容视频中re-ID算法要解决的主要问题之一是部分字符图像的遮挡或匹配。学术界通常将其称为部分 re-ID 或 occluded re-ID。目前业界对此类问题的主要解决方案是通过将局部区域特征重构为全局特征来实现隐式对齐操作,另一种是利用人体空间的划分来实现相同的显式特征。区域。对齐操作。然而,这些现有方法的问题在于,一方面训练数据集的数据与内容视频的数据差异较大,另一方面,粗粒度的空间区域划分不能适应复杂的人内容视频中的姿势。因此,我们从数据集和算法模型两个方面考虑优化内容视频中的re-ID算法。

  

  数据集构建

  图2是开源数据集和电视剧视频数据的对比。从图中我们发现,剧中人物的姿态变化更大,分辨率更高,并伴随着大量人体部位的遮挡或丢失。 ,而开源数据集中人物的姿势相对固定,而且大多是直立全身的图像。因此,很难将在当前开源数据集上训练的算法模型直接应用于内容视频。基于此,我们直接构建了一个戏剧场景中的*敏*感*词*re-ID数据集。

  

  图 2 数据集对比

  整个数据集的构建过程主要分为以下几个步骤:1.Screening the episodes:根据时间和流行度选择大约500集,每集选择10-20集。 2.Sampling 帧检测:对于每一集视频帧检测,使用人体检测模型获取人体的帧图片。 3.数据分组:将检测到的人框图片按show分组,减少标注工作量。 4.Data annotation:用person ID对分组的数据集进行注释,每个ID大约30张图片。最后,我们获得了戏剧场景中的 Drama-ReID 数据集。整个数据集大约有 1W 个 ID 号,包括大约 38W 个图片。是业内最大的戏剧场景的re-ID数据集。

  

  算法模型

  我们的整体算法模型框架如图3所示,基础网络部分使用了预训练的resnet50。为了获得更大的特征图,我们将backbone最后一个卷积层的stride设置为1。backbone后面主要有3个模块:人体语义分割、信息熵测量模块、语义对齐与匹配。整个网络结构是端到端的训练。

  

  图 3 网络结构

  1. 人体语义分割不同于现有的将人体区域划分为空间区域的算法。我们使用人体语义分割来划分人体语义区域,如图4所示:

  

  图 4 人体语义分割

  一方面,我们可以利用人体语义区域的划分来实现语义级别的特征对齐。另一方面,我们可以去除背景区域特征,以防止部分复杂背景图像影响字符匹配。同时,我们没有像现有的一些算法那样使用单独的语义分割模型来提取人体语义区域,而是使用了多任务学习人体语义分割。它的好处之一是可以降低模型的复杂度和复杂度。计算量,另一个是通过增加语义分割的监督损失,可以有效提高基本特征的空间表示能力2.信息熵测量模块多任务人类语义分割可以帮助我们提取人类语义区域,但是同时我们还需要考虑语义分割错误的情况。错误的语义分割会导致错误的特征对齐,导致错误的字符匹配。考虑到某个区域的分割概率越高,这个区域被正确分割的概率就越大,我们通过计算分割概率的信息熵来衡量这个分割的不确定性。计算公式如下:

  

  如果它更小,则意味着模型更确定这部分区域被正确分割。这样我们就可以计算出特征图上每个点的信息熵,然后通过设置合适的信息熵阈值,将整个人体区域划分为高熵和低熵区域。

  整个信息熵测量模块如图5所示:

  

  图5 信息熵测量的高熵区域是语义分割中不确定性高的部分。它们可能无法正确划分为某个语义区域。我们直接提取它们的全局特征。并且往往同一个角色的高熵部分具有一定的独特性(比如某个角色的特殊帽子)。这种独特而稀有的元素很难正确分割,但它是我们字符匹配的重要组成部分。基础和我们高熵区域的全局特征是这种特征的独特元素。低熵区域是语义分割中不确定性较低的部分。它们往往是很容易被正确分割的部位,它们往往与人体的区域结构密切相关。我们使用熵注意图来增强语义分割中具有高确定性的表示,同时抑制语义分割中低确定性的表示。一方面增强了稳定语义成分的表达,另一方面降低了错位的可能性。同时,在模型训练过程中,整体信息熵会随着分割损失的减小而减小。在训练初期,模型不能很好地进行语义分割,导致信息熵高,大部分区域会被划分为高熵区域。这时字符比较的特征主要是全局特征。随着训练的进行,模型的语义分割能力会增加,信息熵会减少,大部分区域会被划分为低熵区域。此时,字符比较的特征主要是语义特征。这就像特征选择中模型的自对抗学习,在训练过程中动态选择高熵全局特征和低熵局部特征。 3.语义对齐匹配在得到高熵全局特征和低熵语义特征后,我们首先会根据以下公式计算它们各自的重要性得分。对于高熵区域,如果收录人体的区域特征越多,其重要性得分就越高。对于低熵区域,如果人体语义区域不可见、被遮挡或无关紧要,则其重要性得分较低。语义对齐匹配如下图所示:

  

  图 6 语义对齐匹配

  根据各自的重要性得分和对应的特征比较距离,可以计算出最终字符匹配的总距离。

  

  此时我们已经实现了人体区域的动态对齐匹配。

  

  结果分析

  我们对比了我们模型的一些SOTA模型在开源数据集上的效果,结果如下:

  

  图 7 整体数据集对比

  

  图 8 Partial 数据集对比 图 7 是全身数据集的对比结果,图 8 是 Partial 数据集的对比结果。同时,我们也在自己构建的Drama-ReID数据集上进行了测试对比,结果如下:

  

  图 9 戏剧数据集对比

  

  体检单申请案例

  通过加入Partial re-ID特性,我们可以获得更多的准完整视频字符数据。这些数据目前主要用于电影体检中各种指标的计算,比如人物的外貌、人物的互动、故事情节等。同时,我们可以将视频内容根据以上指标进行量化编辑优化或内容评价。以下是“*敏*感*词*炖雪梨”的一些案例应用。

  

  图 10 人物出现率

  

  图 11 故事线分布

  

  图 12 角色的社交网络关系

  

  

  <p class="js_darkmode__74" data-darkmode-bgcolor-15971410476758="rgb(25, 25, 25)" data-darkmode-original-bgcolor-15971410476758="rgb(255, 255, 255)" data-darkmode-color-15971410476758="rgb(157, 157, 157)" data-darkmode-original-color-15971410476758="rgb(73, 73, 73)" data-style="margin: 15px 8px; color: rgb(73, 73, 73); white-space: normal; font-family: -apple-system-font, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif; letter-spacing: 0.544px; font-size: 11pt; line-height: 1.75em;" data-darkmode-bgcolor-15973128395730="rgb(25, 25, 25)" data-darkmode-original-bgcolor-15973128395730="rgb(255, 255, 255)" data-darkmode-color-15973128395730="rgb(157, 157, 157)" data-darkmode-original-color-15973128395730="rgb(73, 73, 73)" style="margin: 15px 8px;color: rgb(73, 73, 73);white-space: normal;font-family: -apple-system-font, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;font-size: 11pt;line-height: 1.75em;">更多精彩推荐</p>

  去世这天是她的生日,全球首位女性图灵奖得主 Frances Allen 的传奇人生华为云 GaussDB 数据库,会是新的国产之光吗?小米十年,雷军的一往无前用Bi-GRU语义解析,实现中文人物关系分析CPU:别再拿我当搬砖工!DeFi升空助推器:收益耕作者「Yield Farming」

点分享
点点赞
点在看 

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线