归纳总结:论文笔记:Mind-the-Gap
优采云 发布时间: 2022-10-08 18:10归纳总结:论文笔记:Mind-the-Gap
注意间隙!文本视频检索中的无监督域自适应摘要
我们什么时候可以期望文本到视频的检索系统在不同于其训练领域的数据集上有效工作?在这项工作中,我们通过无监督域适应的视角来研究这个问题,其目标是在查询时存在域转移的情况下匹配自然语言查询和视频内容。这样的系统具有重要的实际应用,因为它们能够在没有相应文本注释的情况下推广到新的数据源。我们做出了以下贡献:(1)我们提出了 UDAVR(视频检索的无监督域自适应)基准,并用它来研究存在域偏移的文本视频检索性能。(2)我们提出概念感知伪查询(CAPQ),一种学习可区分和可转移特征的方法,可以补偿这些跨域差异,从而使用源域监控实现高效的目标域检索。(3) 我们表明 CAPQ 在 UDAVR 上优于其他域适应策略。
介绍
给定一个自然语言查询和一个视频池,文本视频检索的目标是根据视频内容与查询的匹配程度对视频进行排名。到目前为止,该领域的大部分工作都依赖于训练和测试数据来自同一领域的假设。因此,使用不同领域的文本-视频检索方法可以采集到相应的标注,从而可以在目标数据上对模型进行重新训练或微调。
[英文]
给定一个自然语言查询和一个视频池,文本视频检索的目标是根据视频内容与查询的匹配程度对视频进行排序。到目前为止,该领域的大部分工作都依赖于训练数据和测试数据来自同一领域的假设。因此,在不同领域使用文本-视频检索方法可以采集到相应的评论,从而可以在目标数据上对模型进行重新训练或微调。
我们考虑限制较少的公式,其中模型能够访问源域上的标记数据,并且只能访问感兴趣的目标域上的未标记数据,这种设置通常称为无监督域适应 (UDA)。
迄今为止,用于文本视频检索的无监督域适应在文献中受到的关注有限。
[英文]
到目前为止,文本和视频检索的无监督域适应在文献中受到的关注有限。
在这项工作中,我们提出了一个新的基准,可以研究该制度下的文本到视频检索任务。为此,我们利用了图 1 中突出显示的四个领域的现有数据集。
用于视频检索的无监督域适应 (UDA VR) 基准。在这项工作中,我们重新利用来自四个领域的现有数据集来研究文本到视频的检索任务,而无需目标领域的监督。这四个领域的视频不仅在视觉构成和持续时间上有所不同,而且在文本描述的重点和风格上也有所不同。
这意味着在这四个数据集上进行试验
经验风险最小化的简单应用在适应检索模型时会遇到两个领域转移:视频内容/风格转移和描述分布转移。
[英文]
经验风险最小化的简单应用在适应检索模型时会遇到两种领域迁移:视频内容/风格迁移和描述分布迁移。
经验风险最小化;
这意味着这些不同的数据集具有不同的视频内容/风格和描述。
为了应对这些挑战,我们提出了一个用于跨域文本视频检索的概念感知伪查询(CAPQ)框架,其中包括两个技术贡献:一个概念保留正则化器,旨在增强学习嵌入的可迁移性(它对视觉的不变性)和描述分布变化);以及一种伪标记算法,其目的是确保它们尽可能具有区分性,以便在不访问描述分布的情况下提高目标域的检索性能。
此外,为了减轻由于简单的伪标签应用引起的中心问题(其中一小部分数据样本变得“流行”,即它们形成许多样本的最近邻居)
枢纽点问题(Hubness problem)
这其实是高维空间中固有的问题:在高维空间中,某些点会成为大多数点的最近邻点
我们提出了一种迭代互斥选择机制,以避免过度利用少量伪标签候选者。
[英文]
我们提出了一种迭代互斥选择机制,以避免过度使用少量伪标签选项。
综上所述,我们做出了以下贡献:
<p>
(1)我们提出了第一个自然语言文本-视频无监督域适应基准UDAVR,并使用它来评估现有方法对该任务的适用性。
(2)提出了CAPQ方法,该方法利用源监督和未标记的目标数据来实现良好的目标域检索性能。
(3)我们证明CAPQ优于单一来源泛化和其他领域适应策略,如最大平均差异变量、对抗学习策略和拟议基准上的交通模型。
</p>
方法的总体框架
在本节中,我们描述了视频检索设置中域适应的一般框架,我们假设源域 S = { v S , t S } S={{v^S, t^ 访问成对的文本和视频样本 S }}S ={v S ,t S },目标域 t = v T t ={v^T}t =v T 对于未配对的视频。本文的目标是建立一个模型,该模型可以学习判别性和可迁移特征,以弥合跨域差异并检索目标域的学习联合嵌入空间。它必须在不知道目标域文本分布的情况下这样做。
在这种情况下学习良好的联合嵌入空间的主要挑战包括:(1)实现对视觉内容/风格和描述分布变化的鲁棒性;(2) 可转移到未知的开放集(自由形式目标查询的判别特征)。
(图片)幻觉者
绿色箭头和红色箭头分别表示来自源域和目标域的信息流。首先,我们采用一组冻结的、预训练的专家模型 F 来提取共同特征 F ( v S ) F(v^S)F (v S ) 和 F ( v T ) F(v^T)F (v T ),涵盖了一系列语义概念。然后,文本和视频编码器将共同特征投影到文本-视频联合嵌入空间中,生成 φ vid ( v S ) φ_{vid}(v^S)φv id (v S ), φ vid ( v T ) φ_ {vid}(v^T)φv id(v T ) 和 φ text ( t S ) φ_{text}(t^S)φt ext (t S ) 是可转移的判别特征。这些特征是通过多模式概念-保留-损失和排名-损失来实现的。为了在没有目标文本 t T t^T t T 的情况下启用目标域中的排名损失,
特征提取:我们首先使用一个冻结特征提取器 F,其中收录一组模型(在文献中通常称为专家,在源和目标域视频上进行预训练(在图像分类、动作识别等任务上)提取特征. 描述符 F(vS)F(v^S)F(vS) 和 F(vT)F(v^T)F(vT) 旨在形成内容的一般表示(在数据集上预训练的大范围)。
即在图像分类或动作识别等任务上进行预训练的模型,并冻结为特征提取器以提升源域和目标域视频特征。
视频和文本编码器:视频编码器 φ vid φ_{vid}φv id 以 F(v) 作为输入,投影到视频-文本联合嵌入空间
text encoder φ text φ_{text}φt ext 首先使用预训练的 word-level embeddings 将每个查询语句 t 映射到一组特征向量,然后通过 NetVLAD 聚合这些 word-level embeddings,并结合最终的文本特征投影进入视频-文本联合嵌入空间
可转移:为了使特征可转移,我们的目标是减少两个域之间的视频嵌入偏移和描述分布偏移。这可以通过通过概念保留损失的约束利用多模式专家的预训练模型来实现。(即可以用一种方法解决),视频编码器φvid和文本编码器φText,概念选择器ψC和幻觉ψhw共同作用,最小化概念保存损失LP,目的是保存之前获得的知识,通过惩罚无法保留预训练模型提供的判别信号的联合空间嵌入。
我真的不明白这部分。
这样,我们可以
(1) 在此约束下隐式减少联合空间中的源和视频嵌入偏移;
(2) 鼓励文本编码器将给定样式 A s (v) A_s(v) A s(v ) 的注释映射到更一般的 φ 文本 φ_{text}φt ext,其中函数 A s ( ⋅ ) A_s( )A s(·) 表示与源域注释相关的描述风格。这种设计的目的是使 φ text ( t ) φ_{text}(t)φt ext(t ) 能够更广泛地访问配对视频中的各种语义概念,原则上可以用来回答目标的问题未知查询的领域。
Discriminative:特征应该是有区别的,例如,配对的文本和视频嵌入应该在一起,而不匹配的文本和视频嵌入应该远离。直观地说,我们可以通过排名损失使用可用的训练对 {vS, tS} 来使嵌入尽可能具有区分性,但仅限于源域,而不是目标域。为了解决这个问题,我们提出了一种文本排他选择机制,从最好的无偏文本嵌入集中进行选择,并将它们作为目标伪查询嵌入 PTP^TPT 分配给目标视频,然后,我们通过秒最小化目标域在 {vT, pT} 中的伪对中对 Loss L t L_t L t 进行排序,以优化联合视频文本嵌入空间。, 尽量减少损失。
; 概念保存
它旨在保留先前获得的知识,使联合空间中的视频和文本特征都可以转移。
[英文]
目的是保留先前获得的知识,以便可以转移联合空间中的视频和文本特征。
首先
例如,视频检索系统通常使用预训练模型(然后将构成特征提取器 f 的一部分)在 ImageNet 上执行图像分类。在这种情况下,概念选择器代表预训练模型的最终线性层,它负责将通用描述符 F(v)F(v)F(v) 的片段转换为 1000 个概念的 ImageNet 分布。
将两个源和目标的概念选择器投影到它们各自的分布,上面的两行,
[英文]
将两个源和目标的概念选择器投影到各自的分布上,也就是上面的两行
接下来,作者使用预测的概念分布 y 作为信号来鼓励视频-文本联合嵌入,以保留预训练模型所拥有的概念知识。具体来说,作者构建了一个幻觉器 ψH(两层 MLP),使得嵌入 φvid 和 φtext 的预测 yˆ ∈ RC 与 y 一致,并且作者对视频和文本使用相同的 ψH,隐式对齐两种不同的模态
关于多模态特征的讨论:
由于最近的一些作品在视频文本检索任务中使用了多模态预训练模型特征,作者指出,通过使用 Nm 特征提取器 {F n, n ∈ [1, 2, ..., NM] }。, CAPQ 也可以直接应用于多模态设置,将公式(3)扩展到多概念保存损失
判别式联合空间学习
使用对比边距损失来训练源域中的视频-文本对,以获得更具辨别力的嵌入特征
给定来自源域的视频-文本对,我们可以通过最小化对比度边际损失来训练判别嵌入以进行检索
[英文]
给定来自源域的视频文本对,我们可以通过最小化对比度的边际损失来训练和区分嵌入以进行检索。
为了更好地完成跨域检索任务,我们建议改进联合视频-文本嵌入空间(从 ls 训练)以适应识别目标域进行检索的要求。为此,我们提出了一种伪文本选择机制,从一组无偏文本嵌入 φtext(tS) 中选择“最佳”,并将“最佳”分配给目标视频 vTas 目标伪文本嵌入 pt。(主要是这样,选择最好的,然后给 P t P_t P t ),我们嵌入 φ vid ( F ( v T ) ) φ_{vid}(F(v^T))φv 通过最小化目标视频 id(F(vT)) 和所选伪查询嵌入 ptas 之间的二阶损失 ltt 以细化联合空间
互斥选择算法
(无偏我的意思是对于特定的注释器分布无偏))
给定一个无偏文本嵌入φ text(tS),作者选择与目标视频相似度得分最高的文本嵌入作为伪标签,
但是单独这样做是有问题的,尤其是在训练的早期,对于目标视频vi的伪标签文本embedding,也有可能与其他视频vj同时产生更高的分数
因此,作者设计了一个互斥的伪标签选择。通过使用双向softmax运算,首先给定一个相似度矩阵S,沿文本维度使用softmax得到Stext,然后沿视频维度使用softmax得到Svideo,然后将Stext和Svideo结合得到最终相似度S '
本文提出的互惠伪文本选择方法是专门为跨模态检索任务设计的。该方法首先找到所有候选文本和视频,构建一个平滑的相似度图,最后分配与其他不同视频查询不最接近的那些。“最佳”伪文本。这是与分类任务中使用的传统伪标签机制的关键区别,其中在将相同的伪标签分配给不同的视觉查询(即属于同一集群的那些)时不会产生任何惩罚。
[英文]
本文提出的排列伪文本选择方法是专门为跨模态检索任务设计的。首先,找到所有候选文本和视频,并建立一个平滑的相似度图。最后,分配最接近其他不同视频查询的“最佳”伪文本。这是与分类任务中使用的传统伪标签机制的一个关键区别,后者在将相同的伪标签分配给不同的视觉查询(即属于同一集群的那些)时没有惩罚。
[我对这里未标记的选择有点困惑。如果有这么极端的问题,就是有些视频没有相关文字,或者文字相关性不高,选择无偏见的文字合集]
综上所述
在这项工作中,我们提出了一个新的基准,并研究了在这种情况下文本视频检索的无监督域适应任务。我们介绍了 CAPQ 框架并表明它优于标准域适应技术。
原来的:
作者:帅帅亮
标题:论文笔记:Mind-the-Gap,文本视频检索的无监督域适应
归纳总结:软文营销写作的写作结构分析
《软文营销写作的写作结构分析》文章已存档,站长首页不再显示相关内容。以下是站长家的自动化写作机器人,通过算法提取的文章 关键内容。这个 AI 还很年轻,请联系我们帮助它成长:
站长在写软文的时候会用到一些结构。就像我们学生的写作一样,写作的风格和结构是不同的。今天,莫向照将分享软文写作的结构。..
软文目前常见的写作结构有叙事散文新闻软文、事件评论软文、经验与技术软文三种。这三种软文中用到了三种软文结构,下面笔者为大家分析一下,顺便评论一下各种软文写作中用到的结构,以便大家在学习的过程中使用。这些方法...
叙事新闻软文结构...
据了解,软文写作并不仅仅依赖于写作思路。脱颖而出的文章不仅结构清晰易读,而且从软文营销的角度来看,更多的是为了促进合作...
……
本文由站长之家用户“”投稿。本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间,为保证文章信息的及时性和内容意见的准确性,平台将不提供完整的内容展示,本页内容为仅用于平台搜索索引。需要阅读全文的用户,请联系作者索取原文。
即将跳转到外部网站
安全性未知,继续
继续