论文打卡第十七期（信息抽取，文本生成，多模态，知识蒸馏）

优采云发布时间: 2022-05-01 08:00

　　关于我们

　　我们

　　是一个*敏*感*词*多所高校AI方向学生共同组织的论文阅读打卡小组。我们定期组织论文阅读活动，期望大家能够在自己需要的情况下，阅读论文并分享自己的阅读笔记，既可以督促提升自己，也可以分享利于其他同学。我们期望我们这个活动能够成为一个帮助同学们督促自己也造福他人的平台。

　　文中所有内容均为各位同学的个人阅读笔记。不保证笔记内容的准确性、全面性。内容仅供参考。

　　本期目录

　　领域

　　1

　　Are Transformers More Robust Than CNNs

　　神经网络

　　2

　　Dynamic Modality Interaction Modeling for Image-Text Retrieval

　　多模态检索

　　3

　　Multi-Modal Mixup for Robust Fine-tuning

　　多模态

　　表示学习

　　4

　　Hierarchical Modular Event Argument Extraction

　　信息抽取

　　5

　　Generating Disentangled Arguments With Prompts: A Simple Event Extraction Framework That Works

　　信息抽取

　　6

　　Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data

　　命名实体识别

　　7

　　Towards Debiasing NLU Models from Unknown Biases

　　NLU

　　8

　　How do Vision Transformers Work?

　　预训练模型

　　9

　　Learn From the Past: Experience Ensemble Knowledge Distillation

　　知识蒸馏

　　10

　　Rethinking and Refining the Distinct Metric

　　文本生成

　　11

　　A Contrastive Framework for Neural Text Generation

　　文本生成

　　12

　　Should You Mask 15% in Masked Language Modeling?

　　预训练模型

　　13

　　Visually Grounded Reasoning across Languages and Cultures

　　多模态

　　14

　　PILED: An Identify-and-Localize Framework for Few-Shot Event Detection

　　信息抽取

　　15

　　TEXT2EVENT: Controllable Sequence-to-Structure Generation for End-to-end Event Extraction

　　信息抽取

　　01

　　Are Transformers More Robust Than CNNs

　　领域：神经网络

　　会议：NeurIPS 2021

　　链接：

　　关键词：Transformer， CNN

　　是否推荐：推荐

　　打卡内容：

　　1.问题：最近的工作认为Transformer比卷积神经网络（CNN）更强大。然而，令人惊讶的是，我们发现这些结论来自不公平的实验环境，其中Transformer和CNN在不同的尺度上进行比较，并应用不同的训练框架。

　　2.分析：a）如果CNN正确地采用Transformer的训练方式，那么在防御对抗性攻击方面，它们可以很容易地像Transformer一样强大。b）Transformer的泛化能力得益于self-attention架构，而非在*敏*感*词*数据集上进行预训练。

　　评价：怀疑的态度和实验分析很有趣。

　　02

　　Dynamic Modality Interaction Modeling for Image-Text Retrieval

　　领域：多模态检索

　　会议：SIGIR 2021

　　链接：

　　是否推荐：推荐

　　打卡内容：

　　1.问题：现有的图像文本检索方法在交互模式的设计上严重依赖专家经验和经验反馈，因此缺乏灵活性。

　　2.方法：我们开发了一种基于路由机制的新型模态交互建模网络，这是第一个面向图像文本检索的统一动态多模态交互框架。特别是，我们首先设计四种类型的单元作为基本单元，探索不同层次的模态交互，然后以密集策略将它们连接起来，构建一个路由空间。为了赋予该模型路径决策的能力，我们在每个单元中集成了一个动态路由器用于模式探索。由于路由器以输入为条件，我们的模型可以动态地学习不同数据的不同激活路径。

　　评价：实验很丰富。case study很直观、有说服力。图画得很好看。

　　03

　　Multi-Modal Mixup for Robust Fine-tuning

　　领域：多模态表示学习

　　会议：ARXIV 2022

　　链接：

　　是否推荐：推荐

　　打卡内容：

　　本文探究了CLIP模型给出的文本和图片表示，发现这两个模态的表示分得很开，且中间有大片未被填充的空间。

　　作者借鉴了ICML20的一篇文章，利用其中的alignment和uniformity指标进一步分析了CLIP的多模态特征空间，发现构成正例的两个样本在特征空间中不够近（alignment小），同时所有数据的特征分布不够均匀（uniformity小）。这样的特征分布是不够鲁棒的，会降低模型在下游任务上的表现。

　　为此，作者提出了multi-modal mixup技术，通过混合两个模态的特征得到更困难的负例，再进行对比学习。具体的mixup技术包括m^2-mix（图片混文本作为图片的负例）、V-mix（文本混文本作为图片的负例）、VL-mix（文本混文本、图片混图片，然后互为负例）

　　实验结果表明这种方法在保留多模态结构关系的同时，提高了模型的alignment和uniformity指标，进而提高了模型在下游retrieval任务上的表现

　　04

　　Hierarchical Modular Event Argument Extraction

　　领域：信息抽取

　　会议：EMNLP 2019

　　链接：

　　关键词：分层网络

　　是否推荐：推荐

　　打卡内容：

　　本文是事件要素抽取的工作，主要是为概念层次（concept hierarchy）的每个基本单元设计了一个神经网络模块，然后使用逻辑操作，将相关的单元模块分层地组成一个面向角色的模块网络（modular network），对特定的argument role进行分类。

　　为每个概念设置了一个NMN，并将其组成了一个面向角色的模块网络，以预测每个实体的元素角色：首先，对于每个上级概念，有一个上级概念模块（SCM）来突出和概念有关的上下文信息；然后，对于每个元素角色，使用针对特定角色的逻辑模块整合和其相对应的SCMs，以得到统一的高层次的模块；最终，使用元素角色分类器，预测实体是否扮演了给定的元素角色。主要的做法就是将实体的信息融合到候选的要素片段中，增强分类的效果。

　　实验在ACE 2005, TAC KBP 2016这两个数据集上做了EAE的测试，没有全部达到SOTA，但是分层网络确实提升了模型的效果。

　　05

　　Generating Disentangled Arguments With Prompts: A Simple Event Extraction Framework That Works

　　领域：信息抽取

　　会议：ICASSP 2022

　　链接：

　　是否推荐：推荐

　　打卡内容：

　　应该是最早在提示学习上做事件抽取的论文了。作者分析了事件抽取的三种主流方式：序列标注、MRC和生成，又对生成范式的两瓶。编码部分作者加入了提示（无需手工设计），解码部分沿用了TEXT2EVENT的方法。

　　其中一个创新点是减少了触发词对参数抽取的影响，作者认为有些触发词对参数抽取没有帮助，只需要事件类型就可以找到模板并且进行参数抽取，还可以提高效率。但是我认为有两点问题。首先，作者依然需要pipeline式地进行简化的事件检测，还是执行2个模型，时间效率没有提升，甚至3个模型提高了计算量。其次，目前大家似乎都是使用Ground Truth的触发词和事件类型做参数抽取，所以理论上的性能没有提升。（但是实际生产中，没有GT的事件检测标注，这种方式可能些许减少误差传播）。

　　另一个创新点就是引入了提示学习，其实文章的模板过于简单，取得这样的效果已经很不容易了。如果进行模板的设计，可能可以取得更好的结果。

　　06

　　Named Entity Recognition with Small Strongly Labeled and Large Weakly Labeled Data

　　领域：命名实体识别

　　会议：ACL 2021

　　链接：

　　是否推荐：推荐

　　打卡内容：

　　现有的工作只是进行弱监督学习，而在实际场景中，同时存在强标注数据和弱标注数据（半监督）。由于弱监督数据中存在噪声，传统的方法不能有效地提高性能。所以作者使用了一个三阶段的计算框架NEEDLE。弱标签可以分为三类：不准确（有噪声）、不精确（粗粒度）和不完全（有点没有标注）作者考虑了一三两种情况。

　　在第一阶段，通过对大量目标域无标记数据进行域内连续预训练，将开放域预训练语言模型适应于目标域。在第二阶段，利用知识库将域内无标记数据转换为弱标记数据。然后，结合弱标签补全过程（不完全）和噪声感知丢失函数（不准确），对弱标签数据和强标签数据进行连续的预训练，有效地处理弱标签的“不完全性”和“噪声标记”。在第三阶段，对强标记数据再次微调模型。最后的微调阶段是模型拟合强标记数据的关键。

　　实验表明可以通过迭代的方式进一步提高性能，而自训练的方式提升有限。

　　07

　　Towards Debiasing NLU Models from Unknown Biases

　　领域：NLU

　　会议：EMNLP 2020

　　链接：

　　是否推荐：推荐

　　打卡内容：

　　Debias NLU 中模型对 superficial correlation 的依赖，作者指出之前的方案依赖于对于 bias type 的 prior，例如 MNLI hypothesis 和 premise 的 overlapping，而很多数据集缺乏类似的分析因而无法获得 prior。作者经过实验观测到，对于 biased data，模型会学的很快，达到 100%的准确率，因而尝试利用一个辅助模型来作为样本是否是 bias 样本的 indicator，进而可以对 unknown biases 进行建模并且和之前的方案进行整合，主要包括：re-weighting, ensemble 以及 confidence regularization；此外，为了避免因为学到很多 bias 造成 effective training data size 的下降作者提了一个退火的机制，来慢慢消除 bias indicator 的作用，最后退化成普通的 MLE loss。作者在主流的 MNLI/HANS，FEVER 和 QQP/PAWS 上进行了测试，效果和之前的方案相比（因为他们已知 bias type）有好有坏，但都比不 debias 好，也验证了退火策略的有效性。进一步地分析指出，作者的方案在跨数据集的场景下表现的会更好，并且 debias 后模型在样本上的 loss 的gap 会变小（单个样本很大可能是有一些样本模型利用 bias 信息很轻松的就做对了，然而难的样本没学会）。

　　08

　　How do Vision Transformers Work?

　　领域：预训练模型

　　会议：ICLR 2022 Spotlight

　　链接：

　　是否推荐：推荐

　　打卡内容：

　　文章对比了 ViT 和 ResNet 以获得 ViT work 的一些 Insights：

　　- ViT 能够 flatten loss landscape，从获得更好的泛化性能和 robustness，然而其也存在在更多负的 Hessian Eigen values，loss 是 non-convex 的，造成在小数据集上优化的困难；

　　- ViT 对高频信号的强度会进行压缩而 CNN 会放大，二者分别类似一个低通滤波器和高通滤波器，进而导致在高频noise方面 ViT 表现的更好；

　　- 作者认为多阶段网络是小模型的级联，因此考虑 CNN 和 MSA 级联构成 block，以对 stage output 进行 spatial smoothing，基于一个简单的building-up rule（不断替换 CNN 和 MSA，检查有没有更好的性能），实验发现这个提出的网络结构的效果更好并且更加鲁邦。

　　09

　　Learn From the Past: Experience Ensemble Knowledge Distillation

　　领域：知识蒸馏

　　会议：ARXIV

　　链接：

　　是否推荐：推荐

　　打卡内容：

　　这篇文章考虑利用 Teacher 训练过程中的 snapshot(so called learning experience)，来提升 KD 的效果。具体的做法就是存下 teacher 训练过程中的 checkpoint，然后 ensemble 这些 checkpoint 的输出来指导 student model。作者探索了不同的方案，发现：

　　- 并不是效果越好的 teacher ensemble 能够得到更好的 student，这个观察之前在 CV 里面已经有不少了，这是另外一个佐证（在 NLP 里面，我们 EMNLP 21 的工作 Dynamic KD 也在 BERT 上观测到了这一现象）

　　- Distillation 过程中对 teacher 不同的权重，作者对比了一些 heuristic 的 linear strategy 和设计了一个根据 instance feature 的 attention 机制，结论是 dynamic attention 的效果会更好，尽管对应 ensemble 出来的 teacher 效果并不一定是最好的

　　- snapshot 的数量，基本上是存的 checkpoint 越多效果越好，但因为同时需要 forward 多个 teacher model 会造成比较大的训练开销（这个问题挺好解决的，静态 dataset 的话，把 teacher logits 存下来就完事了）

　　最后作者在 CIFAR 100 和 ImageNet 对比了目前的 sota，发现提出的方案能够取得更好的效果，但分析部分还是比较欠缺，对于 experience 的这个概念的探究还是不够深入。

　　10

　　Rethinking and Refining the Distinct Metric

　　领域：文本生成

　　会议：ACL 2022 Short

　　链接：

　　是否推荐：推荐

　　打卡内容：

　　Distinct metric 是文本生成中常用的一个指标，来衡量生成文本的 diversity，作者指出这个指标存在一个问题：当文本长度变长的时候，这个指标会急剧下降。作者分析的方法是控制 vocab 的 distribution(概率分布)，然后增长句子的长度，发现 distinct 的下降，而这个和 distinct 本身想要 measure 的 word distribution 的 diversity 是矛盾的（因为 distribution 固定，那么应该和长度无关）。在一个方面，这会造成模型比较的不公平，因为可以很轻松地通过控制 length penalty 来控制 diversity。作者通过对分母进行修改，改为期望出现的总 token 的上界（因为无法估计不出现的 token），得到了一个更好的 distinct 指标。实验评估发现，这个指标有更好的长度不变性，并且在真实数据集上更能够体验不同方法的 gap 和 consistency，也和 human evaluation 有比较好的 correlation。

　　11

　　A Contrastive Framework for Neural Text Generation

　　领域：文本生成

　　会议：ARXIV

　　链接：

　　是否推荐：推荐

　　打卡内容：

　　旨在解决 generation 中生成重复 token 的问题，之前的 Top-k 和 Top-p 生成能够一定程度的缓解这个问题，但是会带来 inconsistency 的问题。作者认为重复的原因来自于 token uniformity，并且对 GPT 最后的 token representations 做了可视化，发现 token 之间的 cosine similarity 高于 0.95 ，进而会导致在不同时间步上产生重复的 token，而理想状态中 token 的表示应该有较大的区分度。作者因此提出了 SimCTG，利用对比学习来增强不同 token representation 之间的 cosine 距离，同时在解码阶段，也对 representation 上增加一个惩罚项，即和之前所有 token representation similarity 的最大值。作者在 wiki103 上和 MLE, Unlikelihood 做了对比，能够在发现在 coherence 更高的情况下，取得更好的抗重复，增强生成文本多样性的效果，在 Dialog Generation 上的人工测评也体现出比较明显的提升。

　　12

　　Should You Mask 15% in Masked Language Modeling

　　领域：预训练模型

　　会议：ARXIV 2022

　　链接：

　　是否推荐：推荐

　　打卡内容：

　　探究 Mask Language Modeling 中 Mask 比例的影响。作者首先是在预训练中发现 mask 掉 40% 的 token 能够带来更好的下游任务性能，并且 mask 掉 80% 也能保持大部分的性能。作者进一步地把 mask ratio 对性能的影响解耦成两部分：

　　- corruption rate: 对上下文破坏的比例，这个比率越高，上下文破碎程度越高会使得预测任务会更加的困难；

　　- prediction rate: 预测 mask token 的比例，这个比率越高，则模型接收到的训练信号越多；

　　传统的 MLM 里面，这两个比率是都和 mask ratio 相等的，作者设计了 ablation study 来分别探究这二者的效果：

　　- corruption rate > prediction rate: 例如，mask 掉 40% token，但是只预测其中 50% 的 mask token，即 prediction rate = 20%；

　　- corruption rate

　　实验以 mask rate = 40 % 为 baseline 为 baseline，发现 corruption rate 越高整体会降低效果，而 prediction rate 越低也会带来更差的效果，二者是一个 trade-off，更难的任务和更多的信号。作者也对不同 size 的model 进行了探究，发现大模型下游任务最好的性能出现在 mask rate 更大的位置，猜测是其能力更强，所以能够处理更难的任务并且利用好更多的信号。

　　另外一个常用的 trick 是 80-10-10 ，即 mask token 有 80 % 的 token是 [MASK]，10% 的概率是原来的 token，10 % 的概率是 random token，最初这个trick是用来缓解 [MASK] 引入的 inconsistency 的，但是作者的实验其实关注到 40% 的mask rate 并没有带来性能下降，说明这个 inconsistency 还是存疑的，作者探究了增加 same token prediction，random token 的比率，发现还是带来下降，因此作者提倡还是用 [MASK] 最原始的版本就可以了。

　　最后作者探究了 mask 的策略，发现在高 mask 比率下，相比于 PMI 和 Span，uniform 的 mask 策略就能取得比较好的效果，作者的解释就是高 mask 比率实际上大概率会 mask 出类似 PMI、Span 的 mask，从而也能够使得模型的学习更加鲁棒。

　　13

　　Visually Grounded Reasoning across Languages and Cultures

　　领域：多模态

　　会议：EMNLP 2021

　　链接：

　　是否推荐：推荐

　　打卡内容：

　　ImageNet构建的方式是通过英语的WordNet去选择层次化的概念，然后根据概念再选择图像。后面的一些数据集，比如NLVR2，MSCOCO，VisualGenome都是通过这种层次结构构建的。有证据表明ImageNet数据的来源与内容都存在着bias，也有人曾为了纠正这种倾向提出干预数据，过滤、重新平衡一些类别，但若是原分布本就未能涵盖多语言多文化，这种方法便不足以解决这个问题。作者认为ImageNet中的主要问题是概念不普遍、概念过于特定于英语。Bias的来源有以下三个方面：1. 概念的选择；2.候选图像检索（检索到的图像不符合真实世界分布）；3.图像过滤（完全取决于标注者，他们都是来自于欧美）。

　　针对这三个问题，作者设计了一个新的数据集，让概念和图像的选择完全由母语人士驱动。构建数据集的第一步是：1.选择语言，数据集主要包含5种语言：印尼语、简体中文、斯瓦希里语、泰米尔语和*敏*感*词*语。这5种语言的类型(typologically)、语系(genealogically)、地理(geographically)上皆不同。同时，泰米尔语和*敏*感*词*语是低资源语言。2.选择普适性概念，有两个层次，第一个是chapter，比如Animal，对应的semantic field是bird和mammal。3.选择特定语言概念：针对每个semantic field，作者雇佣5个母语人士提供5-10特定概念的维基百科页面，比如针对中文的semantic field music instrument，提供的维基百科页面是关于古筝的。概念需要满足两个关键需求：在使用这种语言的人群中常见或有代表性的，最好是以物质形式存在且具体的。4.图像选择，标注者可以从本地网站，搜索引擎和维基百科等作为源针对每个概念拿到12张图片。5.描述标注，从图像集中随机选8张图像，随机组成4个图像对。每位标注者被要求写一个描述，此描述对于两个图像对为True，两个图像对为False。在最后的数据集中，一个数据点包含两张图像，一个描述，和一个True/False标签。

　　关于图像分布的分析，作者使用在ImageNet上训练的ResNet50 分别对MaRVL图像以及从NLVR2采样的1K张随机图像进行特征提取，提取后使用UMAP将它们的嵌入分布可视化。结果发现，MaRVL的中文图像与来自NLVR2的英文图像有着极为不同的分布。同时，也对MaRVL中的印尼语和斯瓦希里语的图像分布进行了比较，结果表明在不同语言间也有着不同的分布。

　　然后就是基于多种预训练模型（VL-BERT，UNITER等等）在MaRVL上的实验了，本文提出了两个跨语言的VL预训练模型的变种，mUNITER（通过mBERT进行初始化的UNITER）和xUNITER（XLM-R）。通过和NLVR2进行对比，模型在Zero-shot实验中效果下降明显，对于资源丰富的中文一样如此。同时加入一种设置，就是将不同语言翻译为英语，相比之下，模型有着不同程度的提升，但比起NLVR2依旧有着10%的差距。作者认为这种明显的下降是由于MaRVL有两个挑战：一个是cross-lingual transfer，另一个是out-of-distribution。作者又设计了一组控制实验，他们将MaRVL-ZH人工翻译成了英语，去除了机器翻译所带来的任何可能的混杂因子。和机器翻译相比，大部分模型都有1-2%的提升，因此翻译是很可靠的。那么，导致模型下降10%的便是那些OOD概念了。第二个实验是：从NLVR2测试集取样250个唯一的描述，将它们人工翻译成简体中文，记为NLVR2-ZH。mUNITER和xUNITER的准确率都下降了约16%，因此，这种gap可以归因于从英语到中文的跨语言迁移。第三组实验是，将NLVR2的训练集机器翻译为中文，并在MaRVL-ZH上测试，发现mUNITER和xUNITER的结果和Translate test实验时很接近，再一次说明缺乏文化相关概念阻碍了泛化。

　　14

　　PILED: An Identify-and-Localize Framework for Few-Shot Event Detection

　　领域：信息抽取

　　会议：ARXIV

　　链接：

　　是否推荐：推荐

0

2022-05-01

搜索引擎进行信息检索的优化策略方法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

论文打卡第十七期（信息抽取，文本生成，多模态，知识蒸馏）

0 个评论

发起人