总结:RACE数据集上各个模型文章的笔记

优采云 发布时间: 2022-11-24 16:28

  总结:RACE数据集上各个模型文章的笔记

  问师兄一些问题,他说让我可以关注这个数据集寻找答案。。。。今天的服务器真卡,真的没办法跑数据,所以就先写文章笔记。量子语言模型是真的牛逼,听着很牛逼,但是结果e被问了好多回答不了的问题。

  先多写几篇吧,等后面这些文章都写了笔记之后再一起按照排名整理。

  RACE数据集的简介:

  1. 中国中考、高考试卷阅读理解,其中年龄为12-18岁的学生,与之前的数据集不大相同

  2 .总共有 27933 Passages, 97687 Questions,每篇文章差不多 3-5个问题。

  3. 对于推理要求较高,比例较大,有 对于【文章的总结】 和 【态度分析】之类的推理问题,其他数据集基本没有。

  4. 推理类型比较多,总共有5类。

  5.评价方式为准确率

  6. 问题和答案 不仅仅是简单的对于原文词语的重复,很可能是原文词语的其他表达等等。

  7. 5种推理类型:

  1) Detail reasoning(细节推理)---文章细节,但不是简单匹配

  2) Whole-picture reasoning(全局推理)--需读懂全文才可以回答

  3) Passage summarization (文章总结)---1/4文章的摘要

  4) Attitude analysis(态度分析)---作者或者原文对于事情的态度

  5) World knowledge(世界外部知识)---常见此类问题涉及简单的 算术计算。

  Figure1:一个数据集的例子

  Figure2: 数据集划分比例

  数据集中长度统计

  数据集的统计信息以及推理分布

  ACC分析

  按照推理类型分布

  1.DCMN----

  2.OCN--|

  3.Bert_Large

  4.Reading Strategies Model

  5。Hierachical Attention Flow

  好了这周已经安排满了,下周也快满了,下周和公司的会议又要开了,又要赶东西了-----

  1. DCMN__

  【分类】---【MRC】---多选题---RACE

  一。RACE数据集介绍:

  初中、高中英语阅读理解的文章,多选题,其中要做出选择需要能够做推理等等。

  二。摘要:

  多选择题阅读理解是一项具有挑战性的任务,需要复杂的推理过程。 给定文章和问题,需要从一组候选答案中选择一个正确的答案。 【贡献】--本文中提出了 Dual Co-Matching Network (DCMN)--协同匹配网络来双向建模问答关系的网络。 【特别之处】--与现有方法模型的不同之处: 我们同时计算 passage-aware question representation and passage-aware answer representation ,以前只是计算问题感知文章,或者答案感知文章。 【结果】---RACE数据集上面取得了最先进的结果

  1. Introduction

  MRC对于AI而言很有意义,但是现在的阅读理解任务大多集中在浅层的QA任务上面,这些问题可以通过现有的检索技术有效的解决,例如 SQuAD和NewsQA(好像目前都已经超过人类水平了)---简单说,就是之前的太简单了,在我这里不行。这种MRC就是给定一个文档和问题,然后预期的答案是来自于文档中的短距离跨度(short span)。 问题上下文一般收录

足够的信息来识别收录

问答对的证据句子。 SQuAD中90.2的问题可以由文章中一句话回答。 即使在一些一对多回合会话QA任务中,现有的模型也是基于检索的,也就是说之前的都是检索匹配都太简单了。

  【贡献--难度】---

  本文主要的RACE数据集,每个问题都有一组答案,大多数问题的正确答案不可能出现在原文中,这使得很有挑战性,并允许出现丰富的问题类型,比如 短文总结,态度分析等等(匹配是解决不了的--)。 这就需要对于单个文档有更深入的理解,并利用外界知识来回答这些问题。 【另外】此外,与传统的MRC比较,我们需要考虑: passage-question-abswer三元组而不像之前的 passage-question pairwise 的匹配

  【自己的工作/贡献】

  提出DCMN,双向的match question-answer to given passage . 使用了Bert最后一层隐层向量对应的第一个input token(【cls】)被用作聚合表示【00001】,然后利用分类层计算标准分类损失【00002】.作者认为这种方法过于粗糙,无法处理 passage-question-answer triplet,因为他只是粗略的将 短文和问句 作为第一个序列串联起来,然后使用问句作为第二个序列,而没有考虑文章和问句之间的关系。 所以,我们提出了一种新的方法来建模 文章、问题、候选答案之间的关系

  【自己做法】

  首先作者使用 Bert作为编码层分别去获得 文章的上下文表示、问题的上下文表示、答案的上下文表示。 然后利用得到的这三个东西构造匹配层,得到 passage-question-answer的三元组匹配表示,这个匹配表示编码了问题在文章中的位置信息,以及候选答案关于文章中的特殊的context.最后,我们在匹配表示层上面使用 层次聚合的方法(Hierarchical aggregation),从word-leval 到 document-level ,然后从 sequence level 到 document level。 模型在bert-base 以及 bert-large的soat的模型上效果分别提升2.6 /3个点。

  【模型】---

  论文使用目前 NLP 最新的研究成果 BERT 分别为 P 和 Q 中的每一个 Token 进行编码。基于 BERT 的编码,可以得到的编码是一个收录

了 P 和 Q 中各自上下文信息的编码,而不是一个固定的静态编码,如上图中 Hp 与 Hq;

  其次,通过 Attention 的方式,实现 P 和 Q 的匹配。具体来讲,构建 P 中的每一个 Token 在 Q 中的 Attendances,即 Question-Aware 的 Passage,如上图中 Mp。这样得到的每一个 P 的 Token 编码收录

了与 Question 的匹配信息;

  为了充分利用 BERT 带来的上下文信息,以及 P 与 Q 匹配后的信息,将 P 中每个 Token 的 BERT 编码 Hp 与 P 中每个 Token 与 Q 匹配后的编码 Mp 进行融合,对 Hp 和 Mp 进行了元素减法及乘法操作,通过一个激活函数,得到了 P 与 Q 的最终融合表示,图中表示为 Spq;最后通过 maxpooling 操作得到 Cpq l 维向量用于最后的 loss 计算。

  2. 各种匹配策略研究

  除了 P 与 A 之间的匹配,还可以有 Q 与 A、P 与 Q 之间的匹配,以及不同匹配得到的匹配向量间的组合,这些不同的匹配与组合构成了不同的匹配策略。对七种不同的匹配策略分别进行试验,以找到更加合适的匹配策略,分别是:[P_Q; P_A; Q_A], [P_Q; P_A], [P_Q; Q_A], [P_A; Q_A], [PQ_A], [P_QA], [PA_Q]「PA」表示先将 P 和 A 连接为一个序列,再参与匹配,「PQ」与「QA」同理。符号「[ ; ]」表示将多种匹配的结果组合在一起。[P_Q; P_A; Q_A] 模式下的模型架构如下图:

  7 种不同策略通过试验,采用 PQ_A 的匹配策略,即先将 P 与 Q 连接,然后与 A 匹配,无论是在初中题目 (RACE-M)、高中题目 (RACE-H) 还是整体 (RACE),该策略都得到了更优的结果。

  在多选题MRC任务中,机器会给出一篇文章,一个问题和一组候选答案。 目的是从候选答案中选出正确答案。对于每个候选答案,模型构造了一个 问题感知的段落表示(question-aware passage representation) ,answer-aware passage representation question-aware answer representation(原文中是不是写错了). 在一个 max-pooling 层之后,这三个表示被连接起来作为候选答案的最终表示。然后使用所有候选答案的表示形式进行答案选择。

  2.1 介绍 the encoding mechanism

  2.2 介绍 the calculation procedure of the matching representation between the passage, the question and the candidate answer

  2.3 介绍 the aggregation method and the objective function.

  2.1 Encoding layer

  该层将文章和问题中的每个标记编码为一个固定长度的向量,包括 word embedding 和 contextualized embedding.使用bert的最终的隐藏状态作为 模型的最终embedding。 【说明】--在原创

的bert论文中,处理多选择问题的过程中是使用 与第一个输入令牌【cls】对应的最终隐藏状态作为文章、问题、候选答案的聚合表示,作者认为这种方法过于简单和粗糙。所以作者将文章、问题、候选答案分别编码为:

  2. Matching layer

  为了充分挖掘{P,Q,a}三元组中的信息,作者充分利用了注意力机制,得到了 文章和答案之间的双向聚合表示,同理也使用这种方法得到了 问题和文章之间的 双向聚合表示。 文章与答案之间的注意向量计算如下:

  2.3 Aggregation layer

  为了得到每个候选答案的最终表示,Sp和Sa在行方向上的max-pooling操作。

  3. 实验

  评估结果在RACE数据集上面,其中收录

两个子集,RACE-H来自高中考试,RACE-M来自初中考试。 RACE是两者的结合。将自己的模型和其他模型比较,也和Bert_base 和 bert_large 进行比较。 bert的base使用的就是原文中的使用最后一层的第一个token【cls】作为聚合表示。结果就是 bert_base 以及 bert_large都是好于之前的最好模型,而我们的模型又是好于这两者的。

  4.总结

  提出DCMN,双向建模 passage、question、候选answer之间的关系。通过结合bert,模型在race数据集上面有一个很高的结果。

  【注意】--我觉得本篇文章值得学习的点就是 做了一个匹配的多次尝试,至于中间的计算公式有必要去看一下他文章中提到的那篇文章证明的那个公式计算匹配的得到的效果会比较好。

  二.OCN

  OCN---选择比较网络

  多项选择题阅读理解(MCRC)是在给定文章和问题的多个选项中选择正确答案的任务。 现有的MCRC模型要么独立读取每个选项,要么在比较每个选项之前计算每个选项的固定长度表示。 然而,在详细阅读文本之前,人们常常会在多粒度级别(multiple-granularity)比较候选项,以提高推理的效率。 模拟人类,我们提出了一个选项比较网络(OCN)---MCRC,在词级别(word-level)比较候选项以至于更好的识别他们之间的相关性从而帮助进行推理。特别的,每个选项都使用一个略读器(skimmer)编码成一个向量序列,以尽可能的保持细粒度信息(fine-grained information).使用注意力机制来进行向量序列之间的逐个比较(sequences vector-by-vector),来识别他们之间的微妙关系,这对于推理而言可能是有价值的,。

  【效果】结果明显优于现在的模型,也是第一个超越亚马逊 Turker的模型。

  Intorduction

  MCRC的目的是从一组给定问题和文章的选项中选择正确答案。 作为MCRC既需要对于自然语言的理解,也需要对世界知识的理解,才能将正确答案和感染选项区分开来。 这对于机器来说是一个挑战,也是人工智能的一个良好测试平台。

  随着深度学习的快速发展,近年来针对MCRC提出了很多模型,取得很好的效果。在阅读理解之前比较选项是人类在解决MCRC问题时常用的策略。 通过对于选项之间的比较,可以识别出选项之间的相关性,人们在阅读文章时候只需要注意与相关性相关的信息。 因此,问题可以得到更有效的回答。通过比较选项B和D,人们可能会发现,问题答案的关键区别在于:作者是否愿意参观工厂,这可以通过浏览文章很容易的解决。然而,大多数现有的MCRC方法并没有采用该策略。 Stanford AR(2016)and GA Reader(2017)编码独立于选项的问题和文章,忽略了他们之间的相关性。 2018和2019--MCMN使用复杂的匹配机制来采集

信息,2018还有一个利用预先训练好的语言模型来提出信息。然而,他们都没有明确的考虑选项之间的相关性。 据我们所知,2018--Hierarchical attention flow for multiple-choice reading comprehension.是唯一明确考虑选项之间的相关性的研究。 然而,在进行比较之前,这些选项被压缩成固定长度的向量,这可能使得模型很难识别选项之间的细微差别或者相似性。

  为了更有效的采集

选项相关信息,我们提出了一种选项比较网络(OCN),他可以在单次级别显式的比较选项,从而模拟上述人工策略。

  【特别的】我们首先使用略读器网络(skimmer network将选项独立的编码成向量序列作为他们的特征----就是不混合上下文,希望得到他们之间原创

的细微差别》

  【然后】对于每个选项在向量空间中使用基于attention机制,在单词级别逐个的与其他选项进行比较,来确定他们之间的相关性。

  【最后】将采集

到的相关信息进行重读做推理(reread to reasoning)然后选择正确的答案。 通过选项在单词级别的比较,我们可以使得模型更容易的检测选项之间的细微差别。使用基于Bert的略读器,我们的方法在RACE数据集上面超过现sota.

  2. OCN---Option Comparison Network

  符号定义:

  Q:question P: passage O:选项1.2.3

  任务:给定Q--P,选出 O----

  模型分四个阶段从候选答案集中选择正确的答案。

  2.1 首先将每个(article,question,option)三元组连接成一个序列,并使用一个略读器将他们编码成向量序列。

  2.2 使用attention机制去比较选项

  2.3 使用上一个阶段采集

的相关信息,作为额外输入重新阅读。

  2.4 最后计算每个选项正确答案的概率。

  2.1 Option Feature Extraction

  一个略读器网络用于独立略读 选项、问题、文章以提取选项的特征。

  Bert已经被证明是一个功能强大的特征提取器。特别的,选项O_k和问题Q和文章P连接在一起,定义为:

  。然后这个序列反馈给Bert计算他们的向量空间编码

  定义为------------------

  2.2 Option Correlation Features Extraction

  这个模块用于word级别比较选项,提取选项相关信息用作推理。 对于每个选项,使用attention机制去对比它和所有其他的选项

  来采集

相关信息。

  公式-------

  选项相关特征的提取分为以下三个步骤:

  首先,将一个选项与所有其他三个选项逐一进行比较,以采集

成对的相关信息。 特别的,对于选项 O_k,信息-----收取通过如下方式:

  ------------

  然后将为每个选项采集

的两两相关信息进行融合,得到选项之间的相关信息,可以被定义为:

  ----------

  最后,通过元素 gating机制将 选项特征与选项关联信息进行融合, 生成选项关联特征。 门控机制定义:——————————

  2.3文章阅读

  模仿人类,本文将以 选项相关特性作为 额外输入重新阅读,已获得更深入的理解。 特别的采用: co-attention(2017)和self-attention机制进行重读。

  首先,对于每个选项 O_k,co-attention 定义为:

  最终的整个选项表示的计算公式:

  ————————————————

  2.4 Answer Prediction

  2.4.1 计算选项O_k,作为正确答案的得分:

  最终的概率:

  损失函数:

  3. 实验

  3.1 Dataset

  RACE数据集,RACE-M,初中*敏*感*词*RACE-H,高中*敏*感*词*由于文章、问题、选项是由英语教师生成的,用于评估人类的阅读理解能力,所以数据集比SQuAD本质上来说更加困难。数据集中有59.2的问题需要推理,这明显高于SQuAD。最常用的推理技能是 ------ 细节推理、whole-picture understanding,passage summarization、态度分析和世界知识。 因此,对于模型来说,RACE是非常具有挑战性的MCRC的数据集。

  3.2 Training Details

  optimizer: Adam

  Bert_Base

  epochs:3

  batch_size:12

  lr:3*10**-5

  Bert_Large

  5

  24

  1.5

  L2--II---0.01

  文章:400

  问题:30

  选项:16

  

" />

  3.3 实验结果

  -------我觉得并不怎么work,完全就是 bert在起作用。

  好吧,RACE数据集上面有很多需要推理的技能,但是所谓的这些很多之处都还是通过匹配或者更精细,变着花样的匹配来实现的,作者在文章中说道相信自己的模型学到了推理,还diss人家mcmn模型使用了复杂的匹配过程,再看看自己的计算过程比那个复杂多了,而且通过消融实验我也没有看见作者所谓的 考虑问题之间的联系帮助最后选择正确的答案。

  首先,我觉得作者的思路是正确的,因为说实话----如果我们可以立马判断出来两个答案之间的关系,比如同意,反义或者收录

的关系,其实对于最后的选择答案就会容易很多,最起码对于人而言是这样的,但是这个工作我觉得并不work的主要原因有以下:

  1.作者想希望这种方式快速、并且高效(正确率高)的方式来做阅读理解,可能是作者设计的函数或者计算选项之间关系没有设计好,这本质上和直接拿 问题和答案与 文章进行计算相似度求答案没有区别,无非就是本文加了一个选项之间的关系,那又怎么样呢,希望通过这个关系告诉机器哪些情况下是对的?最起码的日常经验---如果两个答案是反义的那么他们之间有一个正确的概率比较大这一点都没有实现吧。 如果真的要计算这一点是不是最后选择答案的时候给他们两个匹配最后的分数的权重是不是高一些,但是这首先需要标注预料来指导进行,其实我觉得可以试试通过无监督的方法或者迁移学习的方法来做这一步,相当于一个额外的知识参与到最后的决策。 其实类比自己做阅读理解好像就是这样,会一定程度考虑答案之间的关系,排除法之类的也都会使用。

  2.可以很明显看见确实---RACE数据集其中是收录

很多需要推理的地方,这很容易向我们怀念曾经做过的*敏*感*词*阅读理解。 什么是推理呢?这是一个值得思考的问题,可能匹配是推理构成中的很大一部分吧。 对比人类的推理,计算机的优势在于一方面可以认为他掌握所有的词汇这个是人类做不到的,说实话当年我要所有的单词都认识,现在------另一方面,是计算机超强的匹配能力,不仅仅指的是他可以将同义词,反义词等都可以识别出来(虽然我觉得bert也不可以,分布式假设的通病)还有一点是计算机的记忆能力可以记住所有的匹配到相关的问题知识,所以现在检索式阅读理解我个人认为的重点是 怎样将计算机的这两个优点极大的利用。 而人类不同于机器的优点在于:可以结合常识做出推理,这种推理是高级别的,常识可能不仅仅包括日常知识,还有之前的经验等。人类可以很自然的机型推理,但是对于神经网络而言推理是一件很困难的事情,有专门的数据集和任务去做这些事情,如果可以通过无监督或者其他方法可以把这些外部的对于做阅读理解而言很重要的事情添加进来,我觉得最后的实验效果会好很多。

  Hierachical Attention Flow:

  暂时还没有找到关于本篇文章的笔记,后面等看见就更新吧,写了自己的笔记之后再看看

  别人的笔记真的会神清气爽。-----

  Abstract

  【贡献】--对于多项选择题QA,【1】提出了层次注意流机制,以充分利用选项 候选选项、问题、和文章之间的交互(Interaction). 作者注意到,利用候选选项来促进文章中搜集证据在MRC任务中起着至关重要的作用。但是在以前的工作中被忽略了。 此外,【2】我们还显式的建立了选项和注意力机制的关联模型,以获取更好的选项表示形式,并将其进一步送入双线性层中以获取每个选项的排名分数。在RACE数据集上面取得了很好的效果。

  Introdunction

  在本文中,我们研究了多项选择题阅读理解,每个问题都有四个选项,其中只有一个是正确的。M-MRC的特点:不限制答案精确匹配给出的文章的范围,相反,候选选项是人工生成的句子,这些句子可能不会出现在文章中。 RACE 和 MCTest都是多项选择题的数据集。 2016--使用Cnn构建具有注意力机制的不同层次的表示。 2016--提出使用分层结构从多个平行的角度进行匹配(这个看起来真的挺有意思的),在MCTest数据集上面使用一种训练技术。等等 其他工作-----具体来说,模型只利用问题采集

和总结文章证据,然后进行证据和候选选项之间的匹配。

  受到2016年那两篇文章的启发,我么提出了基于神经网络的分层注意流,充分利用候选选项来建立文章、问题、候选选项之间的单次级和句子级的交互。 【结构】---注意流按照以下层顺序组织。 首先,使用BiRNN分别对文章中的句子、问题候选答案进行编码。 然后单词级别注意层构建 问题感知(question-aware)文章和感知候选项的表示。【接下来】句子上下文编码器使用BiRNN对 文章句子进行上下文建模。(就是是文章变为收录

问题信息的上下文编码)。 【然后】---句子级别的注意力层采集

文章中与 问题和候选项相关的证据,【2】并且为更好的选项表示建立选项关联模型。 【最后】---线性层计算每个选项的排名分数。

  主要介绍三方面的主要贡献:

  1. 首先,我们建议使用候选选项从文章中采集

证据。 2017---中只是使用问题在文章中搜集证据。 而在多项选择题阅读理解中,问题有时候信息不够丰富,不够清晰,不足以指导采集

证据。 特别是对于那些有空格或者关于一般目的的问题,仅仅凭问题采集

部分的证据就可能导致模型做出错误的预测。 候选选项可以提供额外的信息来澄清问题的意图。 因此我们是用问题感知选项表示来增强模型中的问题采集

。 这样,模型除了 利用问题信息之外,还利用候选选项信息来采集

更充分的证据来区分选项和干扰答案。

  2.为了进一步挖掘候选选项,我们利用之前工作中忽略的【选项相关性】作为原创

独立选项表示的附加信息。 以前的工作中关于多项选择题每个选项独立得分。 我们比较各个选项建模他们之间的相关性。 关联被编码成一个具有句子层级注意的向量表示,然后连接到独立的选项表示。 (上面的几篇文章也考虑到了这一点,不过做法或者使用的阶段不一样,说白了这里的方法就是 还是问题--文章之间建立感知,然后问题-候选项之间建立感知,然后对于问题-文章的感知再进行一遍RNN,得到最终的O2P,然后和之前的Q2O进行匹配感知,只是另外的将 Q-O对于各个选项再进行一次相关性计算,然后使用这个约束参与最终的答案选择---和前面提到的方法真的基本没什么区别----)。 因此,我们提出的模型在考虑其他选项的情况下对于每个选项进行评分。

  3.在RACE数据集上进行测试,效果达到了最好。

  Model

  按照之前的模型图中自左至右,从下往上的顺序进行介绍模型的各个模块。

  Word Context Encoder

  Attention Flow

  模型中,采用两个组件之间的交互来强调和组织相关的关系。 每一次交互都使用同样的注意力机制。

  Attention Mechanism

  Question-to-Passage (Q2P)Word-level Atteention

  句子中的单词并不是同等重要的,其中的意义可能会随着问题的变化变化。 为了得到文章句子的向量表示,我们将问句question中的每个单词向量表示应用到文章中的第i个句子中的每个单词。 我们使用Quetion BiGRU的每一步的输出而不是上一步的输出(2017)。 然后就得到了 文章中句子级别的每个句子的 问题感知表示(Question-aware)

  Question-to-Option (Q2O)Word-level Attention

  2017--等人使用GRU的最后一个隐藏状态作为候选、生成问题的自由向量表示。 而选项的意思和问题结合起来更容易理解。 因此,我们结合问题信息 将选项的单词表示形式组合成一个固定大小的向量,并在单次级别使用注意力机制。同样得到第i个候选项问题感知的形式(Question-aware)

  Sentence Context Encoder

  Sentence Context Encoder

  文章中句子的顺序很重要,就像句子中单词的顺序一样。 但我们并行处理文章中的句子,生成上下文无关的句子表示形式ViP. 为了对句子上下文进行编码,类似于单词上下文建模,我们在ViP上面 应用了另一个GRU。 句子的上下文编码到:

  Option-to-Passage (O2P) Sentence-level Attention 在阅读理解任务中,文章一般收录

大量的事件、地点等信息。 当一个文章涉及某一方面时,文章中不相关的部分可能是冗余和噪声。 为了避免冗余信息的负面影响,2017--等奖整篇文章总结为一个单一的向量作为 证据,并对文章中注意事项提出质疑。 这是一种流行的cloze-style阅读理解模型。

  在我们的模型中,利用问题感知的候选选项表示Q2O得到的结果,利用【句子层次上的注意力机制】,提高了从段落句子中采集

证据的能力。 在注意力计算过程中,每个候选选项对于其对应的句子赋予更高的权重(这样我觉得不行,注意力的计算仅仅可能是单词级别的关联比较机制,可能没有理解文章中句子的语义等信息,这样到最后的计算就成了问题-候选项 和 文章中句子注意力机制的得分的比较,这样是不是很容易将原文中和问题中出现比较相似或者原文重复的句子作为最终的答案,而问题在这个部分中起到的作用将会被削弱很多),然后,我们对于每个段落句子分配的权重进行平均得到最终的 文章中每个句子对于问题-候选句子的权重。 不同于以往的工作,我们隐式的纳入了问题信息,这是由Q2Oword-level attention编码带来的效果。。 最后,候选选项连同问题,将证据总结为一个固定大小的向量:

  Option Correlations

  候选选项的表示由Q2O word attention 得到,他是对于问题感知的。 但是这种 表示独立于其他选项,并且不会对选项之间的比较信息进行编码。 为了建立 选项之间的相关性,我们将候选选项和注意力机制进行了比较。 在将选项与自身进行比较的情况下,我们将注意力权重矩阵的对角线设置为0(去除自己的权重)。 Si,j表示第j个选项和第i个选项的相关性得分,不需要像以前那样进行合并操作。 灵感来自于chen2017-----需要看一下这篇文章。 我们建模选项之间的相关性通过求差的方式,然后连接到 独立选项表示增强。

  Answer Prediction

  和2017--一样使用双线性函数和正确概率Pi计算归纳证据,,,,得到最后的匹配得分。

  训练:最小化-log概率。

  Experiments

  Dataset

  RACE共收录

27,933篇文章和97,687个问题,其中5%为开发集,5%为测试集。

  数据集划分

  文章、句子、候选的平均长度和句子数量

  Implementation Details

  RACE放在一起训练测试。分词--

  训练细节----

  Ablation Study

  去掉 --Sentence

  验证段落句子归纳对于上下文编码的影响---

  2. 去掉 O2P Attention:

  像2017--那样使用问题去代替问题-选项去搜索证据。 证明了问题-选项结合在一起的重要性。

  3.去掉 Option Corrections

  验证选项之间的关联性学习确实是有效果的。

  Discussion

  Evidence Gathering and Option Correlations

  为了研究 候选选项如何从文章中采集

证据,我们可视化了 O2P注意中的注意权重矩阵。

  较深的颜色代表较高的权重。 注意权重矩阵表明,与每个选项相关的证据在passage中分散分布。

  段落句子的集中注意力权重尽可能多的总结必要的信息。 但是问题是可能会遗漏关键的证据,特别是对于不收录

明显指示性词语或者短语的问题,就像上面图中的第二个问题一样。 只有与候选选项结合,模型才能得到 提示,来采集

证据,从而强调句子的重点“state, money, recycling, landfill, disposal, raw material”。

  选项关系相关性在某些情况下也很有用。 在上面的图中第一个问题为例子。 没有相关性的模型选择了得分高于C的错误选项A。 通过引入 选项之间的相关性,模型选择了 得分极高的正确选项C,得分为:0.987。

  Top-N Accuracy

  为了进一步调查我们的模型总体精度之外,我们还统计分析--排名得分--的发展。由于每个问题的答案对应于只有一个正确答案,我们取 正确答案的的前N个排名,并相应的计算准确性(Acc@)。 acc@2:70.2 acc@3 :87.2。 对于随机猜测期望的领先从另一个角度说明了我们提出模型的有效性,并揭示了通过ranking可以进行潜在改进。

  Difficulty Gap between RACE-M and RACE-H

  RACE-M:中学RACE-H:高中

  两者的差异主要体现在 文章长度、问题和候选的长度M都较短,M词汇量小于H。

  词汇差不多都是收录

词汇表。 以上这些影响了最后的结果的不同。

  Related Work

  Large-scale Datasets

  *敏*感*词*数据集促进了阅读理解研究的重大进展。根据答案是否限制在引用段落的精确匹配范围内,我们可以将现有数据集分为两类.

  CNN/Daily Mail (Hermann et al. 2015), Childrens Book Test (CBT) (Hill et al. 2016) and Who Did What (WDW)(Onishi et al. 2016) 是自动生成的 clozestyle *敏*感*词*数据集,答案通常是文章中的一个词(通常是一个命名实体)。

  SQuAD(Rajpurkar et al. 2016)------答案是span

  RACE(Lai et al. 2017) and MS MARCO (Nguyen et al. 2016)---------答案肯能不会出现在原文中。这与人类的阅读理解最接近。 此外RACE是一个多选题数据集,答案是四个选项中的一个。

  Multiple-choice Reading Comprehension

  多选题是语言考试中常见的题目。 MCTest多选---难度仅限于7岁儿童。

  RACE数据集: 与MCTest数据集格式差不多,但是难度更高,28000文章,100000问题组成,转为12--18岁中国孩子设计的*敏*感*词*。

  Hierarchical Structure

  阅读理解模型中,把文章处理成为一个长序列是一种常用的方法,只有少数模型中收录

了文章结构。 2016(Schutze)---构建并结合了句子级别和相邻句子级别的模型。但是时间关系没有在任何层次上进行建模。 2016(Trischler)---等人采用层次结构来建模比较 段落--问题--候选,并使用基于位置的权重对于顺序信息进行建模。 2017(zhang)--结合句法信息来探索更好的理解和适应,但是仅仅局限于 问题。 2017(xie and xing)---利用句法信息对问句和文章进行编码,然后他们使用RNN在句子表示得到 基础 上对于文章进行编码。 我们将文章的层次结构引入到交互模型中,并在单次级别和句子级别使用RNN对于时态上下文进行建模。

  Attention Mechanisms in Reading Comprehension Models

  注意力机制在之前很多模型中都用到了。 主要被用来 【模拟交互和预测答案】。

  2015-2016使用单个问题向量来总结文章,不是使用单个向量来表示问题。

  2016-2017 利用问题中的每一个单词和文章进行交互。

  2017--问题中的单词在对文章进行RNN的时候每一个步骤时间点都进行 与 文章中的单词进对齐。

  2017(Socher)--问题和文章之间的注意力是双向计算的。

  不管问题和文章之间的注意力,2017--提出了自我匹配机制来匹配段落本身。

  2017(Dhingra)--提出门控--注意力机制 通过多跳(mutil-hop)来选择单个问题的相关段落。

  2016(Sordoni)--交替计算短文和问题之间的注意力。

  2017(Shen)--进一步使用强化学习动态确定迭代步骤。

  当涉及到答案的预测的时候,受到2015(Vin)--2016(Kadlec)等的启发 直接以注意力作为指针,预测填空式阅读理解的答案。

  2016(Sorddon)--2017(Cui)--2017(Dhingra)随后在答案预测层中采用了相同的方法。

  2017(Wang)等利用注意力机制来产生 答案相关的span的边界。 这对于 SQuA数据集来说是一个有效和主流的模型配置(设置)。

  2017(Socher)提出了动态指针*敏*感*词*(Dynamic pointing decoder),使用迭代的方法生成answer的边界。

  2017(Lai)等利用双线性函数在RACE数据集上面计算每个选项的匹配得分。

  Conclusion and Future Work

  本文提出了选择题阅读理解的分层注意流。文章、问题和候选选项通过不同层次的注意力相互作用。

  为了充分利用候选选项,我们将选项合并到一起,用来增强证据采集

和增强具有相关性的选项表示,这在以前的工作中没有做过【---】。

  结果还可以--

  最后作者认为:句法和篇章关系可以作为附加结构作为补充信息。

  在未来的工作中,作者希望通过结合 句法信息或者话语关系来进一步探索篇章结构来获取更好的表达。

  【说实话自己觉得这篇文章】比之前的两篇文章更有价值更有意义,不管是文章的编辑还是文章关于RACE数据集的做法。

  【Improving Question Answering with External Knowledge】---------

  Abstract

  先验背景知识是人类阅读和理解的基础。 作者本文中,研究如何使用外部知识来提高问题的回答(QA)。主要关注多项选择题,这需要外部知识来回答。 研究了利用【外部域内】(external in-domain)选择题回答的数据集,并且利用【外部域外语料库】丰富参考语料库。实验结果表明,在ARC和OpenBookQA这两个具有挑战性的选择题答题任务上,外部知识是有效的。

  1. Introduction

  外部知识在人类阅读和理解中起着至关重要的作用,因为作者假定读者从文本之外的来源获得了一定数量的背景知识--2013;

  越来越多的研究集中在 多选MRC的模型构建--2016-2019;或者问答的任务--2018;

  对于MRC任务而言,大多数问题依然是根据所提供的参考文献内容设计的可回答的。 本文中,我们主要关注多项选择题QA任务:

  只提供一个参考语料库,我们需要使用不同类型的知识去选择正确的候选选项--2018.

  如何利用外部知识来进行多项选择题的回答,以填补人与机器之间的知识鸿沟,仍然是一个有待解决的问题。

  近期的研究(2017-2018)都是通过先 预训练深度神经模型在*敏*感*词*的语料库上面使用语言模型预训练LSTMs,Transforms.

  通过在下游任务上对这些预先训练的模型进行微调,我们已经看到在广泛的自然语言处理任务上取得了显著的改进;

  然而,在预训练阶段引入外部知识相对耗时、资源广泛性较强。

  本文旨在利用外部知识,在微调(fine-tuning)阶段提高多项选择题的正确率。我们研究了两方面的影响:

  1)利用外部域内(in-domain)Q-A数据集增强训练数据。

  2)基于问题和答案选项的实体发现和链接,从外部开放域(open-domain)中检索额外的知识,来丰富参考语料库。

  我们使用了Bert作为基本QA模型在从考试中采集

的两个具有挑战性的ARC和OpenBookQA数据集上做了初步的实验。实验结果表明,利用外部知识可以获得较好的实验效果。

  2.Method

  2.1 介绍作者使用的QA模型的baseline.

  2.2 --2.3 介绍使用两种方法引入 外部域内 和 开放域的知识。

  2.1 Basic Framework

  首先微调(fine-tuning)一个预训练语言模型在大型的多选MRC数据集RACE(Lai--2017)上面,然后对于目标 多选Q-A数据集上面对于结果模型进行微调(fine-tunning).在本文中使用bert作为预训练语言模型。

  给定问题q、答案选项o和参考文档d,我们用特殊的标记@和#将它们连接起来,作为输入序列BERT_large by @d#q#o#,其中@和#分别代表BERT中的[CLS]和[SEP]。我们在q (exclusive)之前将A嵌入到每个token中,并将B嵌入到其他token中。对于ARC和OpenBookQA中的实例,d来自Lucene (McCandless et al., 2010)从其对应的参考语料库中检索到的前50个句子的串联,以q和o中的不间断单词作为查询(Sun et al.,2018)。 每个问题的最终预测由一个线性加softmax层在每个输入序列的【第一个token的最终隐藏状态的输出】上得到。我们向读者推荐Devlin et al。Sun等人了解更多细节

  2.2 Utilization of In-Domain Data

  我们的基本框架包括两个阶段:在大型开放域机器阅读理解数据集(比如RACE)微调(fine-tuning)一个预训练的语言模型,然后在目标问题回答Q-A数据集上微调产生的神经阅读器(Reader),对于后一个步骤,我们没有对单个目标数据集上的神经阅读器进行微调(Sun et al., 2018),而是同时对多个目标数据集上的神经阅读器进行微调.

  【概述】先拿一个预训练的语言模型出来,然后在其他大型的域内的数据集上进行微调,然后再在目标数据集和域内数据集上面一起进行微调。

  

" />

  2.3 Utilization of Open-Domain Data

  我们使用实体发现和链接(EDL)来帮助我们丰富参考文档。

  【Entity discovery】: 实体发现任务 就是从实体提及(mention)中提取实体的任务。大多数实体发现系统 使用的都是 预先定义好的类(person,位置等). 然而,在ARC和OpenbookQA中,绝大多数实体都来自于丰富的领域(e.g., “skin surface”,“oil”, “magnet”, and “iron”)。由于目前科学领域还没有一个强有力的系统,我们只是把所有的名词短语都看作是一个实体。

  【Entity Linking】:实体链接任务可分为两个子任务:【候选生成】和【实体消歧】。给定一组提取的实体提及M = {m1, m2,…,}我们首先对于每一个实体提及m生成一个候选实体的初始列表Em = {e1, e2,…, en},然后对每个实体进行排序,选择得分最高的候选实体作为合适的链接实体。

  采用基于字典的候选生成方法(Medelyan和Legg, 2008):

  其中m是一组锚点链接,其中m是相同的锚点文本,而Am_e是其中的子集;

  然后,根据三个指标对每个初始候选实体列表进行重新排序:【显著性、相似性和一致性------salience, similarity, and coherence 】(Pan et al., 2015)。

  【显著性】是通过使用Wikipedia锚链接计算的:

  其中A*e是一组指向实体e的锚点链接,A**其中的所有锚点链接的集合在维基百科中。

  【相似性】是指 mention-entity pair之间的上下文相似性。 我们采用了 一种神经网络模型,该模型可以从 Wikipedia中联合学习单词和实体(word and entity)的embedding。 对于每一个提及到的实体m,作者使用上下文中的每个单词(出去自己和停用词)的向量表示来构建它的上下文向量Vt的向量表示。使用Cos来计算实体提及和候选实体之间的相似性。

  【一致性】一致性是由这样一种假设驱动的:如果多个实体提及同时出现在一个句子中,那么它们的引用实体在知识库中更有可能是一致的。

  跟随黄(2017),构造加权无向图G = (E, D) 从KB中,其中E是KB中所有实体的集合,dij∈D表示两个实体ei和ej共享一些KB属性。

  dij, wij :

  其中pi、pj分别为ei和ej的KB属性集合。在构建知识图之后,我们利用Tang等人(2015)提出的图嵌入框架,为KB中的所有实体生成知识表示.两个实体之间的一致性coh(ei, ej)是利用这两个实体的向量表示之间的余弦相似性来建模的。

  给定一个实体提及m及其候选实体e,一致性得分定义为:

  其中Cm是对实体提及m的实体联合。

  最后,我们结合这些度量来计算每个实体候选e的最终得分。

  我们将上述EDL系统应用于所有【问题和候选答案】的文本中。对于每个已发现和链接的实体,其Wikipedia摘要将被提取并附加到每个(问题,答案选项)对的相应参考文档中。

  3 Experiments

  3.1 Datasets

  在我们的实验中,我们使用RACE (Lai等--2017),这是目前最大的多项选择MRC数据集,作为迁移学习的源任务。我们对我们的方法的性能进行了评估在ARC (Clark-2016, 2018)和OpenbookQA (Mihaylov2-018)数据集上面。。所有这些任务都是从人类专家为了QA精心设计的考试中采集

而来的,其中收录

大量需要外部知识才可以回答的问题。但是 人类和机器之间还是存在着巨大的性能差异。 下图展示了这些数据集的统计数据:

  3.2 Experimental Settings

  使用 预训练的 BERT_largr。

  batch_size: 24

  lr: 2e-5

  maxlen = 512.

  RACE --fine:5 epochs---------other 数据集 8 epochs

  下图展示了 RACE数据集中的BERT baseline

  3.3 Experimental Results

  由下图看出,在应用EDL以丰富每个问题的参考文档之后,所有任务的准确性都得到了提高。 文章中举了‘磁铁’的例子,说明有的答案只有通过wikipidia之后才会回答起来容易很多。

  在初步实验的基础上,通过微调发现很多多选MRC数据集的性能都有了提升。

  4 Related Work

  4.1 Question Answering

  近年来有很多数据集和模型推动了QA的发展。

  在数据集方面,作者的工作主要集中在 教育专家设计的 多选择题考试数据集(2017-lai,Clark2018,2018...2019....).,因此这些数据集都是 干净的、无错误的、具有挑战性的。

  在模型方面,作者遵循了 针对 Q-A任务 有区别的微调 预训练语言模型的一般框架。

  4.2 Utilization of External Knowledge

  以前的工作探索了 许多利用外部知识的方法。 wang-2018,Sun-2019利用常识的概念图(Speer-2017).

  Chen提出使用维基百科回答开放域Q-A的方法。

  Ni等人研究了使用 重要基本术语 改进信息检索。

  【作为对比--作者】提出了 通过利用 外部 域内 和外部开放域的知识,尤其是第一个工作中的使用EDL的方法,,来提升多项选择QA.

  5 Conclusion

  在本研究中,我们研究了利用域内的外部问题回答数据集和利用域外外部语料库来丰富参考语料库,从而改进问题回答。在ARC和OpenBookQA数据集上的初步实验结果证明了我们提出的方法的有效性

  Improving Machine Reading Comprehension with General Reading Strategies

  Abstract

  阅读策略已被证明可以提高理解水平,特别是对于缺乏足够的先验知识的读者。 正如人类读者的知识积累过程是一个耗时的过程一样,通过预培训将丰富的一般领域知识传授给一个深层的语言模型也是一个资源需求的过程。受认知科学中确定的阅读策略的启发,在有限的计算资源(只有一个预先训练的模型和固定数量的训练实例)下,我们提出了三个旨在提高非抽取式机器阅读理解(MRC)的一般策略:

  1) 反复阅读,认为原创

和倒序输入序列(BACK AND FORTH READING)

  2)高亮显示,这增加了可训练的嵌入的文本嵌入标记相关的问题和候选答案(HIGHLIGHTING)

  3)直接从文本以一种无监督的方式,自我评估产生实践问题和候选答(SELFASSESSMENT)

  使用作者提出的策略通过微调pre-trained语言模型(雷德福et al ., 2018),在大型多选MRMC的数据集RACE上面,比不使用作者提出的阅读策略微调预训练的模型ACC提升 5.8;

  我们进一步对目标MRC任务上的结果模型进行微调,从而得到了在不同领域绝对的改进在6个6个非抽取式的MRC数据集(即, ARC, OpenBookQA, MCTest,SemEval-2018 Task 11, ROCStories,和MultiRC)。这些结果证明了我们提出的策略的有效性和通用性。

  1 Introduction

  本文主要研究非萃取性MRC (Khashabi et al., 2018;Ostermann等,2018)其中,很大比例的候选答案不受参考文档或语料库 文本跨度的限制。

  与提取MRC任务(第2.1节)相比,非提取任务MRC (Section 2.2)要求不同的阅读技能,因此,机器阅读者在这些任务上的表现更准确地反映了机器阅读者在现实环境(如考试)中的理解能力。最近,通过对预先训练好的通用语言模型进行微调,许多自然语言处理任务都取得了重大进展,包括MRC (Radford et al., 2018;Devlin等,2018)。 然而,与人类读者的知识积累过程类似,通过预训练将大量的外部语料库中的一般领域知识传授给一个深层的语言模型,既费时又费力。

  从实践的角度出发,给出了有限的训练实例和预训练模型,我们能否在微调过程中提高机器阅读理解能力,而不是通过昂贵的预培训将更多的先验知识传授给模型?灵感来自认知科学研究中确定的阅读策略,这些策略已被证明在提高人类读者的理解水平方面有效,特别是那些对文本主题缺乏足够先验知识的读者。

  基于现有的预训练transformer(3.1节),我们提出了三种相应的领域无关策略来改进MRC:

  1)来回阅读(“我在文本中来回查找思想之间的关系”):考虑输入序列的原创

顺序和倒序(第3.2节)。

  2)突出显示(“我在文本中突出显示信息,以帮助我记住它。”):在文本中添加可训练的嵌入,嵌入那些被认为与问题和候选答案相关的标记(第3.3节)。

  3)自我评估(“我问自己一些问题,我想在文本中回答这个问题,然后检查一下我对文本的猜测是对还是错。”)从现有参考文件中生成练习问题及其相关的基于span的候选答案(第3.4节).

  根据我们对语言考试中采集

到的最大通用域 多选--MRC数据集RACE (Lai等,2017)提出的策略,对一个预训练的transformer (Radford et al., 2018)进行微调,我们获得一个在不使用策略的情况下,相同的预训练变压器在种族上进行微调,其精度比以前的最佳结果提高了5:8%(第4.2节)。。 我们在目标上进一步微调得到的模型MRC的任务。实验表明,我们的方法在6个典型的非抽取MRC数据集上取得了最新的研究成果,这些数据集需要一系列的阅读技巧,如常识和多句推理(4.4)。这些结果表明了本文所提方法策略的有效性。我们的微调模型纳入了这些策略的通用性。

  2 Task Introduction

  我们将机器阅读理解任务大致分为两组: 根据预期答案类型抽取(第2.1节) 和 非抽取(第2.2节)

  2.1 Extractive MRC

  近年来,*敏*感*词*的提取MRC数据集已经建成,例如 SQuAD 和 NewsQA. |给定一个参考文档和一个问题,预期的答案与文档的跨度很短。相比之下,答案在SearchQA等数据集(邓恩et al ., 2017)和NarrativeQA (Kociskˇy et al。”,2018)是基于给定文档的自由形式的人类生成文本。然而,由于注释者倾向于直接将span复制为答案,所以大多数答案仍然是抽取的。

  2.2 Non-Extractive MRC

  在本节中,我们主要讨论multiplechoice MRC数据集,其中答案选项不受提取文本范围的限制。给定一个问题和一个参考文档/语料库,将提供多个答案选项,其中至少有一个选项是正确的。构建这样一个数据集需要大量的人力工作(如 MCTest (Richardson et al., 2013), SemEval-2018 Task 11 (Ostermann et al., 2018)、MultiRC (Khashabi et al., 2018)和OpenBookQA (Mihaylov et al., 2018)通过众包完成。除了众包,数据集如RACE (Lai等,2017)和ARC (Clark等,2018)采集

自教育专家设计的语言或科学考试(Penas et al.,2014;Shibuki等,2014;Tseng et al., 2016)来评估人类参与者的理解水平。

  与提取MRC任务中的问题相比,除了表面匹配外,复杂的问题还有很多,如数学单词问题、归纳问题、逻辑推理问题、情绪分析问题,,需要先进的阅读技巧以及先验的世界知识。

  此外,在大多数情况下,我们可以采用准确性等客观评价标准来评价系统性能(Clark et al., 2016;Lai等,2017)。 由于这类数据集的构建和采集

相对困难,现有的数据集大多规模较小,阻碍了最先进的深度神经模型的发展。

  为此,本文以7个具有代表性的多选题MRC数据集为例,探讨了如何利用有限的资源来改进MRC。如表1所示,大多数数据集中(ARC和MCTest除外)的大多数正确答案选项都是非抽取的。除了MultiRC,每个问题都有一个正确的答案选项。对于ARC和OpenBookQA,将提供一个参考语料库,而不是与每个问题关联的单个参考文档。

  这里我们给出了一个正式的任务定义。 给定参考文档d、问题q和相关的回答选项o;目标是选择正确的答案选项。 我们可以很容易地使我们的方法适应只提供参考语料库的MRC任务(第4.4节) 。

  3 Approach

  我们首先介绍了一个基于预训练transformer的神经阅读器(第3.1节),然后详细阐述了微调阶段使用的策略——来回阅读(第3.2节)、高亮显示(第3.3节)和自我评估(第3.4节)。

  3.1 Framework Overview

  我们的神经阅读器遵循有区别地微调生成预训练变压器(GPT)的框架(Radford et al., 2018)。 我们的神经阅读器遵循有区别地微调生成预训练变压器(GPT)的框架(Radford et al., 2018)。 采用预训练的多层变压器(Vaswani et al., 2017;Liu等,2018)标记数据集C的语言模型.每个实例由输入令牌 x1 的序列;例如:;xn组成.加上标签y,通过最大化 :

  L是语言模型的可能性,λ是语言模型的重量,然后呢P (yjx1;例如:;xn)是通过线性分类层对最后一层transformer的语言模型的激活得到的。MRC的任务,x1;例如:;xn来自开始令牌、引用文档、问题、分隔符令牌、回答选项和结束令牌的连接;y表示答案选项的正确性。更多详情请参考Radford等人(2018) .

  除了设置分隔符将答案选项与文档和问题分隔开之外,最初的框架很少关注MRC任务中特定于任务的结构。受阅读策略的启发,利用有限的资源和一个预先训练的转换器,我们提出了三种策略来提高机器阅读理解。我们在图1中显示了整个框架----

  3.2 Back and Forth Reading (BF)

  为简单起见,我们表示微调期间GPT的原创

输入序列(Radford et al.,)作为[dq $ o],其中[、$和]分别表示开始令牌、分隔符令牌和结束令牌。受来回阅读的启发,我们考虑了原创

顺序[dq $ o]和反向顺序[o $ qd],仍然保留d、q和o中的令牌顺序.我们分别对使用[dq $ o]和[o $ qd]作为输入序列的两个GPTs进行微调,然后对这两个模型进行集成。我们还在实验中考虑了其他类似的输入序列对,如[qd $ o]和[o $ dq](第4.3节)。

  3.3 Highlighting (HL)

  在最初的实现中(Radford等,2018年),在GPT微调阶段,文档的文本嵌入 独立于 相关的问答选项。 受人类阅读中使用的高亮显示的启发,我们的目标是使文档编码意识到相关的问答选项对(q, oi)。我们关注问题和答案选项中的实词,因为它们似乎提供了更多有用的信息(Mirza和Bernardi, 2013),我们通过词性标记(POS)来识别它们,其中之一是:名词、动词、形容词、副词、数字或外来词.

  形式上,我们设T为内容词的POS标签集合。我们让d表示文档d的文本嵌入顺序,用dj表示d中的第j个令牌,dj表示dj的文本嵌入。给定d和a (q, oi)对,我们为d中的第j个令牌定义一个高亮嵌入hj i

  根据上述定义,高亮嵌入的序列hi = h1 i;h2。当我们编码一个文档时,我们用di = d + hi替换d。更具体地说,我们使用b ,di, q, l oi,的串联在整合和,e 是GPT在为微调阶段新的输入(3.1节),b, l,和e独立表示嵌入的开始令牌,分隔符令牌,和结束标记,q和oi代表q和oi的文本嵌入的序列。

  3.4 Self-Assessment (SA)

  在之前的工作中(Radford et al., 2018),原创

的GPT是直接在MRC结束任务上进行微调的,而我们根据自我评估阅读策略开发了一种新的微调方法。特别地,我们提出了一个简单的方法来生成问题及其相关的多个基于span的答案选项,这些选项涵盖了参考文档中多个句子的内容。通过首先对这些实践实例上的预训练模型进行微调,我们的目标是使最终的fine-tuned模型更加可以感知(了解)输入结构,并在回答给定问题时可能需要的多个句子之间集成信息。

  具体来说,我们随机生成不超过nq的问题 和

  相关的回答选项 依托于给定任务的文档(document)。 步骤描述如下。

  Input: a reference document from the end task 最终任务相关的参考文档

  输出: 与参考文档关联 的 一个问题和四个回答选项。

  1. 从文档中随机选择不超过ns的句子,并将这些句子连接在一起。

  2. 从连接的句子中随机选择不超过nc非重叠跨度。 每个span在一个句子中随机收录

不超过nt标记。我们将选择的span连接起来,形成正确的答案选项。我们从连接的句子中删除选定的span,并使用剩余的文本作为问题。

  3.产生三个干扰物(如 ;错误的答案选项)使用文档中随机选择的span替换正确答案选项中的span。

  其中,nq、ns、nc和nt用于控制问题的数量和难度级别。

  4 Experiment

  4.1 Experiment Settings

  对于大多数超参数,我们遵循Radford等人(2018)的工作。我们使用相同的预处理程序和释放的预训练变压器。 我们根据RACE的训练和开发集合中的参考文档生成119k个实例(Lai等人,其中nq = 10, ns = 3, nc = 4, nt = 4(3.4节)。我们首先在这些 自动生成的实例上对原创

的预训练模型进行微调,使用1个训练历元(数据流1在图1中框起来) ,然后在 RACE数据集上面对于上述模型进行5个epoch的微调(fine-turning)(图1中框入数据流2)。我们在前面提到的六个out- domain MRC数据集上对结果模型进行微调(最多10个epoch)(图1中框起来的数据流3)当我们微调模型在不同的数据集,我们将批量大小设置为8,语言模型权重λ=2。我们通过平均线性层后的对数来集成模型。对于策略高亮(3.3节),the contentword POS tagset T = fNN, NNP, NNPS, NNS,VB, VBD, VBG, VBN, VBP, VBZ, JJ, JJR, JJS,RB, RBR, RBS, CD, FW},我们随机初始化+和-。

  4.2 Evaluation on RACE

  在表2中,我们首先报告了最先进模型(MMN和原创

finetuned GPT)和Amazon Turkers(人类性能)的准确性。 然后,我们报告我们实现的经过微调的GPT基线和我们的模型(GPT+策略)的性能。结果显示在RACE dataset (Lai et al., 2017)及其两个子任务上:从初中考试中采集

的RACE- m和从高中考试中采集

的RACE- h。

  我们的单一和综合模式优于以往的先进水平(即 GPT和GPT(9×)) 相差较大(63:8% vs. 59:0%;66:7%比60:6%)。这两种单模型策略——自我评估和突出显示——分别比单模型微调的GPT基线(58:7%)提高了1:7%和4:5%。 使用前后阅读策略,包括两个模型,与两个原创

的finetuned GPTs(59:6%)相比,准确率提高了3个点。策略组合进一步提升绩效。通过结合自我评估和高亮显示,我们的单一模型在经过微调的GPT基线(63:8% vs. 58:7%)上实现了5 %的准确性改进。 我们通过对两个这样的单一模型进行集成来应用所有的策略,这两个模型以原创

或相反的顺序读取输入序列,从而使与 两个原创

的微调GPTs集成相比,准确率提高了5:8% (65:4% vs. 59:6%)

  为了进一步分析性能,我们大致将问题类型分为五类: 细节(事实和细节)、 推理(推理能力)、主旨(文档的主要思想或目的)、 态度(作者对主题或文档语气/源的态度) 和 词汇(词汇 问题)(Qian and Schedl, 2004;Lai等人,2017),并注释了所有RACE开发集的实例(按照这5类对于问题进行了注释)。如图2所示,与经过调优的GPT基线相比,我们的单模型策略(SA和HL)在所有类别中持续改进结果。与其他策略相比,对大多数问题类型来说,突出显示可能会带来更大的收益。

  与人类性能相比,仍有相当大的改进空间,尤其是在RACE-M上。我们仔细查看RACE-M开发集中 所有实现都不能正确回答的实例。我们注意到,其中82.0%需要一种或多种类型的世界知识(如否定决议、常识、释义和数学/逻辑知识)(Sugawara et al., 2017b,a,2018年)),尤其是在参考文献中没有明确提到正确答案选项的情况下。 例如:For example, we need the knowledge —“the type of thing that is written by a writer canprobably be a book” — to answer the question “follow your heart is a ” from the context“ Follow

  your heart by Andrew Matthews, an Australian writer, tells us that making our dreams real is life’s biggest challenge”.此外,19:7%的错误case需要使用 共指消解。利用共指消解可以连接不相邻的相关句子可能是有希望解决这类问题的。

  4.3 Further Discussions on Strategies

  除了第三节中介绍的策略,我们也探索 摘要 等阅读策略(““I take an overall view of the text to see what it is about before carefully reading it.”)通过在每个参考文档前附加一个摘录摘要(Boudin et al., 2015)。实验结果表明,与我们所关注的策略相比,该策略对机器阅读理解的效果较差。在本节中,我们将进一步讨论这三种策略 :

  Back and Forth Reading:

  我们注意到,两个集成模型之间的输入顺序差异很可能产生性能收益。除了集成两个使用输入序列的模型外[dq $ o]和[o $ qd],我们还研究了其他反向或几乎反向对。例如,我们可以通过组合[qd $ o]和[o $ dq](61:0%)或[qd $ o]和[o $ qd]来获得更好的结果(61:7%),相比之下,原来的两个微调的GPTs(他们都使用[d $ qo])用于种族数据集(表2中59:6%) .

  Highlighting:

  我们尝试了两种变体来定义突出显示嵌入(3.3节中的公式2)---通过只考虑问题的内容或只考虑回答选项.实验表明,使用部分信息的准确率(分别为60:6%和61:0%)有所下降相比于 同时考虑 问题的内容和答案选项 63:2%(表2),

  我们还试图 突出内容词的共指提及(coreferential mentions),但是这并不能带来进一步的收益。

  Self-Assessment

  我们探索生成问题的其他方法。 例如,我们使用来自SQuAD的Wikipedia文章(Rajpurkar et al., 2016),而不是来自end task RACE的一般域文档。按照第3.4节中提到的相同步骤,我们生成的问题数量与使用RACE生成的问题数量相同。 实验表明,该方法还提高了微调GPT基线的精度(59:7% vs. 58:7%)。由于自我评价在某种程度上可以被看作是一种数据增强方法,我们研究了其他非监督问题生成方法,如 句子变换 和 反译释义 (Ding and Zhou, 2018;Yu等,2018)。我们的实验表明,这两种方法都不能提高RACE数据集的性能。

  4.4 Adaptation to Other Non-Extractive Machine Reading Comprehension Tasks

  我们遵循的理念是将知识从对源任务的*敏*感*词*监督数据进行预处理的高性能模型转移到只有少量训练数据的目标任务(Chung et al., 2018)。RACE用于为其他MRC任务预训练模型,因为它收录

了最多的一般领域非抽取问题(表1)(Ostermann et al.2018;王2018年)。在我们的实验中,我们也将RACE作为源任务,并将六个具有代表性的来自多个领域的非抽取的多选题MRC数据集作为目标任务。虑到这些数据集的不同结构,我们需要一些特定于任务的修改。在ARC和OpenBookQA中,没有与每个问题相关的参考文档。相反,它提供了一个参考语料库,由与问题相关的无序的科学相关句子组成。因此,我们首先使用Lucene (McCandless et al., 2010)通过在一个 问题中使用 不间断(non-stop)的单词及其每个答案选项作为查询来检索前50个句子。 检索到的句子用于形成每个答案选项的参考文档。MultiRC数据集中一个问题可以有多个正确答案选项。因此,我们在最后一层使用sigmoid函数代替softmax(图1),并将任务视为二进制(对错)即每个(文档、问题、答案选项)实例的分类问题.当我们将我们的方法应用于非传统的MRC数据集ROCStories时,它的目标是从两个答案选项中选择一个四句话不完整的故事的正确结尾(Mostafazadeh等人, ,由于没有提供明确的问题,我们将问题上下文留空。由于MultiRC数据集的测试集不可公开使用,我们报告了在开发集上获得最高微平均F1 (F1a)的模型的性能。对于其他任务,我们选择在开发集上达到最高精度的模型,并报告在测试集上的精度 。

  我们首先使用我们提出的关于RACE 的三种策略对GPT进行微调,然后对 六个目标任务之一的结果模型 进行进一步的微调(参见表3)。在后一个微调阶段,除了继承前一个微调阶段的突出嵌入外,我们还采用了前后阅读的策略,由于模型已经在第一个微调阶段从高质量的RACE数据集中的实例中获益,所以我们没有考虑自我评估策略。

  我们将首先对RACE数据集上面进行微调,然后在不使用策略的情况下对目标任务进行微调的基线进行比较,这些基线已经在6个数据集中的4个(OpenBookQA, semevall -2018任务11、ROCStories 和 MultiRC))上超过了之前的最先进(SOTA)。通过使用这些策略,我们获得了比集成基线(58:5%)平均准确度提高了7:8%的绝对准确度,比以前的SOTA(60:1%)提高了6:2%的绝对准确度。为了进一步研究这些策略的作用,我们直接对目标任务进行GPT微调,而不使用RACE中的标记数据(即与未使用策略进行微调的基线(54:6%)相比,我们获得了平均准确率10 . 4%的相对提高(60:3%),尤其是在数据集ARC、OpenBookQA和MCTest上的较大改进(表4)。

  5 Related Work

  5.1 Methods for Multiple-Choice Machine Reading Comprehension|

  我们主要讨论应用于*敏*感*词*数据集的方法,如RACE (Lai等,2017)。研究人员开发了多种具有注意机制的方法(Chen et al., 2016;Dhingra等,2017;徐等,2018;Tay等2018;Tang等2019年)进行改进,如添加消除模块(Parikh等人2018)或应用分层注意策略(Zhu等人2018;王等,2018b)。这些方法很少考虑丰富的外部知识(除了预先训练好的单词嵌入)。相反,我们基于现有的预训练tr

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线