基于注意力机制(编码器)+神经网络语言模型
优采云 发布时间: 2021-06-13 01:18基于注意力机制(编码器)+神经网络语言模型
基于深度学习的文本摘要方法总结
基于序列到序列(Seq2Seq)框架模型
1.2015,受神经机器翻译 (NMT)、Rush 等人的启发。首先提出了一种基于注意力机制(编码器)+神经网络语言模型(NNLM)(*敏*感*词*)的生成式摘要模型;
2016 年,Chopra 等人改进的RNN(*敏*感*词*)效果显着,常用作基线模型;
同年,Nalapati等人引入了一些新技术:在编码器中加入富文本特征捕获关键词;增加*敏*感*词*指针,解决字典外词汇(OOV)和低频词的问题;使用层次注意力机制来捕捉不同层次的文档结构信息;
顾等人。提出了 CopyNet 复制网络。一方面,它可以复制和保留源文本中的重要信息。另一方面,输出可以生成一些与源文本不同措辞的摘要。限制:完整复制输入信息。不能灵活调整;
见等。提出了一种灵活选择的指针*敏*感*词*网络,以及一种处理重复问题产生的覆盖机制;
2018年Paulus等人首先提出使用强化学习,应用自我批评策略梯度算法训练模型,将强化学习损失与传统交叉熵损失相结合,因此不可微的评价指标ROUGH、BLEU、还可以提高可读性;
曹等人。为了避免模型生成的摘要中存在不一致的信息,使用开放信息提取和依赖分析技术从源文本中提取实际的事实描述,并提出了Dual-Attention
序列到序列框架使模型能够根据原创文本和提取的事实描述生成摘要。实验证明可以减少80%的虚假事实;
许等人。提出了提取和生成方法的组合。首先使用抽取模块对句子的重要性进行打分,并在此基础上使用生成模块更新对原创文章weight中每个词的attention,然后通过字;
周等人。在encoder中加入Selective gating network,将词的隐层状态和句子的隐层状态拼接在一起,输入前馈网络生成新的语义向量;
在抽取方法中,深度学习的作用主要体现在分类模型的性能提升上,尽可能使输出结果符合标准数据的分布。生成方法取得突破,改变了生成自动摘要的研究思路,
基于深度学习的生成方法模拟人类书写习惯,输出结果收录原文中不存在的表达式。深度学习端到端的训练方法,正式让自动摘要的任务成为迈向人工智能的重要一步。但不可避免的是
深度学习方法也存在一些不足,比如需要大量高质量的标注数据,缺乏参数调整的理论指导。未来,研究人员需要设计更高效的算法来满足大数据下自动摘要的需求。
2.数据集介绍
中文数据集:
1)LCSTS:中文短文本摘要数据集,采集于新浪微博认证用户发表了超过200万条中文短文本。 2.4×10(6)文本对训练集,1×10(4)文本对验证集和1.1×10(3)
文本对的测试集。其中,验证集和测试集增加了摘要与原文的相关性得分。得分越高,相关性越高,便于研究人员根据不同任务的特点调整数据集的使用。
2)NLPCC:中文微博新闻摘要。 NLPCC-2015收录从新闻门户网站采集的140个标题news文章,每个对应2个人工生成的标准摘要(不超过140个汉字); NLPCC-2017 提供标准摘要和非收录标准摘要两个训练数据集,每个训练集收录 5000 个新闻文档。
3)搜狐新闻数据集:根据不同的预处理方式,可用于文本分类、事件检测与跟踪、新词发现、命名实体识别、自动摘要等任务。它收录 140 万条新闻文本和新闻标题。
英文数据集:
1)CNN/Darly Mail:新闻数据集,包括286817个训练对、13368个验证对和11487个测试对;
2)Gigaword:数据量大,约950万条新闻文章、3.8*10^6训练集、1.89*10^5验证集和1951测试集。
3)DUC/TAC:仅用于评估目的的小规模数据集,
目前常用的汇总数据集有 DUC-2002、DUC-2003 和 DUC-2004。 DUC-2002 收录 567 个文档,每个文档有 2 个人工生成的 100 字的摘要; DUC-2003 收录
624 文章 抽象对; DUC-2004 收录 500 篇文档,每篇新闻有 4 个不同的人工生成的 75B 截取参考摘要
4)New York Times:纽约时报对结构进行了预处理。员工撰写的摘要超过 650,000 篇,人工标注的文章 150 万篇,以及个人、组织、地点和主题内容。索引表可用于自动摘要、文本分类和内容提取等任务。更适合作为抽取式自动摘要。
5)Newsroom:可用于训练和评估自动摘要系统的大型数据集,包括 130 万个文章 和摘要,可用作生成和提取类型。
6)Bytecup:130万条新闻文章的文本摘要方法综述
基于序列到序列(Seq2Seq)框架模型
1.2015,受神经机器翻译 (NMT)、Rush 等人的启发。首先提出了一种基于注意力机制(编码器)+神经网络语言模型(NNLM)(*敏*感*词*)的生成式摘要模型;
2016 年,Chopra 等人改进的RNN(*敏*感*词*)效果显着,常用作基线模型;
同年,Nalapati等人引入了一些新技术:在编码器中加入富文本特征捕获关键词;增加*敏*感*词*指针,解决字典外词汇(OOV)和低频词的问题;使用层次注意力机制来捕捉不同层次的文档结构信息;
顾等人。提出了 CopyNet 复制网络。一方面,它可以复制和保留源文本中的重要信息。另一方面,输出可以生成一些与源文本不同措辞的摘要。限制:完整复制输入信息。不能灵活调整;
见等。提出了一种灵活选择的指针*敏*感*词*网络,以及一种处理重复问题产生的覆盖机制;
2018年Paulus等人首先提出使用强化学习,应用自我批评策略梯度算法训练模型,将强化学习损失与传统交叉熵损失相结合,因此不可微的评价指标ROUGH、BLEU、还可以提高可读性;
曹等人。为了避免模型生成的摘要中存在不一致的信息,使用开放信息提取和依赖分析技术从源文本中提取实际的事实描述,并提出了Dual-Attention
序列到序列框架使模型能够根据原创文本和提取的事实描述生成摘要。实验证明,可以减少80%的虚假事实;
许等人。提出了提取和生成方法的组合。首先使用抽取模块对句子的重要性进行打分,并在此基础上使用生成模块更新对原创文章weight中每个词的attention,然后通过字;
周等人。在encoder中加入Selective gating network,将词的隐层状态和句子的隐层状态拼接在一起,输入前馈网络生成新的语义向量;
在抽取方法中,深度学习的作用主要体现在分类模型的性能提升上,尽可能使输出结果符合标准数据的分布。生成方法取得突破,改变了生成自动摘要的研究思路,
基于深度学习的生成方法模拟人类书写习惯,输出结果收录原文中不存在的表达式。深度学习端到端的训练方法,正式让自动摘要的任务成为迈向人工智能的重要一步。但这是不可避免的
深度学习方法也存在一些不足,比如需要大量高质量的标注数据,缺乏参数调整的理论指导。未来,研究人员需要设计更高效的算法来满足大数据下自动摘要的需求。
2.数据集介绍
中文数据集:
1)LCSTS:中文短文本摘要数据集,采集于新浪微博认证用户发表了超过200万条中文短文本。 2.4×10(6)文本对训练集,1×10(4)文本对验证集和1.1×10(3)
文本对的测试集。其中,验证集和测试集增加了摘要与原文的相关性得分。得分越高,相关性越高,便于研究人员根据不同任务的特点调整数据集的使用。
2)NLPCC:中文微博新闻摘要。 NLPCC-2015收录从新闻门户网站采集的140个标题news文章,每个对应2个人工生成的标准摘要(不超过140个汉字); NLPCC-2017 提供标准摘要和非收录标准摘要两个训练数据集,每个训练集收录 5000 个新闻文档。
3)搜狐新闻数据集:根据不同的预处理方式,可用于文本分类、事件检测与跟踪、新词发现、命名实体识别、自动摘要等任务。它收录 140 万条新闻文本和新闻标题。
英文数据集:
1)CNN/Darly Mail:新闻数据集,包括286817个训练对、13368个验证对和11487个测试对;
2)Gigaword:数据量大,约950万条新闻文章、3.8*10^6训练集、1.89*10^5验证集和1951测试集。
3)DUC/TAC:仅用于评估目的的小规模数据集,
目前常用的汇总数据集有 DUC-2002、DUC-2003 和 DUC-2004。 DUC-2002 收录 567 个文档,每个文档有 2 个人工生成的 100 字的摘要; DUC-2003 收录
624 文章 抽象对; DUC-2004 收录 500 篇文档,每篇新闻有 4 个不同的人工生成的 75B 截取参考摘要
4)New York Times:经过预处理,纽约时报由超过 650,000 篇员工撰写的摘要和 150 万篇人工标注的 文章 以及个人、组织、地点和主题内容组成。索引表可用于自动摘要、文本分类和内容提取等任务。更适合作为抽取式自动摘要。
5)Newsroom:可用于训练和评估自动摘要系统的大型数据集,包括 130 万个文章 和摘要,可用作生成和提取类型。
6)Bytecup:130 万篇新闻文章文章 由 110 万篇文章作为训练集组成。每个文章 收录文章ID、内容和标题。因为标题较短,所以更适合生成。