关键词自动采集生成内容系统(本文基于关键词指导的生成式句子摘要方法)

优采云 发布时间: 2021-09-07 05:20

  关键词自动采集生成内容系统(本文基于关键词指导的生成式句子摘要方法)

  近年来,人工智能技术在电子商务领域的广泛应用,彻底改变了传统的营销方式。在京东的【发现好货】频道,很多商品的营销文案都是由京东自主研发的“商品营销内容AI写作服务”生成的。 AI可以针对不同的群体采用不同的营销策略和不同风格的营销文案,提高营销转化率。

  通过人工智能创建的数十万种产品营销图文材料,不仅填补了专家编写的产品更新和内容更新之间的巨大空白,还增强了内容渠道的内容丰富度。同时,人工智能生成的内容在曝光点击率和详细业务转化率方面实际上优于人工创建的内容。本文将介绍一种基于关键词指导的生成句摘要方法。

  自动文本摘要(简称“自动摘要”)是自然语言处理领域的一项传统任务,于 1950 年代提出。自动摘要任务的目标是获得收录给定文本最重要信息的简化文本。常用的自动摘要方法包括Extractive Summarization和Abstractive Summarization。提取式自动摘要通过提取给定文本中存在的关键词、短语或句子来组成摘要;生成式自动摘要构建给定文本的抽象语义表示,并使用自然语言生成技术生成摘要。

  本文介绍了一种基于关键词指导的生成句摘要方法。该方法结合了抽取式自动摘要和生成式自动摘要。与Gigaword句子摘要数据集上的对比模型相比,取得了更好的Good performance。

  论文链接:

  生成句总结

  Abstractive Sentence Summarization 任务的输入是长句,输出是输入句的简化短句。

  我们注意到输入句中的一些重要词(即关键词)为摘要的生成提供了指导。另一方面,人们在为输入句创建摘要时,往往先在输入句中找到关键词,然后组织语言将这些关键词串联起来。最终生成的内容不仅会覆盖这些关键词,还要保证其流畅性和语法正确性。我们认为,相比纯粹的抽取式自动摘要和生成式自动摘要,基于关键词指导的生成式自动摘要更贴近人们创建摘要时的习惯。

  图1:输入句与参考摘要关键词(红色标注)的重叠覆盖了输入句的重要信息。我们可以根据从输入句子中提取的关键词生成摘要

  让我们举一个简单的句子摘要示例。如图1所示,我们可以粗略地将输入句子和参考摘要之间的重叠词(停用词除外)作为关键词。这些重叠的词涵盖了输入句子的要点。比如我们可以通过关键词"World Leaders", "Close", "Chernobyl"获取输入句的主题信息,即“世界*敏*感*词*呼吁关闭切尔诺贝利”,与The实际参考摘要 “世界*敏*感*词*敦促支持切尔诺贝利核电站关闭计划”。是一致的。这种现象在句子摘要任务中很常见:在Gigaword句子摘要数据集上,参考摘要中超过一半的词会出现在输入句子中。

  模型概览

  句子摘要任务的输入是一个长句,输出是一个短文本摘要。我们的动机是输入文本中的关键词 可以为自动摘要系统提供重要的指导信息。首先,我们使用输入文本和参考摘要之间的重叠词(停用词除外)作为 Ground-Truth 关键词。通过多任务学习,我们共享同一个编码器对输入文本进行编码并训练关键词提取模型和摘要生成模型。 关键词提取模型是基于编码器隐藏层状态的序列标注模型,摘要生成模型是关键词引导的端到端模型。在关键词提取模型和摘要生成模型训练收敛后,我们使用训练好的关键词提取模型从训练集中提取关键词,并使用提取的关键词对摘要生成进行微调模型。在测试过程中,我们首先使用关键词提取模型从测试集中的文本中提取关键词,最后使用提取的关键词和原创测试集文本生成摘要。

  1、多任务学习

  文本摘要任务在某种意义上与关键词提取任务非常相似,两者都用于从输入文本中提取关键信息。区别在于输出格式:文本摘要任务的输出是完整的文本,而关键词提取任务的输出是关键词的集合。我们认为这两项任务都需要编码器能够识别输入文本中的重要信息。因此,我们使用多任务学习框架来共享这两个任务编码器,以提高编码器的性能。

  2、基于关键词指导的Summary生成模型

  我们得到 Zhou 等人的支持。 (Zhou, Q.;Yang, N.;Wei, F.;和 Zhou, M. 2017. 抽象句子摘要的选择性编码。在 Proceedings of ACL,1095-110@ 受4. 参考文件的启发文章结尾),提出了一种基于关键词指导的选择性编码。具体来说,由于关键词收录更重要的信息,在关键词的指导下,我们构建了一个选择门网络,对输入文本的隐藏语义信息进行二次编码以构建一个新的隐藏层。基于这个新的隐藏层进行后续解码。

  我们的*敏*感*词*基于指针*敏*感*词*网络 [参见 A.;刘佩杰;和 Manning,CD 2017. 切入正题:使用指针*敏*感*词*网络进行总结。在 Proceedings of ACL, 1073–108 3.] 中,即收录复制机制的端到端模型。对于 Generator 模块,我们提出了直接连接、门融合和分层融合的方法来融合原创输入文本和关键词 的上下文信息;对于Pointer模块,我们的模型可以有选择地将原创输入与关键词中复制文本到输出摘要中。

  实验与分析

  1、数据集

  在这个实验中,我们选择在 Gigaword 数据集上进行实验,该数据集收录大约 380 万个训练句子摘要对。我们使用 8000 对作为验证集,2000 对作为测试集。

  2、实验结果

  表 1 显示我们提出的模型比没有关键词 指导的模型表现更好。我们测试了不同的选择性编码机制,即输入文本的自选择、关键词selection 和相互选择。实验结果表明,相互选择的效果最好;对于 Generator 模块,我们发现层次融合方法优于其他两种融合方法;我们的双向指针模块的性能优于只能从输入文本中复制的原创模型。

  总结

  本文致力于生成句子摘要的任务,即如何将长句转换为短句。我们提出的模型可以以关键词为指导,生成更高质量的摘要并取得比对比模型更好的结果。

  1)使用多任务学习框架提取关键词并生成摘要;

  2)使用基于关键字的选择性编码策略来获取编码过程中的重要信息;

  3)通过双重注意力机制动态整合原创输入句和关键词的信息;

  4)通过双重复制机制将原创输入句和关键词中的词复制到输出摘要中。

  在标准句子摘要数据集上,我们验证了关键词在句子摘要任务上的有效性。

  注意:

  [1]周Q;杨,N。魏,F。和 Zhou, M. 2017. 抽象句子摘要的选择性编码。在 ACL 会议录中,1095–1104.

  [2]见,A.; Liu, P. J.;和 Manning, C. D. 2017. 切入正题:使用指针*敏*感*词*网络进行总结。在 ACL 会议录中,1073–1083.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线