京东智能内容创作算法的演变与实践：基于关键词手动生成摘要

优采云发布时间: 2020-08-25 04:04

　　京东智能内容创作算法的变迁与实践：基于关键词手动生成摘要

　　来源 | 京东智联云开发者

　　导读：

　　过去几十年间，人类的估算能力获得了巨大提高；随着数据不断积累，算法日渐先进，我们早已进入了人工智能时代。确实，人工智能概念很难理解，技术更是了不起，背后的数据和算法极其庞大复杂。很多人都在疑问，现在或未来AI将会有什么实际应用呢？

　　其实，关于AI的实际应用以及所带来的商业价值并没有这么的“玄幻”，很多时侯就早已在我们的身边。接下来，【AI论文剖析】专栏将会通过相关AI论文的剖析，由深入浅地为你们解密，AI技术是怎样对电商领域进行赋能，以及相关的落地与实践。

　　人工智能技术在电商领域，有着丰富的应用场景。应用场景是数据入口，数据通过技术得到提炼，反过来又作用于技术，二者相辅相成。

　　京东基于自然语言理解与知识图谱技术，开发了商品营销内容AI写作服务。并将此项技术应用到了京东商城【发现好货】频道中。

　　京东【发现好货】频道

　　通过AI创作的数十万商品营销图文素材，不仅弥补了商品更新与达人写作内容更新之间的巨大缺口，也提高了内容频道的内容丰富性。

　　同时，AI生成内容在爆光点击率、进商详转化率等方面虽然都表现出了优于人工创作营销的内容。

　　接下来使我们使我通过剖析荣获AAAI 2020的论文来一上去瞧瞧，如何通过AI来实现针对不同群体采用不同营销策略及不同风格的营销文案因而提升营销转化率的。

　　自动文本摘要（简称“自动文摘”）是自然语言处理领域中的一个传统任务，其提出于 20 世纪 50 年代。自动文摘任务的目标是对于给定的文本，获得一段收录了其中最重要信息的简化文本。常用的自动文摘方式包括抽取式手动文摘（Extractive Summarization)和生成式手动文摘（Abstractive Summarization)。抽取式手动文摘通过提取给定文本中已存在的关键词、短语或语句组成摘要；生成式手动文摘通过对给定文本构建具象的语意表示，利用自然语言生成技术，生成摘要。

　　本文所介绍的是基于关键词指导的生成式语句摘要方式，该方式融合了抽取式手动文摘和生成式手动文摘，在Gigaword语句摘要数据集上与对比模型相比，取得了更好的性能。

　　论文链接：

　　生成式语句摘要

　　生成式语句摘要(Abstractive Sentence Summarization)任务的输入是一个较长的诗句，输出是该输入语句的简化句子。

　　我们注意到，输入语句中的一些重要成语（即关键词）为摘要的生成提供了指导线索。另一方面，当人们在为输入语句创作摘要时，也常常会先找出输入语句中的关键词，然后组织语言将这种关键词串接上去。最终，生成内容除了会囊括这种关键词，还会确保其流畅性和句型正确性。我们觉得，相较于纯粹的抽取式手动文摘和生成式手动文摘，基于关键词指导的生成式手动文摘更接近于人们创作摘要时的习惯。

　　图1：输入句和参考摘要之间的重叠关键词(用白色标记)涵盖了输入句的重要信息，我们可以按照从输入句子中提取的关键字生成摘要

　　我们举一个简单的语句摘要的反例。如图1所示，我们可以大致将输入语句和参考摘要的重叠的词（停用词除外）作为关键词，这些重叠的词句覆盖了输入语句的要点。例如，我们通过关键词“世界各国*敏*感*词*”“关闭”和“切尔诺贝利” ，可以获取输入语句的主旨信息，即“世界各国*敏*感*词*号召关掉切尔诺贝利”，这与实际的参考摘要 “世界各国*敏*感*词*呼吁支持切尔诺贝利核电站关掉计划”是相吻合的。这种现象在语句摘要任务中太常见：在Gigaword语句摘要数据集上，参考摘要中的词句超过半数会出现在输入语句中。

　　模型概述

　　句子摘要任务的输入为一个较长的诗句，输出是一个简略的文本摘要。我们的动机是，输入文本中的关键词可以为手动文摘系统提供重要的指导信息。首先，我们将输入文本和参考摘要之间重叠的词（停用词除外）作为Ground-Truth关键词，通过多任务学习的方法，共享同一个编码器对输入文本进行编码，训练关键词提取模型和摘要生成模型，其中关键词提取模型是基于编码器隐层状态的序列标明模型，摘要生成模型是基于关键词指导的端到端模型。关键词提取模型和摘要生成模型均训练收敛后，我们借助训练好的关键词提取模型对训练集中的文本抽取关键词，利用抽取到的关键词对摘要生成模型进行微调。测试时，我们先借助关键词提取模型对测试集中的文本抽取关键词，最终借助抽取到的关键词和原创测试文本生成摘要。

　　1、多任务学习

　　文本摘要任务和关键词提取任务在某种意义上十分相像，都是为了提取输入文本中的关键信息。不同点在于其输出的方式：文本摘要任务输出的是一段完整的文本，而关键词提取任务输出的是关键词的集合。我们觉得这两个任务均须要编码器就能辨识出输入文本中的重要信息的能力。因此，我们借助多任务学习框架，共享这两个任务编码器，提升编码器的性能。

　　2、基于关键词指导的摘要生成模型

　　我们受Zhou等人工作[1]的启发，提出了一种基于关键词指导的选择性编码。具体来说，由于关键词富含较为重要的信息，通过关键词的指导，我们建立一个选择门网路，其对输入文本的隐层语义信息进行二次编码，构造出一个新的隐层。基于这个新的隐层进行后续的解码。

　　我们的*敏*感*词*基于Pointer-Generator网路[2]，即融合了复制机制的端到端模型。对于Generator模块，我们提出直连、门融合和层次化融合的形式对原创输入文本和关键词的上下文信息进行融合；对于Pointer模块，我们的模型可以选择性地将原创输入和关键词中的文本复制到输出摘要中。

　　实验与分析

　　1、数据集

　　在本次实验中，我们选择在Gigaword数据集上进行实验，该数据集收录约380万个训练语句摘要对。我们使用了8000对作为验证集，2000对作为测试集。

　　2、实验结果

　　表1显示了我们提出的模型比没有关键词指导的模型表现更好。我们测试了不同的选择性编码机制，分别是输入文本的自选择，关键词选择和互选择，实验结果显示互选择的疗效最佳；对于Generator模块，我们发觉层次化融合的形式要优于其他两种融合方法；我们的单向Pointer模块比原创的仅能从输入文本中复制的模型表现更好。

　　表1

　　总结

　　本文致力于生成式语句摘要的任务，即怎样将一个长短句转换成一个简略的摘要。我们提出的模型可以借助关键词作为指导，生成愈发优质的摘要，获得了比对比模型更好的疗效。

　　1）通过采用了多任务学习框架来提取关键词和生成摘要；

　　2）通过基于关键字的选择性编码策略，在编码过程中获取重要的信息；

　　3）通过双重注意力机制，动态地融合了原创输入语句和关键词的信息；

　　4）通过双重复制机制，将原创输入语句和关键词中的词组复制到输出摘要中。

　　在标准语句摘要数据集上，我们验证了关键词对语句摘要任务的有效性。

　　注释：

　　[1]Zhou, Q.; Yang, N.; Wei, F.; and Zhou, M. 2017. Selective encoding for abstractive sentence summarization. In Proceedings of ACL, 1095–1104.

　　[2]See, A.; Liu, P. J.; and Manning, C. D. 2017. Get to the point: Summarization with pointer-generator networks. In Proceedings of ACL, 1073–1083.

　　同时，欢迎所有开发者扫描下方二维码填写《开发者与AI大督查》，只需2分钟，便可收获价值299元的「AI开发者千人会议」在线直播套票!

0

2020-08-25

关键词自动采集生成内容系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

京东智能内容创作算法的演变与实践：基于关键词手动生成摘要

0 个评论

发起人

AI时代内容工厂

京东智能内容创作算法的演变与实践：基于关键词手动生成摘要

0 个评论

发起人

相关问题