核心方法:京东智能内容创作算法的演进与实践:基于关键词自动生成摘要

优采云 发布时间: 2022-11-02 17:32

  核心方法:京东智能内容创作算法的演进与实践:基于关键词自动生成摘要

  来源 | 京东智联云开发者

  简介:揭秘京东背后的AI技术能力:基于关键词自动生成摘要

  在过去的几十年里,人类的计算能力有了很大的提高;随着数据的不断积累和算法的日益先进,我们已经进入了人工智能时代。的确,人工智能的概念很难理解,而技术更是了不起。它背后的数据和算法非常庞大和复杂。很多人想知道,人工智能现在或未来会有哪些实际应用?

  事实上,人工智能的实际应用和它带来的商业价值并不是那么“幻想”,很多时候已经在我们身边。接下来,【AI论文解读】栏目将通过对相关AI论文的解读,揭开AI技术如何赋能电商领域的秘密,以及相关的实施与实践。

  人工智能技术在电子商务领域有着丰富的应用场景。应用场景是数据录入。数据是通过技术提炼出来的,而技术又反过来作用于技术。两者相辅相成。

  基于自然语言理解和知识图谱技术,京东开发了产品营销内容的AI写作服务。并将这项技术应用到京东商城【Discover Goods】渠道。

  京东【发现商品】频道

  数十万张由AI打造的产品营销图文素材,不仅填补了产品更新与专家撰写的内容更新之间的巨大空白,还提升了内容渠道的内容丰富度。

  同时,人工智能生成的内容在曝光点击率和详细业务转化率方面实际上优于人工创建的营销内容。

  接下来,让我看一下AAAI 2020入选的论文,看看如何利用AI为不同的群体实现不同的营销策略和不同风格的营销文案,以提高营销转化率。

  自动文本摘要(简称“自动摘要”)是自然语言处理领域的一项传统任务,于1950年代提出。自动摘要任务的目标是为给定文本获取收录其中最重要信息的简化文本。常用的自动摘要方法包括抽取式自动摘要(Extractive Summarization)和生成式自动摘要(Abstrative Summarization)。抽取式自动摘要通过抽取给定文本中现有的关键词、短语或句子来组成摘要;生成式自动摘要通过建立给定文本的抽象语义表示并使用自然语言生成技术来生成摘要。

  本文介绍了一种基于关键词指导的生成式句子摘要方法,它融合了抽取式自动摘要和生成式自动摘要。与比较模型相比,它在 Gigaword 句子摘要数据集上取得了更好的结果。表现。

  

  论文链接:

  生成的句子摘要

  Abstractive Sentence Summarization 任务的输入是较长的句子,输出是输入句子的简化短句。

  我们注意到输入句子中的一些重要词(即关键词)为摘要的生成提供了指导线索。另一方面,人们在为输入句子创建摘要时,往往会先在输入句子中找到关键词,然后组织语言将这些关键词连接起来。最终,生成的内容不仅会涵盖这些关键词,还要保证它们的流畅性和语法正确性。我们认为,相对于纯抽取式自动摘要和生成式自动摘要,基于关键词指导的生成式自动摘要更接近人们在创建摘要时的习惯。

  图1:输入句子和参考摘要的重叠关键词(红色标记)覆盖了输入句子的重要信息,我们可以根据输入句子中提取的关键词生成摘要

  让我们举一个简单的句子摘要的例子。如图1所示,我们可以粗略地将输入句子的重叠词(停用词除外)和参考摘要作为关键词,这些重叠词覆盖了输入句子的要点。例如,通过关键词“世界*敏*感*词*”、“关闭”和“切尔诺贝利”,我们可以得到输入句子的主题信息,即“世界*敏*感*词*呼吁关闭切尔诺贝利”,这是符合实际参考摘要“世界*敏*感*词*敦促支持切尔诺贝利关闭计划”。这种现象在句子摘要任务中很常见:在 Gigaword 句子摘要数据集上,参考摘要中超过一半的单词出现在输入句子中。

  模型概述

  句子摘要任务的输入是一个长句子,输出是一个短文本摘要。我们的动机是输入文本中的 关键词 可以为自动摘要系统提供重要的指导信息。首先,我们将输入文本和参考摘要之间的重叠词(除了停用词)作为 Ground-Truth关键词,通过多任务学习共享同一个编码器对输入文本进行编码,训练关键词抽取模型和摘要生成模型,其中关键词抽取模型是基于编码器隐藏状态的序列标注模型,摘要生成模型是基于引导的端到端模型关键词。关键词提取模型和摘要生成模型都收敛后,我们使用训练好的关键词 提取模型提取训练集中的文本关键词,并使用提取的关键词对摘要生成模型进行微调。测试时,我们首先使用关键词提取模型提取测试集中的文本关键词,最后使用提取的关键词和原创测试文本生成摘要。

  1. 多任务学习

  2.基于关键词指导的摘要生成模型

  受周等人工作的启发。[1],我们提出了一种基于 关键词 指导的选择性编码。具体来说,由于关键词收录了更重要的信息,通过关键词的引导,我们构造了一个选择门网络,对输入文本的隐藏层语义信息进行二次编码,构造一个新的隐藏层。基于这个新的隐藏层执行后续解码。

  我们的*敏*感*词*基于指针*敏*感*词*网络 [2],这是一种收录复制机制的端到端模型。对于Generator模块,我们提出了直接连接、门融合和层次融合来融合原创输入文本和关键词的上下文信息;对于 Pointer 模块,我们的模型可以选择性地将原创输入与 关键词 融合,将 关键词 中的文本复制到输出摘要中。

  实验与分析

  1. 数据集

  

  在本实验中,我们选择在 Gigaword 数据集上进行实验,该数据集收录约 380 万个训练句摘要对。我们使用 8000 对作为验证集,2000 对作为测试集。

  2. 实验结果

  表 1 显示我们提出的模型比没有 关键词 指导的模型表现更好。我们测试了不同的选择性编码机制,即输入文本的自我选择、关键词 选择和相互选择。实验结果表明,相互选择的效果最好;对于*敏*感*词*模块,我们发现分层融合的方法需要优于其他两种融合;我们的双向指针模块优于只能从输入文本复制的原创模型。

  表格1

  总结

  本文重点*敏*感*词*成式句子摘要的任务,即如何将长句子转换为简短摘要。我们提出的模型可以使用 关键词 作为指南来生成质量更好的摘要并获得比比较模型更好的结果。

  1)采用多任务学习框架提取关键词并生成摘要;

  2)通过基于关键字的选择性编码策略获取编码过程中的重要信息;

  3)通过dual attention机制,将原创输入句子和关键词的信息动态融合;

  4)原创输入句子和关键词中的单词通过双重复制机制复制到输出摘要中。

  在标准句子摘要数据集上,我们验证了 关键词 在句子摘要任务上的有效性。

  笔记:

  [1] 周,Q.;杨,N。魏,F。和 Zhou, M. 2017。抽象句子摘要的选择性编码。在 ACL 诉讼中,1095–1104。

  [2] 见,A.;刘PJ;和 Manning,CD 2017。切入正题:使用指针*敏*感*词*网络进行总结。在 ACL 诉讼中,1073–1083。

  同时,欢迎各位开发者扫描下方二维码填写“开发者与人工智能研究”,只需2分钟,即可获得价值299元的“人工智能开发者大会”线上直播门票!返回搜狐,查看更多

  核心方法:SEO关键词分析方法

  

  SEO关键词分析方法快递客服问题处理详细方法山树法pdf计算方法pdf八字理论方法下载每周选股方法亮点1. 如何找到关键词作为网站的所有者,您当然是最了解您的业务的人,所以您总能找到最能反映您业务的关键词。但仅仅依靠自己的努力,难免会出现一些疏漏。这个时候,你不妨去搜索引擎,找到竞争对手的网站,看看他们用的是哪个关键词,或许可以从中得到一些信息。有些启发。另外,借助一些关键词自动分析软件,可以快速从你或你竞争对手的网页中提取出合适的关键词,你的工作效率可以翻倍,我们可以使用这些软件找到许多我们以前没有考虑过的关键词,从而大大扩展了我们过去三年关于同志的关键词列表逼真的表演材料材料投标技术评分图表和交易 pdf 视力表打印 pdf 用图表说话 pdf 。2. 停用词/过滤词(StopWords/FilterWords)含义相同,都是指一些太常用而没有任何检索值的词,如“a”、“the”、“and”、“of”, “web”、“homepage”等。搜索引擎一般会在遇到这些词时将其过滤掉。所以为了节省篇幅,尽量避免使用这样的词,特别是在字符数受到严格限制的地方。(要验证上述规则,您可以尝试在搜索引擎中搜索“staythenight”。

  您会注意到单词“the”与搜索条件匹配,但它没有以粗体显示,表明它被忽略了。) 3. 你能重复关键词 N 次吗?既然关键词出现的频率是决定网站排名的重要因素,为什么不重复1000次,简单又有效呢?停止。众所周知,这就是搜索引擎的“石器时代”做法,在当时确实奏效,但现在早已被搜索引擎抛弃。当时的典型做法是:“关键词, 关键词, 关键词...”。重复次数越多,网站 排名越高。所以登录搜索引擎变成了无休止的关键词重复竞赛。你重复500次不算太多,我会重复600次,并且有很多人重复 关键词 数千次。搜索引擎很快意识到了这种做法的危险性,终于在忍无可忍的时候站了起来,警告那些走得太远的人网站,如果他们继续执迷不悟,不仅达不到他们的目标,但他们也可能被判处死刑。- 永远不要让你的 网站 出来!所以不要刻意重复某个关键词太多,尤其是不要连续使用某个关键词超过2次。使用关键词时,尽量做到自然流畅,符合基本语法规则。所谓网站优化是指网站的规划和网页的设计满足搜索引擎的网站排名规则,保证网站 可以在搜索引擎上获得更好的结果。排名,让更多的潜在客户快速找到你,从而最大限度地发挥网络营销的效果。4.如何使用关键词我们搜索关键词的目的是为了在网页中使用它们。

  

  在阅读了之前关于搜索引擎工作原理和页面排名规则的介绍之后,您可能还记得搜索引擎如何响应用户查询。它首先以输入关键词为搜索条件,在其数据库中检索收录关键词的网页,然后根据“匹配”的原则返回网站的排名搜索结果/位置/频率”。因此,为了让您的页面出现在以预先确定的 关键词 为条件的搜索结果中,您必须在页面中使用 关键词。放置关键词的地方包括:标题快递公司问题快递公司问题支付处理关于圆的周长和面积关键问题类型关于求解方程问题和答案关于南海问题、META标签、网页文本,ALT 标签等等。需要注意的一点是不要过度重复单个 关键词(垃圾邮件),也不要像 META 关键词 标签那样简单地排列 关键词(也是垃圾邮件),而是必要的语法规则应该遵循形成一个自然的句子流,让访问者看起来很舒服,同时还要考虑它是否对客户足够有吸引力。简而言之,记住一个原则:搜索引擎不会对对访问者有吸引力和有价值的内容视而不见。诚然,这项工作并不容易,但只要我们肯努力,最大限度地发挥我们的思想,就一定会得到满意的结果。但应遵循必要的语法规则,形成自然的句子流,让访问者看起来舒服,同时还要考虑它是否对客户足够有吸引力。简而言之,记住一个原则:搜索引擎不会对对访问者有吸引力和有价值的内容视而不见。诚然,这项工作并不容易,但只要我们肯努力,最大限度地发挥我们的思想,就一定会得到满意的结果。但应遵循必要的语法规则,形成自然的句子流,让访问者看起来舒服,同时还要考虑它是否对客户足够有吸引力。简而言之,记住一个原则:搜索引擎不会对对访问者有吸引力和有价值的内容视而不见。诚然,这项工作并不容易,但只要我们肯努力,最大限度地发挥我们的思想,就一定会得到满意的结果。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线