自然语言生成处理领域的基于关键词的文章生成方法

优采云 发布时间: 2021-03-26 01:10

  

自然语言生成处理领域的基于关键词的文章生成方法

  

  本发明涉及自然语言生成处理领域,尤其涉及一种基于关键词的文章生成方法。

  背景技术:

  自动文本生成是自然语言处理领域的重要研究方向,自动文本生成的实现也是人工智能成熟的重要标志。简而言之,我们期待着未来的一天,计算机可以像人类一样书写并可以书写高质量的自然语言文本。自动文本生成技术具有广阔的应用前景。例如,自动文本生成技术可以应用于智能问答,对话,机器翻译等系统,以实现更智能,更自然的人机交互。我们还可以使用自动文本生成系统来代替编辑器,以实现自动新闻撰写和发布。可能颠覆新闻出版业;这项技术甚至可以用来帮助学者撰写学术论文,从而改变科研创造的模式。文本生成是自然语言处理(nlp,自然语言处理)和自然语言生成(nlg,自然语言生成)领域的当前研究热点。

  当前,它通常是人为的采集信息,并经过人工处理后编译为文章,而传统的结构化数据生成或模板配置生成的文本非常僵硬且有局限性。

  技术实现要素:

  本发明的目的是提供一种基于关键词生成文章的方法,以解决现有技术中的上述问题。

  为了达到上述目的,本发明采用的技术方案如下:

  基于关键词的文章生成方法,该方法包括以下步骤,

  s 1、使用采集器在Internet上获取散文内容,并将其用作初始训练数据集,对初始训练数据集进行分段,获取多个段落文本,并为每个段落文本配置ID号,将所有段落文本汇总到散文段落数据集中;

  s 2、根据id号对散文段落数据集进行索引,得到散文段落数据集的索引;用散文段落数据集进行分词,训练分词结果,得到段落数据集的散文句特征向量模型;

  s 3、获取要生成的文本的关键词和用户提交的文本的段落数;

  s 4、根据散文段落数据集的索引和句子特征向量模型,将要生成的文本的关键词用于索引,以获取与将要生成的文本,并根据id对每个文本段落进行编号。显示散文段落数据集文章的索引组成。

  优选地,步骤s2收录以下内容,

  s20 1、,根据标识号在散文段落数据集上建立前向索引,得到第一索引序列;根据标记在散文段落数据集上建立倒排索引,以获得第二索引序列;

  s20 2、对散文段落数据集进行标记分割,获得多个标记,并使用emlo模型训练每个标记以获得所有标记的词向量;

  s20 3、根据在步骤s202中获得的所有标记的词向量计算训练段落数据集中的句子特征向量。

  优选地,步骤s203具体包括以下内容,

  a。根据步骤S202中获得的所有标记的词向量,计算散文段落数据集中每个段落文本的所有标记的词向量;

  b。根据散文段落数据集中每个段落文本所有标记的词向量,计算散文段落数据集中每个段落文本的句子特征向量;

  c。根据每个段落文本的编号获取散文段落数据集的句子特征向量模型。

  优选地,步骤s4包括以下内容,

  s4 1、加载第一个索引,第二个索引和散文段落数据集的句子特征向量模型;

  s4 2、根据要生成的文本的关键词搜索第二索引序列,并随机获得第二索引序列中的句子作为第一段;

  s4 3、根据散文段落数据集的句子特征向量模型获得第一段落的向量值;

  s4 4、根据散文段落数据集的句子特征向量模型和第一段落的向量值,根据欧几里得距离计算最接近第一段落的向量,并将其记录为第二段落;

  s4 5、根据散文段落数据集和第二段落的句子特征向量模型,根据欧氏距离计算出最接近第二段落的向量,并将其记录为第三段落;

  s4 6、循环执行步骤s45,直到获得第n个段落为止,其中n是要生成的段落数;

  s4 7、根据获得的段落ID对其进行排列和汇总,并根据其ID查询第二个索引序列以生成文章显示。

  本发明的有益效果是:1、使用深度学习神经网络语言模型来计算单词向量,然后使用单词向量(单词嵌入)和位置向量(位置嵌入)来表征句子特征向量并将其应用于文本生成应用程序。 ,摒弃了传统结构化数据生成和模板配置生成的刚性和局限性。 2、采用新的基于句子的前向索引和倒排索引项目,以实现在线计算服务。凭借较高的在线计算性能,它可以重复生成具有多个文本语义角度的关键字文章。 3、提供了一种使用关键词生成文章的方法,包括基于关键词的文本文章生成算法,句子前向索引和关键词倒排索引的实现,它们可以应用于智能基础服务化学产品。

  图纸说明

  图1是本发明实施例中的文章生成方法的示意性流程图;

  图2是本发明实施例的文章生成方法的离线部分的*敏*感*词*;

  图3是本发明实施例中文章生成方法的在线部分的*敏*感*词*。

  具体的实现方法

  为了使本发明的目的,技术方案和优点更加清楚,以下参照附图对本发明进行更详细的描述。应当理解,本文所述的具体实施例仅用于解释本发明,并不用于限制本发明。

  自然语言处理(自然语言处理,简称nlp)是人工智能的一个子领域。自然语言处理应用包括机器翻译,情感分析,智能问答,信息提取,语言输入,舆论分析,知识图谱等。这也是深度学习的一个分支。

  此概念下有两个主要子集,即自然语言理解(nlu)和自然语言生成(nlg)。

  nlg旨在使机器根据某些结构化数据,文本,音频和视频等以人类可以理解的自然语言生成文本。根据数据源的类型,nlg可以分为三类:

  1. texttotextnlg,主要用于输入自然语言文本的进一步处理和处理,主要包括文本摘要(精炼输入文本),拼写检查(自动纠正输入文本的拼写错误),语法纠错(自动纠正输入文本的语法错误),机器翻译(以另一种语言表达输入文本的语义)和文本重写(以不同形式表达输入文本的相同语义)和其他字段;

  2. datatotextnlg主要根据输入的结构化数据生成可读和可理解的自然语言文本,包括天气预报(基于天气预报数据生成用于广播的通用文本),财务报告(自动生成)作为季度/年度报告),体育新闻(根据得分信息自动生成体育新闻)和角色履历(根据角色结构化数据生成履历);

  3. visiontotextnlg主要用于生成自然语言文本,该文本可以准确地描述给定图片或一段视频的图片或视频(实际上是连续的图片序列)的语义信息。

  示例一

  如图1-3所示,本实施例提供了一种基于关键词的文章生成方法,该方法属于texttotextnlg的子集,即基于关键词的文本生成算法(keywordtotext)。该方法包括以下步骤,

  s 1、使用采集器在Internet上获取散文内容,并将其用作初始训练数据集,对初始训练数据集进行分段,获取多个段落文本,并为每个段落文本配置ID号,将所有段落文本汇总到散文段落数据集中;

  s 2、根据id号对散文段落数据集进行索引,得到散文段落数据集的索引;用散文段落数据集进行分词,训练分词结果,得到段落数据集的散文句特征向量模型;

  s 3、获取要生成的文本的关键词和用户提交的文本的段落数;

  s 4、根据散文段落数据集的索引和句子特征向量模型,将要生成的文本的关键词用于索引,以获取与将要生成的文本,并根据id对每个文本段落进行编号。显示散文段落数据集文章的索引组成。

  在本实施例中,步骤s1-s2属于文章生成方法的离线部分(如图2所示);步骤s3-s4属于文章生成方法的在线部分(如图3所示)。

  在本实施例中,在步骤s1中,使用采集器获取多个Internet的散文内容网站作为初始训练数据集,并对初始训练数据集进行分段以获得分段的散文段落数据集,表示为s = {s1,s2,...,sn},其中si是散文段落数据集中的第i个段落文本,i是段落文本的ID号,i = 1,2,。 .n,n是散文段落数据集中段落文本的总数。

  在本实施例中,将步骤s1中获得的散文段落数据集s作为计算样本,具体包括以下内容,

  s20 1、根据编号,在散文段落数据集上建立前向索引,以获得第一索引序列;根据令牌在散文段落数据集上建立倒排索引,以获取第二索引序列;第一个索引系列和第二个索引系列位于磁盘上;

  s20 2、对散文段落数据集进行标记分割,获得多个标记,并使用emlo模型训练每个标记以获得所有标记的单词向量;获取令牌词向量的具体过程是计算词嵌入(词向量),并在向量中加上位置嵌入(位置向量)和词嵌入,结果就是令牌的词向量。

  s20 3、根据在步骤s202中获得的所有标记的词向量计算训练段落数据集中的句子特征向量。

  在本实施例中,步骤s203具体包括以下内容,

  a。根据步骤S202中获得的所有标记的词向量,计算散文段落数据集中每个段落文本的所有标记的词向量;

  将其中一个标记的词向量记为a,其中aj是标记的词向量a的第j个向量值,j = 1、2,...,m,而m为总数单词向量的维数,默认值为m = 200;

  b。根据散文段落数据集中每个段落文本所有标记的词向量,计算散文段落数据集中每个段落文本的句子特征向量;

  首先,获取散文段落数据集中第一段文字s1的所有记号的词向量,并将k设置为散文段落数据集中第一段文字s1的所有记号的总数;段落文本s1的句子特征向量(句子嵌入)为s1 = a1 + a2 + ... ak;

  根据步骤b,依次计算散文段落数据集中所有段落文本的句子特征向量。

  c。根据每个段落文本的id号获取散文段落数据集的句子特征向量模型;并将散文段落数据集的句子特征向量模型保存在磁盘中。

  在本实施例中,步骤s3具体包括等待获取用户通过rpc服务提交的两个参数关键字(待生成文本的关键词)和n(生成文本的段落数)。网络。同时,需要确定用户提交的参数是否合法,如果合法,则执行步骤s4,如果不合法,将返回参数错误,用户需要重新输入参数。

  在本实施例中,加载索引和句子特征向量模型,并对获得的关键词进行实时在线计算,具体包括以下内容,

  s4 1、加载第一个索引,第二个索引和散文段落数据集的句子特征向量模型;

  s4 2、根据要生成的文本的关键词搜索第二索引序列,并随机获得第二索引序列中的句子作为第一段w1;

  s4 3、根据散文段落数据集的句子特征向量模型获取第一段的向量值

  s4 4、根据散文段落数据集的句子特征向量模型和第一段落的向量值,根据欧几里得距离计算最接近第一段落w1的向量w2并进行记录作为第二段

  s4 5、根据散文段落数据集和第二段落w2的句子特征向量模型,根据欧几里得距离计算最接近第二段落w2的向量,并将其记录为第三段落。

  s4 6、循环执行步骤s45,直到获得第n个段落为止,其中n是要生成的段落数;

  s4 7、根据其ID号[w1,w2,... wn]排列并汇总所获得的段落,并根据其ID号查询第二个索引序列,并生成文章以返回到客户端进行显示。

  示例2

  在该实施例中,通过示例具体说明了通过本发明的方法生成的文章,

  1、参数关键词是“父亲”,段落参数n = 7。生成文章,如下所示:

  死者,包括我的父亲,一代乡村干部的叔叔和我的三个姨妈;那些幸存者,包括现在是乡村干部的堂兄,以及在乡镇警察局当警察的侄子,他们总是像抢劫相机一样冒出我的眼神,死鬼和活鬼告诉我在一起,他们正在吵架和吵架。

  选择村干部和宗族打一次。

  当我在两三年后的春天开始写书时雄心勃勃时,我在迪化街上为死者献祭了近十年或二十年,还为幸存者洒了一杯酒在地上。迪化街。在放在我书房里的巨大的汉罐中,香气一天比一天燃烧,香烟像屋顶上的线头一样curl缩。

  他们全都来自农村,但他们不是文学界的人。他们对阅读非常感兴趣,他们来到我身边说:“您将要建造一座纪念碑,这是一座巨大的纪念碑!”当然,他们对我重复了他们的话。对修订充满信心,但最后放下了草稿的笔,坐在烟熏的书房里,我再次怀疑我写的话。

  我的故乡是迪化街,我的故事是庆丰街。迪化街是月亮,庆丰街是水里的月亮。镜花是帝华街的花朵,庆丰街是花的花朵。

  三人因抢劫入狱,十八人因*敏*感*词*而被拘留。

  这就像一只耳朵,可以听音乐并且需要不断训练。

  2、参数关键词是“ love”,段落参数n = 7。生成文章,如下所示:

  为什么中国人的爱不能与善良,公义分开,而外国人却可以如此自由和轻松?也许,中国夫妻想分享逆境,但外国夫妻在一起过着美好的生活。

  让我们一起举起眼镜说:我们很高兴。

  女儿还举起她的小手,说“再见...”。

  爱可以散布,爱可以在净柴围裙中,爱可以被煮熟和食用,爱可以被失眠吃掉。

  恩伊对我们在浮动世界中是一个救生圈。它用于遮盖自己和他人。这既是救赎,又是负担。

  我们从小就习惯于在提醒中生活。

  是的,有恩典和公义,有恩怨,委屈,要求和仇恨。

  采用本发明公开的上述技术方案,可获得以下有益效果:

  本发明提供了一种基于关键词的文章生成方法。该方法使用深度学习神经网络语言模型来计算单词向量,然后使用单词嵌入和位置代数来表征句子特征向量也被用于文本生成应用程序,从而摆脱了传统结构化数据生成和模板配置生成的刚性和局限性;采用新的基于句子的前向索引和倒排索引项目来实现在线计算服务。在线计算性能很高,并且可以重复生成具有多个文本语义角度的关键字文章;该方法提供了一种使用关键词生成文章的方法,包括基于关键词的文本文章生成算法,可以将句子的前向索引和关键词倒排索引的实现应用于基础服务。 AI智能产品。

  以上仅是本发明的优选实施方式。应当指出,对于本领域普通技术人员而言,在不脱离本发明原理的情况下,可以进行一些改进和修改。这些改进和修饰也应视为本发明的保护范围。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线