采集的文章和关键词不符( 本发明基于关键词的文章生成方法,所述、利用爬虫获取散文段落数据集)

优采云 发布时间: 2022-03-29 12:13

  采集的文章和关键词不符(

本发明基于关键词的文章生成方法,所述、利用爬虫获取散文段落数据集)

  

  本发明涉及自然语言生成与处理领域,具体涉及一种基于关键词生成文章的方法。

  背景技术:

  文本自动生成是自然语言处理领域的一个重要研究方向,文本自动生成的实现也是人工智能成熟的重要标志。简而言之,我们期待计算机能够像人类一样写作并能够撰写高质量的自然语言文本的那一天。文本自动生成技术具有很大的应用前景。例如,自动文本生成技术可应用于智能问答对话、机器翻译等系统,实现更智能、更自然的人机交互;我们还可以用自动文本生成系统代替编辑器,实现自动新闻写作和发布。它可能会扰乱新闻和出版业;该技术甚至可以用来帮助学者撰写学术论文,从而改变科研创造模式。文本生成是当前自然语言处理(nlp,natural language processing)和自然语言生成(nlg,natural language generation)领域的研究热点。

  目前,信息一般是采集手工处理编译成文章,而传统的结构化数据生成或者文本的模板配置生成非常死板和受限。

  技术实施要素:

  本发明的目的在于提供一种基于关键词生成文章的方法,以解决现有技术中存在的上述问题。

  为实现上述目的,本发明采用的技术方案如下:

  一种基于关键词生成文章的方法,该方法包括以下步骤,

  s1、使用爬虫获取网上散文内容,作为初始训练数据集,对初始训练数据集进行切分,获取多段文字,为每段文字配置id号,聚合将所有段落文本放入散文段落数据集中;

  s2、根据id号在散文段落数据集上建立索引,得到散文段落数据集的索引;对散文段落数据集进行分词,对分词结果进行训练,得到该数据集的散文段落Sentence特征向量模型;

  s3、获取用户提交的待生成文本的关键词和待生成文本的段落数;

  s4、根据散文段落数据集和句子特征向量模型的索引,使用待生成文本的关键词进行索引,得到文本段落数等于文本的段落数待生成,每个文本段落根据id编号。文章表示是根据散文段落数据集的索引组成的。

  优选地,步骤s2包括以下内容:

  s201、根据id号在散文段落数据集上建立前向索引,得到第一索引序列;根据token对散文段落数据集建立倒排索引,得到第二索引序列;

  s202、对散文段落数据集进行token切分得到多个token,使用emlo模型训练每个token得到所有token的词向量;

  s203、根据步骤s202得到的所有token的词向量,计算训练段落数据集中的句子特征向量。

  优选地,步骤s203具体包括以下内容:

  一种。根据步骤s202得到的所有token的词向量,统计散文段落数据集中每个段落文本的所有token的词向量;

  湾。根据散文段落数据集中每个段落文本的所有token的词向量,分别计算散文段落数据集中每个段落文本的句子特征向量;

  C。根据每个段落文本的id号获取散文段落数据集的句子特征向量模型。

  优选地,步骤s4包括以下内容:

  s41、加载散文段落数据集的第一索引、第二索引和句子特征向量模型;

  s42、根据待生成文本的关键词检索第二索引序列,随机获取第二索引序列中的一个句子作为第一段;

  s43、根据散文段落数据集的句子特征向量模型得到第一段的向量值;

  s44、根据散文段落数据集的句子特征向量模型和第一段的向量值,根据欧式距离计算最接近第一段的向量,记为第二段;

  s45、根据散文段落数据集的句子特征向量模型和第二段,根据欧式距离计算最接近第二段的向量,记为第三段;

  s46、 循环执行步骤s45,直到得到第n段,其中n为要生成的文本的段数;

  s47、根据id号对获取的段落进行排列汇总,根据id号查询第二个索引序列,生成文章显示。

  本发明的有益效果是:1、使用深度学习神经网络语言模型计算词向量,然后使用词向量(wordembedding)和位置向量(positionalembedding)来表征句子特征向量和将其应用到文本生成应用中,摒弃了传统结构化数据生成和模板配置生成的死板和局限。2、新的基于句子的正向索引和倒排索引项目,用于实现在线计算服务,在线计算性能高,可以从关键词的各种语义角度重复生成文本文章。3、提供一种使用关键词生成文章的方法,包括基于关键词的文本文章生成算法,

  图纸说明

  图1为本发明实施例中文章的生成方法流程*敏*感*词*;

  图2为本发明实施例的生成方法离线部分的流程*敏*感*词*;

  无花果。图3为本发明实施例的文章生成方法在线部分的流程*敏*感*词*。

  详细说明

  为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限制本发明。

  自然语言处理(NLP)是人工智能的一个子领域。自然语言处理的应用包括机器翻译、情感分析、智能问答、信息抽取、语言输入、舆情分析、知识图谱等,也是深度学习的一个分支。

  这个概念下有两个子集,即自然语言理解(natural language understanding,简称nlu)和自然语言生成(natural language generation,简称nlg)。

  nlg 旨在让机器根据确定的结构化数据、文本、音频和视频等,生*敏*感*词*类可以理解的自然语言形式的文本。根据数据源的类型,nlg 可以分为三类:

  1.texttotextnlg,主要是对输入的自然语言文本进行进一步处理和处理,主要包括文本摘要(输入文本的细化)、拼写检查(输入文本中的拼写错误自动更正)、语法更正错误(自动更正)输入文本中的句法错误)、机器翻译(以另一种语言表示输入文本的语义)和文本重写(以不同形式表示输入文本的相同语义);

  2.datatotextnlg,主要根据输入的结构化数据生成通俗易懂的自然语言文本,包括天气预报(根据天气预报数据生成泛化文本进行广播)、财报(自动生成季报)/年报)、体育新闻(根据比分信息自动生成体育新闻)、人物简历(根据人物结构化数据生成简历)等字段自动生成;

  3.visiontotextnlg,主要是给定一张图片或者一段视频,生成能够准确描述图片或者视频的语义信息的自然语言文本(其实就是一个连续的图片序列)。

  示例 1

  如图所示。参见图1至图3,本实施例提供了一种基于关键词生成文章的方法,属于texttotextnlg的子集,即基于关键词(keywordtotext)生成文本的算法; 该方法包括以下步骤,

  s1、使用爬虫获取网上散文内容,作为初始训练数据集,对初始训练数据集进行切分,获取多段文字,为每段文字配置id号,聚合将所有段落文本放入散文段落数据集中;

  s2、根据id号在散文段落数据集上建立索引,得到散文段落数据集的索引;对散文段落数据集进行分词,对分词结果进行训练,得到该数据集的散文段落Sentence特征向量模型;

  s3、获取用户提交的待生成文本的关键词和待生成文本的段落数;

  s4、根据散文段落数据集和句子特征向量模型的索引,使用待生成文本的关键词进行索引,得到文本段落数等于文本的段落数待生成,每个文本段落根据id编号。文章表示是根据散文段落数据集的索引组成的。

  在本实施例中,步骤s1-s2属于文章生成方法的离线部分(如图2所示);步骤s3-s4属于文章生成方法的线上部分(如图3所示)。

  在本实施例中,步骤s1使用爬虫获取多个互联网网站的散文内容作为初始训练数据集,对初始训练数据集进行分割得到分割良好的散文段落数据集,记为s ={ s1,s2,...,sn},其中si是散文段落数据集中的第i个段落文本,i是段落文本的id号,i=1,2,...n, n 是散文段落数据集合中段落文本的总数。

  本实施例以步骤s1得到的散文段落数据集s为样本进行计算,具体包括以下内容:

  s201、根据id号在散文段落数据集上建立前向索引,得到第一个索引序列;根据token对散文段落数据集建立倒排索引,得到第二索引序列;一个指数系列和第二个指数系列登陆磁盘;

  s202、对散文段落数据集进行token切分,得到多个token,使用emlo模型对每个token进行训练,得到所有token的词向量;获取token的词向量的具体过程是计算wordembedding(词向量),将positionalembedding(位置向量)和wordembedding的向量相加,将结果作为token的词向量。

  s203、根据步骤s202得到的所有token的词向量,计算训练段落数据集中的句子特征向量。

  在本实施例中,步骤s203具体包括以下内容:

  一种。根据步骤s202得到的所有token的词向量,统计散文段落数据集中每个段落文本的所有token的词向量;

  将其中一个token的词向量表示为a,其中aj是token的词向量a的第j个向量值,j=1,2,...,m,m是词向量的总维数,默认值 m= 200;

  湾。根据散文段落数据集中每个段落文本的所有token的词向量,分别计算散文段落数据集中每个段落文本的句子特征向量;

  首先,获取散文段落数据集中第一段文本s1的所有token的词向量,设k为散文段落数据集中第一段文本s1的所有token的总数;那么散文段落数据集中第一段文本s1的句子特征向量(sentenceembedding)为s1=a1+a2+…ak;

  根据步骤b,依次计算散文段落数据集中所有段落文本的句子特征向量。

  C。根据每个段落文本的id号获取散文段落数据集的句子特征向量模型;并将散文段落数据集的句子特征向量模型保存在磁盘中。

  在本实施例中,步骤s3具体为:等待获取用户通过rpc服务提交的两个参数keyword(待生成文本的关键词)和n(生成文本的段落数)。网。同时需要判断用户提交的参数是否合法,如果合法,则执行步骤s4。

  本实施例中,加载索引和句子特征向量模型,对获取的关键词进行实时在线计算,具体包括以下内容:

  s41、加载散文段落数据集的第一索引、第二索引和句子特征向量模型;

  s42、根据待生成文本的关键词检索第二个索引序列,随机获取第二个索引序列中的一个句子作为第一段w1;

  s43、 根据散文段落数据集的句子特征向量模型,得到第一段的向量值

  s44、 根据散文段落数据集的句子特征向量模型和第一段的向量值,根据欧式距离计算最接近第一段w1的向量w2,记为第二段落

  s45、 根据散文段落数据集和第二段w2的句子特征向量模型,根据欧式距离计算最接近第二段w2的向量,记为第三段

  s46、 循环执行步骤s45,直到得到第n段,其中n为要生成的文本的段数;

  s47、根据id号[w1,w2,…wn]对得到的段落进行排列汇总,根据id号查询第二个索引序列,生成文章返回给客户端用于展示。

  实施例2

  本实施例对本发明方法生成的文章进行详细说明,

  1、参数关键词是“父亲”,段落参数n=7。生成 文章 如下:

  那些死去的人,包括我的父亲、我那一代村官的叔叔,还有我的三个姑姑;那些幸存者,包括我现在当村官的表弟和在乡镇派出所当警察的侄子,他们总是像偷景的鬼一样出现在我的眼前,死鬼和活鬼告诉我在一起,他们是那么好吵又好吵。

  被选中的村干部和宗族打了一次仗。

  2003年春天,雄心勃勃开始写作时,我在迪化街祭祀了近十年二十年的死者,并为迪化街幸存的人们洒了一杯酒在地上。从此,我的书房变成了一个放在院子里的巨大汉壶,香火天天燃烧,香烟像一根线一样卷到房顶。

  他们都是农村人,但不是文坛的。他们对阅读很感兴趣,跑到我面前说:“你想要一座纪念碑,这是一座大纪念碑!” 当然,他们的话给了我反复修改的信心。,但最终还是放下了定稿的笔,坐在烟雾缭绕的书房里,再次怀疑自己写的字。

  我的家乡是迪化街,我的故事是清风街;迪化街是月亮,清风街是水中的月亮;迪化街是花,清风街是镜中花。

  三人因抢劫被判入狱,十八人因*敏*感*词*被拘留。

  就像耳朵会听音乐一样,它需要不断的训练。

  2、参数关键词是“love”,段落参数n=7。生成 文章 如下:

  为什么中国人的爱情可以离不开善良和正义,而外国人却可以如此洒脱?或许,中国的夫妻要同甘共苦,而外国的夫妻要一起享受美好的生活。

  让我们一起举杯,说:我们很幸福。

  女儿也对着它举手道:“再见……”。

  爱可以披头散发,爱可以披着布裙,爱可以粗犷,爱可以睡在空中。

  恩义是我们漂浮世界的救生圈。它是用来遮盖自己和他人的。这是一种拯救,也是一种负担。

  我们已经习惯于在提醒中生活。

  是的,有恩典有义,有忘恩负义,有怨言,有要求,有仇恨。

  采用本发明公开的上述技术方案,取得了以下有益效果:

  本发明提供了一种基于关键词生成文章的方法。该方法利用深度学习神经网络语言模型计算词向量,然后利用词嵌入和位置嵌入来表征句子的特征向量应用于文本生成应用,摒弃了传统结构化数据生成和模板配置的僵化和局限性一代; 采用新的基于Sentence的正向索引和倒排索引工程实现服务在线计算服务,在线计算性能高,并且可以从关键字的各种语义角度重复生成文本文章;该方法提供了一种使用关键词生成文章的方式,包括使用关键词生成文章

  以上仅为本发明的较佳实施例而已。需要指出的是,对于本领域的技术人员来说,在不脱离本发明的原理的情况下,可以进行若干改进和修改。应视为本发明的保护范围。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线