核心方法:一种基于关键词的摘要生成系统及方法与流程

优采云 发布时间: 2022-10-10 08:13

  核心方法:一种基于关键词的摘要生成系统及方法与流程

  1、本发明属于自然语言处理领域,具体涉及一种基于关键词的摘要生成系统及方法。

  背景技术:

  2、目前人工智能生成摘要的方法一般都是基于句法和语义计算,不能根据人们想要关注的内容得到理想的结果。例如,在长文本中提到了一家公司,希望生成该公司的信息。,这是传统方法无法解决的。因此,我们对此进行了改进,提出了一种基于关键词的摘要生成系统和方法。

  技术实施要素:

  3、本发明的目的在于克服现有技术中存在的上述问题,提供一种基于关键词的摘要生成系统和方法。由于没有使用*敏*感*词*的神经网络模型,提高了空间和时间效率上的优势。显然,通过对比发现效果优于文本平均词向量的相似度结果,便于不同单位和个人通过对海量文本的分析进行舆情监测和管理。

  4、为达到上述技术目的,达到上述技术效果,本发明通过以下技术方案实现: 一种基于关键词的摘要生成系统,包括数据采集模块,数据处理模块,计算处理模块,排序优化模块,汇总聚合模块;data采集模块用于获取大量需要通过data采集方法分析的语料;数据处理模块用于使用合适的句子向量表达。无监督词向量模型将分词后的文本向量化,得到由句子向量组成的文本;计算处理模块,用于使用预训练的词向量,计算句子的有效分数;排序优化模块用于对关键词句子分数进行排序,根据需要取出前几句,对连续提及多个单元的列表文本生成固定格式的相应摘要;摘要聚合模块用于摘要中提到的相同事件。文本被聚合和去重以提高结果信息的质量。摘要聚合模块用于摘要中提到的相同事件。文本被聚合和去重以提高结果信息的质量。摘要聚合模块用于摘要中提到的相同事件。文本被聚合和去重以提高结果信息的质量。

  5.进一步的,文本向量生成模型是glove的深度学习模型(global vectors for word representation),计算一个句子的有效分数是通过迭代计算计算每个句子和所有其他句子的整体相关性分数方法。@关键词经过特征编码和特征融合后,输入glove深度学习模型和textrank技术,计算句子的有效分数,生成文本摘要。

  

  6.一种基于关键词的摘要生成方法:data采集模块通过data采集的方法获取一段时间内需要分析的大量语料文本,根据文本内容,句子类型文章类型分类,然后将分类后的文章发送给数据处理模块;湾。数据处理模块使用适合向量表达的无监督词向量模型对分词后的文本向量进行滑动,得到由句子向量组成的文本,然后将文本送入计算处理模块;C。计算处理模块 计算处理模块用于使用预训练的词向量,计算句子的有效分数,然后排列

  序列优化模块会用关键词对句子的分数进行排序,根据需要取出前几句,对于连续提及多个单元的列表文本,生成固定格式的相应摘要;d。对具有相同事件的文本进行聚合和去重,从而提高结果信息的质量。根据事先准备好的同义词表,将分割后的词的文本替换成同义词,将意思相近的词转换成同一个词。找到文章的词集的交集,计算两个文章中常用词的比例,得到两个比例的加权平均,作为两个文章的相似度,如果相似度高于阈值,则将它们归为同一类。

  7、本发明的有益效果是:基于关键词的摘要生成系统和方法由于不使用*敏*感*词*的神经网络模型,在空间和时间效率上具有明显优势。优于文本平均词向量的相似度结果,便于不同单位和个人通过分析海量文本进行舆情监控和管理。

  图纸说明

  8.此处所描述的附图用于提供对本发明的进一步理解,并且构成本技术的一部分。本发明的示例性实施例及其描述用于解释本发明,并不构成对本发明的不当限制。附图中: 图1是本发明的流程图;图2为本发明排序优化模块*敏*感*词*。

  详细方法

  9、下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。. 基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

  10、如图1所示,一种基于关键词的摘要生成系统及方法,一种基于关键词的摘要生成系统,包括数据采集模块、数据处理模块、计算处理模块、排序优化模块、汇总汇总模块;data采集模块用于通过data采集获取大量需要分析的语料;数据处理模块用于使用适合句向量表达的无监督表达词向量模型对分词后的文本进行向量化,得到由句向量组成的文本;计算处理模块用于利用预训练词向量计算句子的有效分数,利用预训练词向量和textrank技术计算句子的有效分数。该技术借鉴了搜索引擎应用的pagerank的思想,通过迭代计算的方法计算出每个句子和所有其他句子的整体相关性得分。每个句子的 textrank 得分为: 其中, 为阻尼系数, 为句子相似度矩阵;排序优化模块用于对关键词的句子分数进行排序,根据需要取出前几句。以列表文本为单位,生成固定格式的相应摘要;摘要聚合模块用于对摘要中提到的相同事件的文本进行聚合和去重,从而提高结果信息的质量。聚合和重复数据删除以提高结果信息的质量。对于聚类模块,通过尝试当前用于计算文本相似度的模型,发现准确性和时间效率的有效性。

  结果不是特别理想,所以使用了基于同义词替换的词频统计方法。主要计算过程为: 1. 同义词替换。根据事先准备好的同义词表,将分词的文本替换成同义词,即将意思相近的词转换成同一个词;2、相似度计算,对于两篇文章求文章的词集的交集,计算两篇文章文章中常见词的比例。

  

  11.通过计算两个比例的加权平均作为两篇文章的相似度文章,如果相似度高于阈值,则将它们归为同一类别。相似度计算公式如下: 划分为同一类别。相似度计算公式如下: 划分为同一类别。相似度计算公式如下: 划分为同一类别。相似度计算公式如下: 由于每两个文本计算一次,时间复杂度为,为了节省计算时间,为每种文本构建一个共同的特征词汇表,该词汇表中出现频率最高的词汇表记录文本类型。100个词和词频,并将这些特征词集作为该类别的文本,参与后续的相似度计算。当新文本被分类到这个类别时,特征词汇表会被更新。

  12、由于该方法不使用大型神经网络模型,在空间和时间效率上具有明显优势。通过对比发现,效果优于文本平均词向量的相似度结果。

  13.文本向量生成模型是glove的深度学习模型(用于词表示的全局向量)。glove 是一个全局对数双线性回归模型。该模型使用词的共现频率矩阵来构建对数线性目标函数。并以回归的形式解决。目标函数为:对数线性目标函数,以回归的形式求解。它的目标函数是:其中是单词和单词的词向量, ,是自定义偏置项,是共现矩阵,表示单词和单词在一个窗口中共现的次数整个语料库。是权重函数,是词汇的大小(共现矩阵维数为 )。使用训练好的模型得到文本词向量,通过平均得到文本句子向量。

  他所有句子的整体相关性得分,经过关键词的特征编码和特征融合后,基于glove深度学习模型和textrank技术输入,计算句子的有效得分,生成文本摘要。

  14.一种基于关键词的摘要生成方法:data采集模块通过data采集方法获取一段时间内需要分析的大量语料。键入文章类型分类,然后将分类后的文章发送给数据处理模块;湾。数据处理模块使用适合向量表达的无监督词向量模型,对分词后的文本向量进行滑动,得到由句子向量组成的文本,然后将文本发送给计算处理模块;C。计算处理模块计算处理模块用于使用预训练好的词向量,计算句子的有效得分,排序优化模块将携带关键词句子得分排序,并根据需要取出前几句,对连续提及多个单元的列表文本生成固定格式的相应摘要;d。摘要聚合模块对摘要中提到的相同事件的文本进行聚合和去重,进一步提高结果信息的质量,根据预先准备好的同义词表,将分割词的文本替换为同义词,将词将意思相近的词转换成同一个词,计算两篇文章文章词集的交集。两篇文章文章中常用词的比例,得到两篇比例的加权平均作为两篇文章文章的相似度,如果相似度高于阈值,

  15、如图2所示,对关键词的句子的分数进行排序,根据需要取出前几句,因为主要关注的是带有关键词的句子,所以只有带有的句子关键词排序加快模型运行速度。

  16. 在本说明书的描述中,对“一个实施例”、“示例”、“具体示例”等术语的描述是指结合实施例或示例描述的特定特征、结构、材料或特性包括在本发明中的至少一个实施例或示例。在本说明书中,上述术语的示意性表示不一定指相同的实施例或示例。此外,所描述的特定特征、结构、材料或特性可以在任何一个或多个实施例或示例中以任何合适的方式组合。

  17、本发明的基本原理、主要特点和优点已在上面进行了说明和说明。本领域技术人员应当理解,本发明不受上述实施例的限制,上述实施例中的描述和说明仅用于说明本发明的原理。在不脱离本发明的精神和范围的情况下,本发明将有各种变化和变型,均落入要求保护的发明范围内。

  整套解决方案:AI人工智能可以推动网站seo优化吗?

  AI 人工智能被认为是21世纪的前沿技术之一,近年来发展迅速。它已被广泛应用于许多学科,使用数据和算法来促进我们的生活。

  所以有人提出AI人工智能技术可以应用于网站seo优化推广?网站seo优化和推广可以用AI人工智能优化吗?以下是小菊对AI人工智能技术能否在网站的优化推广中应用的介绍。

  

  ①AI设置网站TDK

  优化人工智能,第一步是设置TDK,AI操作以毫秒为单位,比人工操作快很多。它可以通过自己的检索和设置数据模型进行校正和设置。

  ②人工智能让网站内外链接,文章成为最难的任务

  如果优化推广网站,在频繁操作中会有内外部链接。如果直接发送外部链接,内部链接将成为一个非常关键的点。因为他要牵扯到一个很重要的因素:文章。文章 将是 AI 优化中最难的一项。文章 的质量和文章 的内容将是影响网站 优化的重要项目。

  

  因为文章涉及很多行业和专业。人工智能很难通过自我学习和完善来达到写作标准。

  ③人工智能无法完全替代网站优化行业

  目前人工智能暂时还不能完全替代网站优化这个行业,因为AI相当于机器智能,做一些机械化的工作。所谓学习只是一些存储标记,网络大概就是神经。但他的感情和想法,仍然不会存在。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线