关键词自动采集生成内容系统(【技术实现步骤摘要】带有情感倾向的网评语句)

优采云 发布时间: 2022-01-19 11:10

  关键词自动采集生成内容系统(【技术实现步骤摘要】带有情感倾向的网评语句)

  本发明专利技术介绍了一种具有情感倾向的在线评论句子自动生成系统,该系统可以根据用户提供的关键词和情绪等信息,自动生成匹配的在线评论句子。传统的自然语言生成方法生成的句子过于死板、单调、扩展性差,难以适应人类不断变化的语言风格。本文介绍的自动句子生成机制可以生成具有自身特点和情感倾向的句子。本发明专利技术的总体思路是,首先从网络中获取句子资源作为语料库,利用情感分析相关技术对其情感倾向进行分类,然后构建搜索框架,基于提供的相关信息由用户,来自大量数据。呈现所需的文本,系统具有良好的扩展性,生成的句子更符合人们的日常语言。

  下载所有详细的技术数据

  【技术实现步骤总结】

  带有情感倾向的在线评论句自动生成系统

  本专利技术属于计算机应用领域,具体涉及一种带有情感倾向的在线评论的自动生成方法。

  技术介绍

  近年来,随着计算机、互联网等技术的飞速发展,人们在工作和生活中花费了大量的时间在互联网上,而且很多新闻和新闻也是从互联网上了解到的,所以总比交流好。与现实生活中的朋友的意见和想法。,人们更倾向于在互联网上发表意见,使他们的演讲更具影响力。自然语言生成属于人工智能和计算语言学的交叉领域,其目的是使机器能够生成可理解的人类自然语言。自然语言生成技术在很多领域都有应用,比如对话系统、机器翻译等,它的发展可以推动很多领域的进步。学者们提出了许多自然语言生成的方法,其中最稳健和使用最广泛的 NLG 方法是基于规则/模板的方法。Mann等人提出的修辞结构理论(Rhetorical Structure Theory,RST)扩展到计算文本规划的理论基础,是基于规则生成的鼻祖。RST后来发展成为许多学者提出的文本生成方法的基础,特别是用于规划各种大型文本;杉山等人。提出由先前基于模板的*敏*感*词*生成的话语有时收录与输入用户话语无关的句子。一种改进的基于模板的方法,它使用用户话语中最突出的词填充模板,并使用从 Twitter 采集的网络级依赖结构提取相关词。后来,出现了可训练的句子*敏*感*词*。Stent 等人提出的可训练句子*敏*感*词*。能自动适应应用领域的通用语言知识。它具有快速、灵活和通用的优点,但可以在特定领域产生高质量的输出。该*敏*感*词*可以产生与基于 MATCH 模板的*敏*感*词*相当的输出。随着网络的发展,数据的获取变得越来越容易,新的基于语料库的自然语言生成方法被提出并被广泛使用。Oh 和 Rudnicky 提出了一种基于语料库的自然语言生成方法,对执行感兴趣任务的领域专家所说的语言进行建模,并使用该模型随机生成系统话语。这种技术后来被应用于句子实现和内容规划,结果生成组件被集成到一个工作的自然对话系统中。他们使用两个语料库来构建基于单词的 n-gram 语言模型,然后随机生成句子。虽然上述传统的自然语言生成系统现在也得到了广泛的应用,但这些系统也存在一些问题。它们严重依赖人工定制,生成的句子非常单调,无法适应人类不断变化的语言风格。,泛化能力差,不能推广到在线评论句子的分析。产生。上述方法在我们的应用中最大的问题是上述生成系统忽略了用户在句子生成系统中的作用,生成的句子不能被用户支配。

  技术实现思路

  该专利技术是一种具有情感倾向的在线评论句子自动生成系统,可以根据用户提供的关键词和情感等信息,自动生成匹配的在线评论句子。传统的自然语言生成方法生成的句子过于死板、单调,这些方法的可扩展性较差,难以适应人类不断变化的语言风格。我们的目标是为最终用户生成流畅的个人文本。本文介绍的自动句子生成机制可以生成具有情感倾向的独特句子,摒弃了基于规则生成句子所需的语义、语法等知识,简单高效。我们的思路是先从互联网上获取句子资源作为语料库,利用情感分析相关技术对其情感倾向进行分类,然后利用搜索引擎的思路从海量数据中搜索用户用户提供的相关信息。将需要的句子呈现出来,使生成的句子更符合人们的日常生活。该专利技术提供了一种自动生成带有情感倾向的在线评论句子的机制。整个系统的流程如图1所示,具体包括以下几个步骤: Step 1:Web爬取数据。使用网络爬虫技术,根据我们的需要,我们选择使用更简单的专注网络爬虫。选择微博、知乎、天涯等热门网站。作为爬取对象,爬取内容为评论语句和对应的点赞数。为了最大化我们句子的多样性,我们从网络上爬取了 100,000 个句子并将它们组织成一个语料库。当然,爬取的数量可以根据需要进行扩展。

  第二步:数据整理和存储。存储网页内容时,只提取文档部分,网络上的评论会出现表情符号、图片、转发或网页链接等不规则或不必要的信息,所以在抓取时需要对内容进行正则化处理,过滤掉我们不需要的信息,并替换格式中不能直接保留的信息。比如对于表情,我们不能直接将表情保存到数据库中,但是表情对于情绪的表达是非常重要的,对于后续的情绪我们进行的分析是很有帮助的,所以不能直接过滤这样的信息,而emoji 应转换为相应的情感语言表达,并与爬取的句子一起保存。正则表达式的匹配规则如图2所示。 Step 3:对语料句进行情感分析。情感分析又称倾向分析,是对带有情感色彩的主观文本进行分析、处理、总结和推理的过程。我们抓取的网络评论信息是大量用户对任务、产品或事件的批评或表扬等情绪。基于此,为了生成与用户具有相同情感倾向的文本,我们需要对网络评论信息进行情感爬取。分析过滤以生成匹配用户偏好的最终文本。我们的情感分析是利用机器学习的相关技术对捕获的句子进行情感分析,使用卡方检验进行特征提取,SVM分类器进行情感分类,在情感分析的同时将相应的情感分析结果写入数据库。. 情感分析过程如图1第三部分所示。

  第 4 步:构建搜索框架。构建一个能够快速有效地响应大量用户的检索需求的搜索框架非常重要。Lucene作为一种低耦合、高效率、易于二次开发的优秀全文检索引擎架构,在设计搜索引擎时需要大量的计算。索引部分在建立索引时完成,为文档建立高效的索引库,检索效率高、速度快。因此,我们在 Lucene 的基础上构建了我们的搜索框架。图 3 展示了 Lucene 中全文搜索的过程。Step 5:根据关键词和情感信息获取匹配句子。用户提供 关键词 或中心思想在系统查询界面要生成的文本,并选择相应的情感倾向。用户匹配的文本。附图说明图。附图说明图1是具有情感倾向的在线评论句子生成系统的流程图;如图。2是正则表达式匹配规则;如图。图3是全文索引结构*敏*感*词*;为使优点和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述。该专利技术的总体思路是先从网上抓取大量在线评论,然后将其作为语料库进行备份。然后,对于语料库中的句子,使用情感分析的算法来判断情感,其中情感分为正面和负面。感情。然后,基于上面排序的语料构建搜索框架,最后根据用户输入的信息,从大数据中匹配出最符合用户需求的在线评论句子。

  具体包括以下几个步骤: 第一步:网络爬取数据。利用网络爬虫技术,从微博、知乎等热门网站的评论中爬取了超过10万条在线评论和相应的点赞数,并随后整理成语料库。网络爬虫是可以自主采集网页内容的程序。根据系统结构和实现技术,大致可分为一般网络爬虫、聚焦网络爬虫、增量网络爬虫和深度网络爬虫。要求,我们选择使用更简单的专注于网络爬虫。使用的聚焦网络爬虫的*敏*感*词*如1第一部分所示。我们首先确定爬取目标并获取初始URL,页面分析后获取页面中的链接,根据我们的目标过滤掉不必要的链接,将获取到的新URL加入到URL队列中,然后利用搜索算法确定队列中每个URL的优先级,每次选择优先级较高的URL作为内容爬取,循环处理,直到获取不到新的URL。第二步:数据整理和存储。人们在微博、知乎等社交平台(尤其是微博)上发表言论时,通常会添加一些相关的表情或图片来增强言论中的情绪。抓取时表情会引起形态变化,不规则 并且每次选择优先级较高的URL进行内容爬取时,循环该过程,直到无法获取到新的URL。第二步:数据整理和存储。人们在微博、知乎等社交平台(尤其是微博)上发表言论时,通常会添加一些相关的表情或图片来增强言论中的情绪。抓取时表情会引起形态变化,不规则 并且每次选择优先级较高的URL进行内容爬取时,循环该过程,直到无法获取到新的URL。第二步:数据整理和存储。人们在微博、知乎等社交平台(尤其是微博)上发表言论时,通常会添加一些相关的表情或图片来增强言论中的情绪。抓取时表情会引起形态变化,不规则

  【技术保护点】

  1.根据权利要求1所述的带有情感倾向的在线评论句子自动生成系统,其特征在于,包括网页评论句子抓取、数据清洗与存储、情感分析、搜索框架构建、句子匹配生成:使用网评句爬取为系统建立数据储备,将爬取的网评句作为原创语料;数据清洗和存储用于清洗原创语料的数据,过滤无效信息和非文本信息,替换有用信息。信息为文本格式,删除重复信息,整理后的数据存入数据库以备后用;情感分析项分析语料库中句子的情感倾向,并将结果写入数据库;搜索框架的构建 用于构建搜索框架,为数据库中的数据建立全文索引;该语句匹配生成的术语以执行查询并返回结果。全文索引建立后,查询界面接受用户的输入和选择,根据用户的输入和选择的情感倾向,将相应的文本信息反馈给用户。

  【技术特点总结】

  1.根据权利要求1所述的带有情感倾向的在线评论句子自动生成系统,其特征在于,包括网页评论句子抓取、数据清洗与存储、情感分析、搜索框架构建、句子匹配生成:使用网评句爬取为系统建立数据储备,将爬取的网评句作为原创语料;数据清洗和存储用于清洗原创语料的数据,过滤无效信息和非文本信息,替换有用信息。信息为文本格式,删除重复信息,整理后的数据存入数据库以备后用;情感分析项分析语料库中句子的情感倾向,并将结果写入数据库;搜索框架的构建它用于构建搜索框架并提供数据库中的数据...

  【专利技术性质】

  技术研发人员:夏正友、刘庆庆、刘赛赛、

  申请人(专利权)持有人:南京航空航天大学,

  类型:发明

  国家、省、市:江苏,32

  下载所有详细的技术数据 我是该专利的所有者

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线