采集内容插入词库(人工关联新闻与虚拟评论存放于新闻系统的两个地方)

优采云 发布时间: 2021-10-14 19:33

  采集内容插入词库(人工关联新闻与虚拟评论存放于新闻系统的两个地方)

  基于新闻内容的虚拟评论机导入方法技术领域

  [0001] 本发明涉及新闻信息处理领域,尤其涉及一种基于新闻内容的虚拟评论机导入方法。

  背景技术

  [0002] 在互联网+融合媒体时代,特别是在广电新媒体的新闻内容中,传统的普通机械评论已经无法满足用户的需求。用户需要看到的是客观真实、实时性强、与新闻内容密切相关的评论。

  [0003] 现有的传统机械评论面临以下缺点:评论数据库不足,传统产品受技术限制,通常使用线性关系型数据库(例如:mysql、oracle等)将评论词存储在库中,所有评论都存储在一张表中。当数据达到一定量时,数据访问速度比较慢;或者存储在一个主表和多个分类表中,这样当数据量很大时,关联查询仍然比较耗时。

  [0004] 评论库内容单调,缺乏客观性,时效性低。传统产品通常手动将评论数据添加到词库中,存在缺陷。人主观性强,句子单调,通常这个新闻很好,这个新闻值得推荐,等等太牵强的评论。由于评论数据是手动添加的,所以这些都是在新闻出来之后,手动阅读新闻之后,还有一些评论是手动添加到新闻中,以便在其他地方使用。

  [0005] 手动关联新闻和虚拟评论,虚拟评论和新闻存储在新闻系统中的两个地方。通常,从词典中手动选择一条或多条评论与新闻相关联。这种方法的影响是新闻评论过于依赖人工。

  发明内容

  [0006] 本发明的目的在于克服现有技术的不足,提供一种基于新闻内容的虚拟评论机导入方法,专门用于广电行业新媒体新闻的评论,无需人工干预,并保证最大程度的词库的实时性、真实性和客观性。

  [0007] 本发明的目的是通过以下技术方案实现的:一种基于新闻内容的虚拟评论机导入方法,该方法包括以下步骤: S1:在新闻系统网页上,管理员或编辑手动输入评论,保存到虚拟评论词库;或者,在新闻系统后台部署大数据系统,实时抓取热点新闻+地方政府新闻评论,保存到虚拟评论词库;S2:使用评论关联算法对评论数据进行分析,分析后的数据存储在mysql数据库中,mysql数据实时同步到redis数据库,以hash方式存储;S3:将虚拟评论数据导入相关新闻。

  [0008] 进一步地,步骤S2的子步骤如下: S01:设置爬取数据的网页;S02:从网页分析新闻列表和新闻详情页;S03:在新闻详情页url上找到新闻评论;S04:以新闻为单位抓取新闻标题、关键词、内容、评论;S05:处理爬取数据,关联记录新闻关键词及其评论。

  [0009] 进一步的,分析评论数据的方法是为每条新闻设置N个关键词,并为每条关键词设置权重W,则W+W+...W= 1、组合关键词,评论列表将与关键词组合保存;1 2 N 假设有n条评论,每个关键词相关的评论总和大于等于n。

  [0010] 进一步地,步骤S4的具体步骤如下: S11:编辑编辑新闻稿件后,设置新闻关键词,设置关键词的权重;S12:编辑保存稿件,此时新闻后台系统会匹配稿件关键词与词库中设置的关键词的相似度;S13:具体匹配过程:设置一个相似因子f,假设编辑的手稿关键词之一为X,虚拟词汇的关键词Y,匹配结果为Y1,那么它们的关系是:Y1 = 0;(f=0)Y1 =X*f ; (0

  [0011] 进一步地,相似因子系数f是人为设置的。

  [0012] 本发明的有益效果是:利用传统的线性数据库mysql(用于物理记录,方便与其他系统对接)+非关系型数据库redis(缓存,用于实时读取)。这个虚拟评论系统将词库分类(通常分为热点新闻和时事新闻),以及地方新闻(例如:深圳、广西等)。时事热点新闻利用大数据爬虫技术,采集热点网站、热点新闻、政务网新闻评论数据,利用评论关联分析算法将稿件关键词与其评论关联起来。很少有案例需要人工干预来审查和重组。分析的数据存储在mysql数据库中,并且数据实时同步到redis数据库。Redis可以存储大量数据,具有读取速度快的优势。

  [0013] 采用爬虫技术+评论关联算法,可以快速采集各大网站的最新评论,最大程度保证词库的实时性、真实性、客观性。

  [0014] 采用权重关联算法,无需人工干预。编辑只负责撰写稿件。稿件保存后,一些评论会自动导入到新闻中。编辑只需要审核和修改。

  图纸说明

  [0015]图1是该任务的流程图。

  详细方法

  [0016] 下面结合具体实施例对本发明的技术方案作进一步详细说明,但本发明的保护范围不限于以下。

  [0017] 如图所示。1、一种基于新闻内容的虚拟评论机导入方法,该方法的主要步骤如下: S1:在新闻系统网页上,管理员或编辑手动输入评论并保存到虚拟评论词典;或者,在新闻系统后台部署大数据系统,实时抓取热点新闻+地方政府新闻评论,保存到虚拟评论词典;S2:使用评论关联算法对评论数据进行分析,将分析后的数据存储在mysql数据库中,mysql数据实时同步到redis数据库,并以hash方式存储;S3:将虚拟评论数据导入相关新闻。

  [0018] 步骤S1的目的是获取虚拟评论。虚拟评论的来源包括:手动输入,在新闻系统网页中,支持管理员/编辑手动输入评论,并保存在数据库中,如下图使用大数据爬虫技术抓取新闻及其评论,新闻系统后端,部署大数据系统,实时抓取热点新闻+地方政府新闻评论。爬取数据的步骤如下: 1>设置爬取数据的网页,例如:人民网、广西新闻网;2>从网页分析新闻列表和新闻详情页;3>在新闻详情页找到该新闻的评论网址;4>以新闻为单位抓取新闻标题、关键词、内容以及评论等相关数据;5>

  [0019] 步骤S2用于实现虚拟评论分析和存储,步骤如下:使用评论关联算法分析评论数据,分析新闻内容,为每条新闻设置关键词,给每条新闻关键词设置权重,组合关键词,和关键词组合保存评论列表。例如,假设一篇新闻文章有3个关键词,分别是关键词1个权重W=30%,关键词2W=50%,关键词3W=20%。假设这条新闻有n条评论,分析这n条评论,将这些评论与新闻关键词关联起来。最终结果之一可能是:关键词1与n/m相关联,关键词2与n/p条评论记录相关联关键词3与评论不相关,那么,n /m+ n/p≥n。

  [0020] 传统的线性数据库结合新型非线性数据库进行统一存储,将上述分析的数据存储在mysql数据库中,并将mysql数据实时同步到redis数据库,以hash方式存储。

  [0021] 步骤S3,将虚拟评论数据导入到相关新闻中。步骤如下: 编辑准备好新闻文章后,设置新闻关键词,并设置关键词的权重,本程序可以根据默认的关键词排序设置。

  [0022] 编辑保存稿件,此时新闻后台系统会匹配稿件关键词与词库中设置的关键词的相似度。

  [0023] 匹配的具体过程。这里是一个相似因子系数f,可以手动设置。假设编辑手稿的关键词之一是X,虚拟字典的关键词Y是Y1,它们的匹配结果是Y1。关系为:Y1 = 0;(f=0)Y1 =X*f; (0

  [0024] 以上仅为本发明的优选实施例。应当理解,本发明不限于本文所公开的形式,不应视为对其他实施例的排除,而是可以用于其他各种组合、修改,并且可以通过上述教导来修改环境或在此处描述的概念范围内的相关领域的技术或知识。本领域技术人员所作的修改和变化,不脱离本发明的精神和范围,均应落入本发明所附权利要求的保护范围内。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线