关键词自动采集生成内容系统(网络舆情监控系统对热点事件的预警提供数据摘要)

优采云 发布时间: 2021-11-18 07:05

  关键词自动采集生成内容系统(网络舆情监控系统对热点事件的预警提供数据摘要)

  张伟嘉从帅崔伟

  摘要:本文通过分析舆情信息的采集策略,提出了一种智能的关键词跟踪模型。通过应用关键词智能跟踪模型,网络舆情监测系统可以及时捕捉到热点事件的热点关键词,从而实现网络舆情监测系统的灵敏响应对热点事件的发展趋势,为网络舆情热点事件的预警提供数据支持。简单来说,关键词智能跟踪模型是基于一定的关键词加权算法。根据舆情事件的变化速度,通过多次重复归纳计算,对之前选择的关键词进行修改的过程,

  关键词:互联网舆情监测;关键词; 智能追踪

  中文图书馆分类号:TP393.09

  1 舆论采集与分析

  1.1 信息采集

  根据互联网热点的分布特点,在进行信息采集时,系统会为时效性强的主流媒体网站进行信息采集。信息源可靠性高、实时性强、信息量小、分析处理速度快、热点分析速度快、准确率高、预警及时。合理利用主流媒体网站的搜索引擎,进行话题信息采集。由于这些网站的分词技术参差不齐,为了保证采集信息的准确性和实时性,采用了二次搜索方案。在基于主题的信息采集之前,将主题分割为采集,

  1.2 信息预处理

  网页中除了系统需要的舆情信息外,还收录很多其他信息,如:Flash、视频、图片、广告、冗余链接等。过滤掉垃圾邮件后,还需要对同一话题的舆情信息进行合并,即去除重复。并根据系统规范统一存储舆情,作为下一步数据分析挖掘的基础。信息预处理的主要包包括:主题关键词提取、正文关键信息提取、自动摘要、超链接分析、URL去重、垃圾邮件过滤等。

  1.3 舆情分析

  (1)舆情自动分类。舆情信息自动分类也是文本分类。是让计算机自动识别舆情信息内容,在指定的分类模型下对舆情进行分类的过程。舆情自动分类首先设置类别关键词,为每个关键词设置相应的权重,对采集收到的舆情信息进行最基本的分析扫描。标题和内容分开,进行统计分析@关键词出现次数,最后根据类别关键词模型计算每个关键词的权重,如果权重超过一定的分数,它会自动归入相应的类别。

  (2)舆情相似度排名。根据舆情信息主要内容的相似度来判断是否重要,比其他方法更实用、准确。舆情关键词比较计算公式为分词技术,绘制舆情相似度,设置较高的相似度阈值,超过阈值则确认重要,不做任何进一步操作与原主题合并,合并后人工重新确认添加链接以确保连任万无一失。

  (3) 趋势分析技术。趋势分析是利用程序根据舆情关键词提取信息发布意图。首先根据中文的特点建立语义数据库。然后包括舆情信息中的特征关键词对比语义数据库进行语义分析,最终根据结果判断舆情事件的趋势,趋势分析可以明确发布者想要表达的观点和立场.

  2 舆情提取关键词

  2.1个单文档关键词提取

  在提取关键词之前,先对文档进行分词处理,然后利用停止词表和过滤规则对分词结果进行过滤。停用词表包括助词、介词、连词等虚词,没有词长为1的词。词的实际意义。对于明显的无用词,如数字和量词、无意义的前后缀,可以设计相应的过滤功能来过滤无用词。然后计算过滤后的分词结果的权重,得到每个词的权重。

  2.2 关键词 权重计算

  文本关键词提取多采用权向量生成方法,最常用的是TFIDF算法。TFIDF的主要思想是,如果一个词或词组出现在TF较高的文章中,而如果在其他文章中很少出现,则认为该词或词组具有良好的分类能力(IDF值大),适合分类。但是,除了TF和IDF之外,每个词还有词性和词在文档中的位置信息等有效信息。

  2.文档集中的3个热点关键词提取

  文档集关键词的热点应该是部分文档的关键词,所以从所有文档的关键词集合中建立候选关键词集,并进行特征提取执行获取文档集关键词。如果一个关键词出现的次数越多,说明它的热关注度越高;IDF值越大,词的区分能力越强,越符合话题的特点。

  3 智能追踪关键词

  3.1 主题聚类

  考虑到不同网站热点的权威性、影响力和时效性,采集到达的话题来源权重为第一要素,发表时间为第二要素,重量和时间使用降序排序。

  首先,默认情况下,一个关键词代表一个热门话题,然后将这些热门话题聚类。取关键词集合中的第一个关键词作为第一条热点话题线索,用关键词找文章关键词进行聚类,找到第一个A文档默认将其视为热门话题,然后将剩余的页面文本进行聚类,并使用角余弦计算该话题与现有热门话题的相似度。如果相似度超过阈值P,则将当前主题合并到现有主题中;如果相似度小于阈值P,则将当前主题视为新的热门话题。然后将剩余的页面与 关键词 集中的第二个 关键词 聚类。

  3.2 智能跟踪模型

  参考:

  [1] 李恒勋,张华平,秦鹏.基于话题的互联网热点话题发现[C].第五届全国信息检索学术会议论文集, 北京, 2009: 134-143.

  [2]张守华,刘振鹏.网络舆情热点话题聚类方法研究[J]. 小型微机系统, 2013 (3): 18-19.

  作者简介:张维嘉(1982-),女,硕士,讲师,研究方向:计算机技术。

  作者单位:河北大学,河北保定 071000

  电脑光盘软件及应用 2013-23

  电脑光驱软件及其他应用文章

  基于SOA架构的省级数字化城市管理平台研究

  云计算背景下云存储的优缺点分析

  新的云计算网络技术

  智能车跟踪记忆算法设计

  智能交通系统最短路径算法优化研究

  浅谈电子元器件在计算机行业产品绿色化中的应用

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线