关键词自动采集生成内容系统(网络舆情监控系统对热点事件的预警提供数据摘要)
优采云 发布时间: 2021-11-21 12:14关键词自动采集生成内容系统(网络舆情监控系统对热点事件的预警提供数据摘要)
张伟嘉从帅崔伟
摘要:本文通过分析舆情信息的采集策略,提出了一种智能的关键词跟踪模型。通过应用关键词智能跟踪模型,网络舆情监测系统可以及时捕捉到热点事件的热点关键词,从而实现网络舆情监测系统的灵敏响应对热点事件的发展趋势,为网络舆情热点事件的预警提供数据支持。简单来说,关键词智能跟踪模型是基于一定的关键词加权算法。根据舆情事件的变化速度,通过多次重复归纳计算,对之前选择的关键词进行修改的过程,
关键词:互联网舆情监测;关键词; 智能追踪
中文图书馆分类号:TP393.09
1 舆论采集与分析
1.1 信息采集
根据互联网热点的分布特点,在进行信息采集时,系统为主流媒体网站进行信息采集,时效性强,信息来源高度可靠、真实-时间,信息采集 @采集量小,分析处理速度快,热点分析速度快,准确率高,及时预警。合理利用主流媒体网站的搜索引擎,进行话题信息采集。由于这些网站的分词技术参差不齐,为了保证采集信息的准确性和实时性,采用了二次搜索方案。在基于主题的信息采集之前,将主题分割为采集,
1.2 信息预处理
网页中除了系统需要的舆情信息外,还收录很多其他信息,如:Flash、视频、图片、广告、冗余链接等。过滤掉垃圾邮件后,还需要对同一话题的舆情信息进行合并,即去除重复。并根据系统规范统一存储舆情,作为下一步数据分析挖掘的基础。信息预处理的主要包包括:主题关键词提取、正文关键信息提取、自动摘要、超链接分析、URL去重、垃圾邮件过滤等。
1.3 舆情分析
(1)舆情自动分类。舆情信息自动分类也是文本分类。是让计算机自动识别舆情信息内容,在指定的分类模型下对舆情进行分类的过程。舆情自动分类首先设置类别关键词,为每个关键词设置相应的权重,对采集收到的舆情信息进行最基本的分析扫描。标题和内容分开,进行统计分析@关键词出现次数,最后根据类别关键词模型计算每个关键词的权重,如果权重超过一定的分数,它会自动归入相应的类别。
(2)舆情相似度排名。根据舆情信息主要内容的相似度来判断是否重要,比其他方法更实用、准确。舆情关键词通过word进行比较计算切分技术,绘制舆情相似度,设置较高的相似度阈值,超过阈值则确认重要,不做进一步操作与原主题合并,合并后手动重新确认链接是为了确保连任万无一失。
(3) 趋势分析技术。趋势分析就是利用程序根据舆情关键词提取信息发布意图。首先,根据中文的特点,建立语义数据库。然后将舆情信息中的特征收录关键词与语义数据库进行语义分析,最终根据结果判断舆情事件的趋势,趋势分析可以明确发布者想要表达的观点和立场表达。
2 舆情提取关键词
2.1个单文档关键词提取
在提取关键词之前,先对文档进行分词处理,然后使用停用词表和过滤规则对分词结果进行过滤。停用词表包括助词、介词、连词等虚词,没有长度为1的词。词的实际意义。对于明显的无用词,如数字和量词、无意义的前后缀,可以设计相应的过滤功能来过滤无用词。然后计算过滤后的分词结果的权重,得到每个词的权重。
2.2 关键词 权重计算
文本关键词提取多采用权向量生成方法,最常用的是TFIDF算法。TFIDF的主要思想是,如果一个词或词组出现在一个TF频率很高的文章中,而如果在其他文章中很少出现,则认为这个词或词组具有良好的分类能力(IDF值大),适合分类。但是,除了TF和IDF之外,每个词还有词性和词在文档中的位置信息等有效信息。
2.文档集中的3个热点关键词提取
文档集关键词的热点应该是部分文档的关键词,所以从所有文档的关键词集合中建立候选关键词集,并进行特征提取执行获取文档集关键词。如果一个关键词出现的次数越多,说明它的热关注度越高;IDF值越大,词的区分能力越强,越符合话题的特点。
3 智能追踪关键词
3.1 主题聚类
考虑到不同网站热点的权威性、影响力和时效性,对于采集到达的话题,来源权重为第一要素,发表时间为第二要素,并且权重和时间采用降序排序。
首先默认一个关键词代表一个热门话题,然后对这些热门话题进行聚类。取关键词集合中的第一个关键词作为第一条热点话题线索,用关键词寻找文章关键词进行聚类,找到第一条热点话题默认将一个文档视为热门话题,然后将其余的页面文本进行聚类,并使用角度余弦计算该话题与现有热门话题的相似度。如果相似度超过阈值P,则将当前主题合并到现有主题中;如果相似度小于阈值P,则将当前主题视为新的热门话题。然后将剩余的页面与 关键词 集中的第二个 关键词 聚类。
3.2 智能跟踪模型
参考:
[1] 李恒勋,张华平,秦鹏.基于主题词的互联网热点话题发现[C].第五届全国信息检索学术会议论文集, 北京, 2009: 134-143.
[2]张守华,刘振鹏.网络舆情热点话题聚类方法研究[J]. 小型微机系统, 2013 (3): 18-19.
作者简介:张维嘉(1982-),女,硕士,讲师,研究方向:计算机技术。
作者单位:河北大学,河北保定 071000
电脑光盘软件及应用 2013-23
电脑光驱软件及其他应用文章
基于SOA架构的省级数字化城市管理平台研究
云计算背景下云存储的优缺点分析
新的云计算网络技术
智能车跟踪记忆算法设计
智能交通系统最短路径算法优化研究
浅谈电子元器件在计算机行业产品绿色化中的应用