自动采集子系统(一个网络舆情预警系统参考材料的思考与思考(一))

优采云 发布时间: 2021-08-29 17:09

  自动采集子系统(一个网络舆情预警系统参考材料的思考与思考(一))

  〇,写在前面(2016-05-29 更新)

  看时间,现在正好是两年前,我完成了这个毕业设计。本摘要摘自论文摘要。说的很简洁,但是没有提到当时有各种尝试来分析这个话题。

  这个话题始于好奇,对数据来源​​的好奇,对所谓的机器学习和自然语言处理算法的好奇。多亏了这种好奇心,在没有现成的参考资料的情况下,我真的可以说“跪下”去体会这个庞大而空洞的主题。

  数据源部分需要关注URL获取、网页分析、数据存储;分析时需要注意分词、降噪等;而最后的舆情分析,除了考虑技术算法的选择,更重要的是厘清什么是舆情。而这些,从学习、设计到实现,只用了不到四个月的时间。

  当然,时间紧的时候也有短期的对策。网上类似的系统虽然不对外开放,但其实每个部分都有大量的开源代码可供参考。在参考实现的过程中,我边使用边学习了Python、R语言和非关系型数据库MongoDB。这两天为了让Orz显得不那么水汪汪,用PyQt写了一个软件界面。

  总之,这个题目最大的提升恐怕就是问题分析能力、信息搜索能力和整合能力了,哈哈。

  所以回过头来看,有了一定的工程能力之后,重点应该是学会进一步思考。一方面考虑数据算法,另一方面考虑现实世界的数据建模。记录下来作为以后学习的方向。

  附上github链接。目前,由于微博信息获取模块未更新,无法正常获取信息。仅供参考……回头看当时的代码,真的很乱……

  一、概览

  本文设计并实现了一个在线舆情预警系统。该系统的主要功能是:对指定时间和区域的多条用户微博进行文本挖掘,通过数据可视化,直观展示潜在的舆情热点。

  微博信息采集阶段,借助相关网络爬虫素材,结合Python的BeautifulSoup库,完善新浪微博网页版分析,系统自定义采集规则。同时,使用非关系型数据库MongoDB存储用户信息和微博信息,为以后更深入的研究奠定了良好的数据基础。

  在信息分类阶段,本研究结合自然语言处理和机器学习相关理论,使用基于前向最大匹配的mmseg4j中文分词对文本进行分词,使用支持向量机算法对文本进行处理,并人工标注一定的在大量文本的基础上,更好地实现了文本的半监督学习,过滤掉了大部分无意义的文本。

  在文本信息分析和预警阶段,本研究优化了基本的分词步骤,即使用正则表达式提取新浪微博标签内容并实时添加到分词词典中,促进基于短语的文本分析。同时,结合R语言在统计和图形方面的优势,编写R代码使用层次聚类算法对过滤后的文本进行聚类,最后通过调用wordcloud库,以“词云”各种事件和热度。

  二、舆论预警系统方案设计

  (1)系统结构设计

  ①系统总体结构设计

  由于本系统集成了舆情发现-处理-分析三个阶段,所以抽象为三个子系统,分别是information采集子系统、信息分类子系统、聚类舆情可视化子系统。其中信息采集子系统负责用户自定义的受限信息采集微博文本内容,信息分类子系统通过提前学习构建文本分类器,然后将分类模型应用到系统采集subsystem采集给资料,包括训练模块、预测模块、评估模块。聚类舆情可视化子系统进一步对过滤后的文本进行预处理,通过层次聚类结合注意力评分,以“词云”的形式展示当前舆情热点。

  详见图2.1,箭头方向为基本数据流向。

  

  图2.1系统整体结构

  ②微博资讯采集子系统架构设计

  

  图2.2微博信息采集子系统架构

  图2.2是微博信息采集子系统的体系结构。模拟用户登录新浪微博后,采集工作正式启动。首先解析初始用户的“关注”和“粉丝”列表,将符合自定义规则的用户的uid(新浪微博用户唯一标识)存入队列;然后会解析用户的微博内容,分析符合自定义规则的微博。将其保存在数据库中;当前用户解析完成后,下一个用户会从“微博用户队列”的头部取出,循环执行上述步骤。

  ③信息分类子系统的设计

  在实际应用中,信息分类分为两部分。一种是手动标注训练样本,构建满足需求的SVM模型(见图2.3);另一种是利用训练好的分类模型,对输入样本进行比较进行预测。

  

  图2.3 训练模块架构

  ④聚类舆情可视化子系统设计

  聚类舆情可视化子系统的系统结构如图2.4所示。

  

  图2.4 聚类舆情可视化子系统架构

  (2)系统流程设计

  在对整体的设计和各个子系统的系统结构进行分项描述之后,结合用户操作界面的设计,现在结合系统使用过程的概述。整个系统流程如2.5 所示。实线连接部分是系统最基本的进程,虚线部分是系统的后台运行进程。 “可选显示模块”的内容可以通过界面按钮来控制,决定是否在界面上显示。

  

  图2.5 整体系统流程

  三、舆情预警系统实施与测试

  该系统由三个子系统组成。实现界面如图3.1所示。其中,微博信息采集模块是基于开源爬虫框架Cola实现的。 采集规则改进后可以自定义。自定义模块如图左上部分所示。同时采集日志可以通过“左下角微博采集”完成采集进程停止后,可以在右上角显示采集的文字图,并调用信息分类子系统对采集文本进行分类。最终的分类结果如图右下方所示。

  

  图3.1 舆情预警系统实现界面

  此时点击上图中的“舆情聚类分析”按钮,生成预警词云,如图3.2。

  

  图3.2聚类舆情词云效果图

  词云图中的外圈标签是类别号,每个类别的词以相同的色调显示。从图中可以直观地发现,在测试期间,从我的微博开始,江苏周边南京地区的用户,讨论最多的类别是第一类别,突出的特征词是“周年”和“南游知之”。 《声响30年》等;虽然潜在事件以“端午节快乐”为代表,但总体类别事件过于稀疏。

  四、结论

  本文系统地提出了一种在线舆情预警系统的设计与实现,可以根据用户自定义信息采集规则获取合格的新浪微博数据,完成对无意义微博文本的过滤。最终,不同类别的事件以“词云”的形式呈现给用户。

  从系统测试结果来看,该系统基本可以满足个人用户了解身边潜在舆论的需求,但系统各方面还有很大的提升空间。比如微博信息采集子系统,未来可以通过分布式和多账户操作,提高采集的效率;需要对微博内容的含义有更清晰的定义,选择具有鲜明特征的微博作为训练样本,以提高信息分类子系统的过滤效果;现有舆情信息应进一步结合舆情特征分析。

  除了在技术上完善舆情预警系统,从道德伦理的角度深化对网络环境的思考也具有现实意义。当前用户隐私与各方网络监控的矛盾日趋严重。如何处理这样的矛盾,不仅是本课题需要探索的问题,也是每个科技人员需要思考的问题。

  参考资料

  [1] 新浪微博数据中心。 2011年媒体微博研究报告[EB/OL]。 (2012-03-21).

  [2] 新浪微博数据中心。 2013年新浪媒体微博报道[EB/OL].[2014-06-1].

  [3] 陈鑫。基于行块分布函数的通用网页文本提取[R].哈尔滨工业大学社会计算与信息检索研究中心。

  [4]MicheleBanko、MichaelJCafarella、StephenSoderland、MattBroadhead 和 OrenEtzioni.OpenInformationExtractionfortheWeb[D].Washington:UniversityofWashington,2009.

  [5] 翁宇。互联网话题中的网络文本挖掘技术[M].北京:中央民族大学出版社,2012.142.

  [6]童薇,陈薇,孟晓峰。 EDM:高效微博事件检测算法[J].JournalofFrontiersofComputerScienceandTechnology,2012,6(12):1076-1086.

  [7]CerenBudak,TheodoreGeorgiou,DivyakantAgrawal,AmrEIAbbadi.GeoScope:OnlineDetectionofGeoCorrelated[J].ProceedingsoftheVLDBEndowment,Vol.7,No.4.InformationTrendsinSocialNetworks, CerenBudak

  [8] 丁聚玲,乐仲建.一种基于意见树的网络舆情危机预*敏*感*词*法[J].计算机应用研究, 2011, 28 (9): 3501-3504.

  [9] 李云涛,柳岩,柳毅。网络舆情灰色预警评价研究[J].信息杂志, 2011, 30 (4):24-27.

  [10]许昕,张兰兰。基于信号分析的突发事件网络舆情预警研究[J].智力理论与实践, 2010, 33 (12): 97-100.

  [11] 李碧城,王进,林晨。基于直觉模糊推理的网络舆情预*敏*感*词*法[J].计算机应用研究, 2010, 27 (9):3312-3315.

  [12]EIRINAKIM,VAZIRGIANNISM.Webminingforwebpersonalization[J].ACMTransactionsonInternetTechnology,2003,3(1):12-13.

  [13]MARTENSD,BRUYNSEELSL,BAESENSB,etal.Predictinggoingconcernopinionwithdatamining[J].DecisionSupportSystems,2008,45(4):765-777.

  [14]ManojKAgarwal,KrithiRamamritham,ManishBhide.RealTimeDiscoveryofDenseClustersinHighlyDynamicGraphs:IdentifyingRealWorldEventsinHighlyDynamicEnvironments[J].ProceedingsoftheVLDBEndowment,Vol.5,No.10

  [15]LeonardRichardson.BeautifulSoup4.2.0documentation[EB/OL].(2013-05-15).

  [16]梁南元.书面汉语自动分词及另一种自动分词系统CDWS[C].汉字信息处理系统学术会议,1983(1):12-13

  [17] 侯婉友.群体性突发事件微博舆情演变分析[D].哈尔滨:哈尔滨工业大学,2013.

  [18]林轩田.APracticalGuidetoSupportVectorClassication[EB/OL].(2010-04-15).~cjlin/papers/guide/guide.pdf

  [19]张智霖.Tmsvm参考文档(v1.1.0)[EB/OL].(2012-03-09).%E5%8F%82%E8%80% 83 %E6%96%87%E6%A1%A3%28v1.1.0%29.rar&can=2&q=

  [20]秦旭业.Cola:分布式爬虫框架[EB/OL].(2013-09-21).

  [21]孙健.Rwordseg_Vignette_CN[EB/OL].(2013-12-15).

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线