基于大数据技术的新闻采集与事件分析系统的设计与实现

优采云 发布时间: 2020-08-07 01:22

  157 2018年第10期接收日期: 2018-08-22 *资助项目: 由2​​018年北京信息科技大学的2018年人才培养质量改进基金(5111823402)支持. 作者简介: 马旭(1998-),男,河北衡水人,大学本科,研究方向: 数据采集,机器学习;王树立(1999-),女,山东济南,大学本科,研究方向: 大数据技术与数据科学. 0前言随着社会的飞速发展和现代技术的发展,互联网以迅猛的速度发展,影响着人们的生活和工作方式. 特别是近年来,移动互联网,大数据,云计算等新兴技术的出现及其迅猛发展导致人们在网络空间中的活动不断扩展,这也使得网络上的信息日益增多. 新闻报道通常具有多维特征,但是一条新闻可能仅收录一个或多个维度特征,因此通常不可能通过一条新闻更深入地了解事件. 在信息技术飞速发展的时代,网民数量持续增加,互联网信息呈指数增长,网络舆情表达方式多样. 新闻,微博,贴吧等是重要的信息传播渠道. 例如,阅读移动新闻客户端以推送新闻是网民获取第一手信息的最常见方式,而微博和贴吧等平台则为网民提供了一个充分表达自己的观点和分享观点的平台. 多个平台形成了互连的Internet信息网络. 在互联网信息传播中,同一事件在不同平台上具有不同的表现形式,同一参与者在不同平台上具有不同的虚拟身份和行为特征.

  因此,舆情信息可以快速跨平台传播,其传播机制更加复杂. 人工分析难以获得准确的信息,对相关企业和部门产生巨大影响. 随着人们对物质需求的逐渐满足,人们逐渐将注意力转向效率. 但是,由于互联网新闻的爆炸性增长和组织混乱,人们获取信息的效率大大降低. 传统新闻事件的处理是由工作人员手动确定新闻的主题,并将同一主题的新闻关联在一起,以供用户阅读,但是这种处理方法效率低下,并且占用大量的人工成本. 1平台简介针对上述问题,本文提出了一种基于大数据技术的新闻采集和时间分析系统. 该平台基于大数据技术,可以满足公众获取新闻的需求,提高用户访问信息的效率. 该平台具体包括采集数据,清洁数据,存储数据,分析数据和显示数据等功能. 通过该平台,用户可以获得与某个主题相关的信息或与事件相关的信息,从而无需用户手动识别新闻,并在一定程度上提高了获取信息的效率. 该平台可以在一定程度上解决传统问题. 在新闻业中,存在诸如杂项信息和低效率的缺点. 2系统设计过程整个平台分为三个部分,即数据采集,数据分析和数据显示. 数据获取的详细过程如下: 首先使用Python的bs4和request等库获取当天的新闻,同时处理所获取的数据,删除无用的标签,图片新闻和视频新闻等. ,获取普通文本信息方便后续处理;数据分析的详细过程如下: 使用Hadoop平台上的Map和Redece程序对每个新闻进行分段,分词工具是Python的jieba分词模块,并且在分词过程中删除了停用词以及其他具有无实际应用价值;然后分别计算每个单词的TF-IDF值,通过​​TF-IDF之间的相互计算,得到每个新闻的关键词,再通过经过训练的LDA主题模型,确定该新闻的主题,确定新闻的主题. 新闻,从而获得针对每个新闻在二维上扩展的向量;获取每个新闻的向量后,计算向量之间的距离,该距离大于设置的阈值. ,系统确定主题相同.

  基于大数据技术的新闻采集与事件分析系统的设计与实现*马旭,王树立(北京信息大学计算机学院,北京100101)摘要: 为了解决搜索速度慢的问题获取互联网新闻时的数据复杂性和阅读效率低的问题,本文提出了一种基于大数据技术的新闻采集和事件分析系统. 该系统首先采集互联网新闻数据,使用数据清理,分布式存储和其他技术将其存储在数据库中. 然后分析数据,使用机器学习和其他技术,然后获得主要新闻主题;然后汇总新闻以获得事件主题;最终,根据事件的主体,始终显示时间,实现了采集和分析互联网新闻的*敏*感*词*. 该系统提高了获取互联网新闻的效率,解决了数据混乱,阅读效率低的问题. 关键词: 大数据技术;数据采集​​;事件分析;新闻分析;系统设计中文图书馆分类号: TP311文件标识号: A物品号: 1007-9416(2018)10-0157-02设计和开发DOI: 10.19695 / 12 -1369.2018.10.80图1系统组成描述36 No.10 October 2018数字技术与应用卷36 2018年10月10日,万方数据158卷36数字技术与应用数据显示的详细过程如下: 用户在前端进行操作后,后端返回相应的数据,并在前端进行显示.

  新闻采集和事件分析系统的流程如图1所示. 前端交互界面的流程如图2所示. 3平台实施计划3.1数据采集平台在清晨自动运行数据爬行程序. 每天清理新闻标题,正文,来源,发布时间和作者信息,并将数据存储在数据库中. 3.2新闻源统计信息位于前端,系统默认显示界面为新闻源统计信息界面. 打开接口后,前端将向后端发送请求. 后端获得请求后,它将从数据库中获取所有数据,获取其源字段并对其进行计数. 统计信息完成后,数据将打包为json格式并返回到前端. 前端通过Echarts框架解析数据并生成漂亮的图表,用户可以看到效果. 3.3智能搜索位于前端,系统的第二个界面是智能搜索界面. 用户将要搜索的新闻主题填充到搜索框中. 用户单击按钮后,前端发送新闻主题,即基于大数据技术的新闻采集和事件分析系统的设计与实现马旭,王树一(北京信息技术大学计算机学院,朝阳区,北京100101)摘要: 为解决互联网新闻获取过程中搜索速度慢,数据杂乱,阅读效率低的问题,提出了一种基于大数据技术的新闻采集与事件分析系统. 该系统首先使用数据清理和分布式存储技术采集Internet新闻数据并将其存储在数据库中. 然后对数据进行分析,并使用机器学习技术获得新闻的主题. 然后汇总新闻以获取事件主题;最后,它始终根据事件的主题进行展示. 它实现了采集和分析互联网新闻的*敏*感*词*. 该系统提高了获取互联网新闻的效率,解决了数据混乱,阅读效率低的问题. 数据采集​​;事件分析;新闻分析;系统设计被发送到后端. 后端接收到数据后,通过预先训练的模型计算数据,并用关键词距离相似的多个新闻之间的距离进行计算,然后根据该距离将数据分类为json格式并返回到前端.

  前端接收到数据后,根据距离以列表形式显示数据. 3.4事件显示在前端,系统的第三个界面是智能搜索界面. 每个抓取工具完成工作后,系统将对获取的数据进行分段并将其导入模型进行计算,然后分别计算每两个新闻之间的距离,然后计算该距离,并形成距离小于阈. 此距离需要多次计算才能得出结果. 该集群是一个新闻事件. 整个程序的计算完成后,将获得许多数据簇,并且还将获得许多此类事件. 然后索引与这些事件相对应的新闻. 在获得之前建立的索引之后,前端将根据索引给出的事件和新闻以列表的形式显示数据. 3.5新闻显示在前端,系统的第四个界面是智能搜索界面. 用户进入该界面后,前端向后端申请数据. 后端收到请求后,将根据页数返回数据库中的所有数据. 前端接收到数据后,将对数据进行解析并将其显示在列表中. 4结束语本文通过对基于大数据的新闻采集与事件分析系统的研究,提出了一种方便,省时的新闻处理方案. 与传统的新闻处理方法相比,本文提出的基于大数据技术的新闻采集与事件分析系统的设计方法可以大大节省新闻处理时间,并在一定程度上可以为用户节省时间. 获取信息并提高用户获取信息的效率.

  使用机器学习和大数据相关技术可以确保信息处理的准确性. 通过前端和后端,数据库和数据处理的分离,在一定程度上保证了数据传输的稳定性和安全性. 系统基本实现了实验环境中所示的功能. 上面提到的新闻采集和事件分析的基本过程可以由Apple计算机完成以实现预期的功能. 参考文献[1]于国明. 大数据方法与新闻传播创新: 从理论定义到运作路径[J]. 江淮论坛,2014,(04): 5-7 + 2. [2]张建林. 智能新闻采集与处理系统的设计与实现[D] . 山东大学,2017. [3]王波,刘胜波,昆定,刘泽元. 基于LDA主题模型的专利含量分析方法[J]. 科研管理,2015,36(03): 111-117. 图2万方数据前端交互流程图

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线