与中国有关的舆论新闻数据库的数据清理方法研究
优采云 发布时间: 2020-08-06 21:11[摘要]: 学术界将2013年定义为大数据元年. 经过近几年的快速发展,大数据已在各个领域引起了深刻的变化,其影响力日益突出. 新闻领域的大数据变化尤其重要. 随着自动书写技术的发展和移动终端的普及,媒体发布的新闻数量猛增. 大量新闻的出现给国际舆论研究人员带来了新的挑战. 依靠手动处理的新闻稿采集和筛选过程不再能够应对如此*敏*感*词*的数据源. 国外媒体对中国相关民意的分析具有特殊意义. 它的研究结果极大地影响了信息时代新的政治和民意游戏的发展. 因此,我们必须紧跟技术发展趋势,改变传统思维观念,开创新型加工方式. 手段. 通过与中国相关民意研究者的访谈和交流,阐明了传统新闻报道的采集工作过程和要求,并整理了新闻媒体评价体系和新闻报道评价体系的基本逻辑框架. 相应地形成新闻文章. 数据清理方法的规则库主体. 此外,在研究过程中,我阅读了许多新闻学,对外传播和其他学科的文献,并根据新闻传播和对外交流的特点,有针对性地扩展和改进了数据清洗方法,形成了中国有关这项研究的舆论. 数据清理规则库. 然后,对规则库中的特定评分指标进行建模和评分,并通过确定评估级别和隶属度函数将定性描述转换为特定评分评分. 在构建中国相关新闻数据清洗规则数据库的基础上,结合大数据处理技术,从技术上实现了数据清洗规则. 实验首先对新闻文章进行了预处理,包括: 数据标准化,匹配和消除以及补充丢失的数据;然后,基于隐马尔可夫模型建立了一个交互式规则库. 在实验过程中,以商业新闻数据库为实验数据,对中国相关民意新闻的数据清理方法进行了测试. 测试结果表明,数据清洗方法的应用可以有效地减少数据处理的总量,消除无关的新闻噪音,并在关注领域和高研究价值的新闻报道领域专注于高水平,高影响力的新闻媒体. ,并着重于信息来源. 丢弃无效信息,消除信息噪音,并检查信息质量. 通过这种方式,优化了与中国有关的新闻文章的清理和采集过程,帮助舆论研究人员处理大量新闻数据,并提高了舆论产品整个生产过程的效率.