互联网:在互联网高速发展的时代,速度快、传播范围广
优采云 发布时间: 2021-08-12 07:16互联网:在互联网高速发展的时代,速度快、传播范围广
[摘要]:在互联网飞速发展的时代,网络媒体以其速度快、传播面广,成为人们了解外部世界的新窗口。但是,为了达到向用户传递最新新闻和重大行业事件的目的,网络编辑往往早晚班。但由于新闻时效性强、工作时间紧迫、个人精力冲突,重大新闻的遗漏在所难免。一旦发生,媒体将失去吸引流量的机会。如果发生这种情况,甚至会削弱媒体的公信力。另外,本文发现虽然市面上有相关的采集产品,但效果并不理想。大多存在多条新闻重复、网页分析不完整、新闻频道分类不准确等问题。基于此,本文开发了一个适用于垂直媒体的新闻自动采集系统。网页端新闻自动采集系统的核心是采集策略的设置和采集文本的后续处理。结合用户需求,本系统将提供新闻自动采集、去重、分类等功能。本文主要研究内容为:(1)对新闻Auto采集系统核心技术*敏*感*词*应用研究现状分析,介绍网络爬虫的分类和爬取策略,并讨论了文本分类的特点、分词技术、特征选择和特征提取方法;(2)分析了Web端新闻自动采集系统的需求,包括功能要求和性能要求,讨论了设计目标和原则,并在此基础上设计了系统的整体架构和各个功能模块;(3)新闻自动采集系统的新闻采集模块和文本处理模块的详细设计和实现,以及详细设计和实现系统应用层的实现,设计了自动化采集系统的部署环境;(4)描述了系统部署环境,经过测试和demo构建了新闻自动采集系统采集、去重、分类等功能,测试新闻自动采集系统运行时间、采集网站支持数等性能。论文结合新闻采编工作的实际情况,在互联网上查找并获取网站垂直行业实时新闻,并对抓取的页面进行去重、降噪等预处理工作后,存储在新闻库提供人工审核后发布等功能,帮助news网站及时发布重要新闻,进一步提升网站公信力,达到获取流量的目的。