Web端新闻手动采集系统的设计与实现

优采云 发布时间: 2020-08-04 02:03

  Web 端新闻手动采集系统的设计与实现在互联网高速发展的时代网站自动采集发布系统,网络媒体以其速率快、传播范围广的特性成为人 们了解外界的新窗口。然而为达到向用户传递最新消息及行业大事件的目的,网 络编辑常常会值早班、晚班。但因为新闻的强时效性与工作时间限制及个人精力 的冲突,遗漏重大新闻的现象在所难免,一旦发生,便让媒体丧失了引流的机会, 长此以往,甚至会消弱媒体的公信力。此外,本文发觉,虽然市面上已有相关采集产品,但使用疗效差强人意。大多 存在多条新闻重复、对网页解析不彻底、新闻频道分类缺少精准度等问题。基于 此,本文开发适宜垂直型媒体的新闻手动采集系统。Web 端新闻手动采集系统的核心是采集策略的设定及对已采集文本的后续 处理。结合用户需求,本系统将提供新闻手动采集、去重、分类等功能。本文主 要研究内容为:(1)对新闻手动采集系统的核心技术在*敏*感*词*的应用及研究现况 进行了剖析,并对网路爬虫分类与爬行策略进行了介绍网站自动采集发布系统,论述了文本分类的特性、 分词技术、特征选择与特点抽取的方式;(2)对 Web 端新闻手动采集系统的需求进 行了剖析,包括功能需求和性能需求,论述了设计目标与原则,并在此基础上设计 了系统的总体构架及各功能模块;(3)详细设计并实现了新闻手动采集系统的新 闻采集模块和文本处理模块,并对系统的应用层进行了详尽设计和实现,对手动 采集系统的布署环境进行了设计;(4)对系统布署环境进行了描述,测试并展示了 新闻手动采集系统的采集、去重、分类等多项功能,测试了新闻手动采集系统的 运转时间、采集网站支持数目等性能。论文结合新闻采编工作的实际情况,在互联网中发觉并获取网站垂直行业实 时新闻,对抓取的页面进行去重、降噪等预处理工作后存入新闻库提供经人工初审后发布等功能,帮助新闻网站及时发布重要消息,进一步增强了网站公信力,达 到了获取流量的目的。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线