门户网站数据对接-解决案例

优采云 发布时间: 2020-08-23 15:10

  门户网站数据对接-解决案例

  第一部分:项目需求

  

  第二部份:项目剖析

  根据我们对项目需求进行剖析,建议此系统应起码收录以下三个重要的模块。

  模块一:数据采集模块

  模块二:数据处理模块

  模块三:数据发布模块

  

  图一:处理流程

  

  采用警犬网路采集系统+军犬信息发布服务器结合来实现

  第三部份:数据采集

  1、数据采集的重要性:

  将按标准数据库结构,完成对目标数据进行采集、提取、自动更新等重要工作。采集后的数据将储存到指定的数据库,供网站的CMS系统的其它模板进行调用。数据的全面性、准确性、实时性、完整性、安全性、交互性将对本系统形成决定性作用。

  

  图二:互联网采集系统流程图

  第一步:确定采集任务。

  第二步:每个采集任务,我们有多个目标数据源可供采集。

  第三步:针对不同的目标数据源,进行不同的采集配置,以确保能采集到数据。

  第四步:调度采集任务,与目标站点同步更新,增量采集。

  第五步:采集到数据结果,完成数据异构到同构的过程。

  2、在成熟软件的基础上进行订制开发

  将在我公司自主研制的《军犬互联网采集系统 V5.0》(以下简称采集软件)的基础上进行订制开发《军犬互联网采集系统—马鞍山资讯特别版》,来完成数据采集的的任务。关于此软件的说明详见《军犬互联网采集系统—马鞍山资讯特别版用户手册》

  

  图三:确保采集任务

  第四部份:重点问题解决

  

  1、栏目对应:手动将须要采集平台的栏目对本地的栏目对应,使得数据采集时数据手动划入对应的栏目。

  在警犬采集系统中,将软件界面的左下部份的树状目录称之为“频道”,大家可以理解为“分类”,也理解为“栏目”,甚至理解为“文件夹”都是可以的,它与我们使用的资源管理器中的“文件夹”特别相像,具有无限级分类的功能。

  最重要的是便捷对配置的采集规则的管理,以及对采集后的数据进行管理时,更符合您的阅读习惯等。

  

  

  频道可以按数形目录无限细分,每个频道下边可以储存多个采集源。

  2、根据不同网站的不同栏目的数据更新状况设置手动测量时间,以及时有效地更新新闻标题。

  

  频道手动更新

  单个采集站点手动更新

  3、在第一次数据采集时,只获取标题、发布时间、来自哪。

  4、数据去重:根据标题去重,保留发布时间最早的数据。

  5、由编辑确定要采集的文章,勾选的文章才采集文章正文部份。

  6、保留数据采集日志:对于早已采集过的数据,则跳过不再采集,实现数据的增量抽取,提高数据采集效率。

  7、抓取所有内容入库,有相应的详尽界面进行查询,修改,整理。

  (1)、采集系统目前支持各类主流的结构化数据库,如sql server、mysql、Oracle等。

  (2)、采集系统目前支持通过ODBC与各类数据库相联接,这样,可以联接与采集系统在同一台机器上的数据库,也可以联接在同一局域网内的其它机器上的数据库,甚至可以联接到网段上的数据库。

  (3)、采集系统支持对所采集的内容进行查询、监控和管理

  

  

  对信息进行可视化编辑

  8、采集后的数据由编辑进行初审,再用《军犬信息发布服务器V5.0》进行发布,同时对文章的发布状态,改为已发布。

  

  发布服务器主界面

  

  发布服务器内嵌FTP,可对附件进行同步分发

  

  采集端登陆发布服务器后,便可以实现发布

  

  上图:自动发布的发布选项设置

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线