门户网站数据对接-解决案例
优采云 发布时间: 2020-08-23 15:10门户网站数据对接-解决案例
第一部分:项目需求
第二部份:项目剖析
根据我们对项目需求进行剖析,建议此系统应起码收录以下三个重要的模块。
模块一:数据采集模块
模块二:数据处理模块
模块三:数据发布模块
图一:处理流程
采用警犬网路采集系统+军犬信息发布服务器结合来实现
第三部份:数据采集
1、数据采集的重要性:
将按标准数据库结构,完成对目标数据进行采集、提取、自动更新等重要工作。采集后的数据将储存到指定的数据库,供网站的CMS系统的其它模板进行调用。数据的全面性、准确性、实时性、完整性、安全性、交互性将对本系统形成决定性作用。
图二:互联网采集系统流程图
第一步:确定采集任务。
第二步:每个采集任务,我们有多个目标数据源可供采集。
第三步:针对不同的目标数据源,进行不同的采集配置,以确保能采集到数据。
第四步:调度采集任务,与目标站点同步更新,增量采集。
第五步:采集到数据结果,完成数据异构到同构的过程。
2、在成熟软件的基础上进行订制开发
将在我公司自主研制的《军犬互联网采集系统 V5.0》(以下简称采集软件)的基础上进行订制开发《军犬互联网采集系统—马鞍山资讯特别版》,来完成数据采集的的任务。关于此软件的说明详见《军犬互联网采集系统—马鞍山资讯特别版用户手册》
图三:确保采集任务
第四部份:重点问题解决
1、栏目对应:手动将须要采集平台的栏目对本地的栏目对应,使得数据采集时数据手动划入对应的栏目。
在警犬采集系统中,将软件界面的左下部份的树状目录称之为“频道”,大家可以理解为“分类”,也理解为“栏目”,甚至理解为“文件夹”都是可以的,它与我们使用的资源管理器中的“文件夹”特别相像,具有无限级分类的功能。
最重要的是便捷对配置的采集规则的管理,以及对采集后的数据进行管理时,更符合您的阅读习惯等。
频道可以按数形目录无限细分,每个频道下边可以储存多个采集源。
2、根据不同网站的不同栏目的数据更新状况设置手动测量时间,以及时有效地更新新闻标题。
频道手动更新
单个采集站点手动更新
3、在第一次数据采集时,只获取标题、发布时间、来自哪。
4、数据去重:根据标题去重,保留发布时间最早的数据。
5、由编辑确定要采集的文章,勾选的文章才采集文章正文部份。
6、保留数据采集日志:对于早已采集过的数据,则跳过不再采集,实现数据的增量抽取,提高数据采集效率。
7、抓取所有内容入库,有相应的详尽界面进行查询,修改,整理。
(1)、采集系统目前支持各类主流的结构化数据库,如sql server、mysql、Oracle等。
(2)、采集系统目前支持通过ODBC与各类数据库相联接,这样,可以联接与采集系统在同一台机器上的数据库,也可以联接在同一局域网内的其它机器上的数据库,甚至可以联接到网段上的数据库。
(3)、采集系统支持对所采集的内容进行查询、监控和管理
对信息进行可视化编辑
8、采集后的数据由编辑进行初审,再用《军犬信息发布服务器V5.0》进行发布,同时对文章的发布状态,改为已发布。
发布服务器主界面
发布服务器内嵌FTP,可对附件进行同步分发
采集端登陆发布服务器后,便可以实现发布
上图:自动发布的发布选项设置