08CMS v3.4 版本采集系统使用教程
优采云 发布时间: 2020-08-17 11:3408CMS v3.4 版本采集系统使用教程
第三步、编辑采集模型
请看图解:
图一、编辑模型
图二、
模型编辑界面
到这儿,采集模型的添加完成了
下面开始添加采集任务
第四步、采集任务的添加
下面是采集任务界面图解,请仔细阅读图中注释
第六步、重头戏开始了,采集规则的设置
首先剖析采集目标页的代码结构,这里以IE浏览器为例
查看采集目标页,点击IE的
页面 ---- 查看源文件
很简单能够看见目标页面的代码结构
采集页面的代码剖析,主要是找采集目标的特点
页面很大这儿不好拿上来解析,上图解释网址采集界面相关规则的设置
点击递交保存这儿的设置
我很奇怪为何不直接跳到下一步内容采集而是递交以后回到这个页面
在这个截图页面的下边还有一部分,称之为溯源网址规则
这个不是非必填项,一般不用
而且这个只能得到一个网址,而不是网址列表,个人觉得有点鸡肋,附上官方的解释
追溯网址:内容网址的一种延展。有部份被采集文档,个别数组的内容不在主内容页,而是在附加页面,特别是有关附件的内容,追溯网址用于采集其附加页面网址,每个内容网址可溯源两级附加页面,追溯网址2是在溯源网址1的基础上采集的。
追溯概念举例:我们去下载站的时侯,往往点进去的页面只有软件信息说明和一个或多个步入下载页面的链接
注意:这里是步入下载页面的链接,而不是下载地址。当我们要下载该软件的时侯要先打开这个下载页面能够见到下载地址
这里就是一级溯源,因为我们要再点一次就能抵达下载页面。这时我们的1级溯源地址就是那种步入下载页面的链接
接下来是内容页的规则
同样用图来解析,本处只选用一个数组的规则设置为例,其他数组基本类同
入库参数设置
如果是非合辑也就是单文档采集,那么规则到此就设置结束了
经过测试没问题即可进行采集
如果你有足够的信心,完全可以不用测试直接采集哦
如果是合集的采集,比如小说,那么采集的设置还只进行到一半哦
合辑的采集还须要设置子任务的的规则
如图:
子任务在父任务下方,而且任务名称前有缩进
子任务的规则设置跟父任务的规则设置基本相同,不赘言了
理论上采集到这儿就结束了,开始愉快的采集之旅吧,个人觉得还是挺有快感的
采集,你可以自己根据网址、内容、入库一步步来
直接 一键 采集就更干脆了
不过这儿有个使人呕血的问题
采集任务除非是合集采集中的父任务跟子任务
不然你就得一个个任务一键过去,不使排队。。。。
虽然有不少地方有不足,不过总体上来说采集体验还是良好的
教程就到这儿结束了,有哪些不明白的可以跟贴提出