再一轮开发——08CMS采集系统的使用说明
优采云 发布时间: 2021-07-03 06:47再一轮开发——08CMS采集系统的使用说明
虽然现在jar里的人气不是很好,还有很多问题和帖子没有解决,但这些都会过去的。 G表示再经过一轮开发后会进入市场,也就是说官方不会盲目跟风开发
这个所谓的“又一轮开发”可能指的是V3.5版本。 GBK 编码版本已经发布。如果 UTF8 被发布,它应该被认为是完整的。具体以官方日程为准。
本教程版版主已久。最郁闷的是,总看到有人在喊:不能用,文件太少……等等。惭愧,好像有点占坑不拉屎的嫌疑
不能全怪我,我也想喊:G,你太低调了,让人活不下去,你不出来也没关系,给我一个时间表我可以所以有一个方向,盲人行走,盲人坚持寻找路,不知何故他们可以给我指明路
----------------漂亮的分割线----------------
投诉到此结束,进入正题
08cms采集系统说明
由于08cms的特殊结构,目前市场上没有外部采集器提供完善的支持(没看到,知道的分享一下)
单个采集一般采集器可以处理,但问题主要在编译采集
但就算有,我也会选择系统自带的采集器。毕竟,合适的才是最好的。系统自带的采集器显然是量身定做的。
个人认为,虽然系统自带的采集器还有很多不足,但也不是一般的采集器可以替代的。在契合度上有先天优势。
介绍一下08cms内置的采集系统
先一、登录后台进入采集管理
[附上]1646[/附上]
如何登录后台?只需点击订单,不要问我。
二、第一次使用采集系统,系统会要求添加采集模型
所谓采集model,就是搭建采集的框架,设置需要采集的字段以及将采集的内容添加到哪个文档模型中
这里的设置有点郁闷。只需填写模型名称即可创建模型
相关设置只能在建立后进行编辑。个人觉得在建立模型时设置采集model相关参数比较靠谱。
第三步,编辑采集model
请看图:
图一、编辑模型
图片二、
模型编辑界面
到此,采集model的添加完成
下面开始添加采集task
第四步,采集任务添加
以下是采集task界面图,请仔细阅读图中的注释
第六步,高亮开始,采集rules的设置
首先分析采集目标页面的代码结构,这里以IE浏览器为例
点击IE查看采集目标页面
页面----查看源文件
很容易看到目标页面的代码结构
采集页面的代码分析主要是寻找采集目标的特征
页面太大,这里不好解析。上图解释了URL采集接口相关规则的设置
点击提交保存设置
不知为何不直接跳转到下一个内容采集提交后又回到这个页面
在这个截图页面下面还有一个部分,叫做retrospective URL rule
这不是可选项目,一般不需要
而且这个只能获取网址,不能获取网址列表,个人觉得有点鸡肋,附上官方说明
Retro URL:内容 URL 的扩展。有些文档是采集,个别字段的内容不在主内容页,而是在附加页,特别是与附件相关的内容。追溯URL用于采集其附加页面URL,每个内容URL都可以追溯到两层附加页面,追溯URL 2在追溯URL 1的基础上是采集。
回顾性概念的一个例子:当我们进入下载站点时,我们点击进入的页面往往只有软件信息描述和一个或多个下载页面的链接
注意:这是下载页面的链接,不是下载地址。当我们要下载软件时,首先要打开这个下载页面才能看到下载地址
这是第一级可追溯性,因为我们必须再次点击才能到达下载页面。这时候我们的一级溯源地址就是进入下载页面的链接
接下来是内容页的规则
同一张图来分析,这里仅以一个字段的规则设置为例,其他字段基本相同。
存储参数设置
如果是非编译,即单个文档采集,那么规则设置到此结束
测试没问题后就可以继续采集
如果你有足够的信心,就不用考采集oh
如果是采集的合辑,比如小说,那么采集的设定就只进行了一半。
采集的编译也需要给子任务设置规则
如图所示:
子任务在父任务下面,任务名称缩进
子任务的规则设置与父任务的规则设置基本一致,不再赘述。
理论上采集 到此为止。让我们开始愉快的旅程采集。个人感觉还是挺开心的。
采集,网址、内容、存储都可以自己一步一步来
直接一键采集更直接
但是这里有个让人吐血的问题
采集task 除非是编译中的父任务和子任务采集
否则,您将不得不一项一项地完成任务,而无需排队。 . . .
虽然有很多不足,但总的来说采集体验还是不错的
教程到此结束。不明白的可以留言。