网站内容采集系统(08CMS两个采集系统的使用说明V3.5版本 )
优采云 发布时间: 2021-12-22 04:08网站内容采集系统(08CMS两个采集系统的使用说明V3.5版本
)
点评:我在这个jar里滚了一年多了,也经历了08cms两大版本的更替。是官方努力的见证。
虽然现在jar里的人气不是很好,还有很多问题和帖子没有解决,但这些都会过去的。G表示,再经过一轮发展,就会进入市场,这意味着官方将不再盲目关门。发展
这个所谓的“又一轮开发”可能指的是V3.5版本。GBK 编码版本已经发布。如果 UTF8 被发布,它应该被认为是完整的。具体以官方日程为准。
我做这个教程版的版主已经有一段时间了,最郁闷的就是总看到有人在那里喊:我用不上,文档太少……等等。惭愧,好像有点占坑不拉屎的嫌疑
这不能全怪我,我也想喊:G,你太低调了,让人活不下去,就算你不出来,给我一个时间表,我想要的,所以我有一个。方向,盲人行走,盲人拐杖找路,不知何故给我指路
---------------- 美丽的分界线 ----------------
投诉到此结束,进入正题
08cms采集系统说明
由于08cms的特殊结构,市面上没有外部支持的采集器(没看到,知道的分享一下)
单篇采集和普通的采集器都可以应付,但主要问题在于采集的编译
不过就算有,我也会选择系统自带的采集器。毕竟,合适的才是最好的。系统自带的采集器显然是量身定做的。
个人觉得虽然目前系统自带的采集器还有很多不足,但也不是一般的采集器可以替代的。它在贴合度上有着先天的优势。
下面介绍一下08cms内置的采集系统
一、登录后台进入采集管理
[附]1646[/附]
怎么登陆后台?只需点击订单,不要问我。
二、 第一次使用采集系统,系统会要求添加采集模型
所谓采集模型就是搭建采集的框架,设置采集的必填字段,以及将采集的内容添加到哪个文档模型中
这里的设置有点郁闷的地方,直接填模型名就可以建模型了
相关设置只有在建立后才能进行编辑。个人觉得在建立模型时设置采集模型相关参数比较靠谱。
第三步,编辑采集模型
请看图表:
图一、编辑模型
图二、
模型编辑界面
至此,采集模型的添加完成
下面开始添加采集任务
第四步,采集任务添加
以下是采集任务界面图,请仔细阅读图中的注释
第六步,高亮开始,采集规则设置
首先分析采集目标页面的代码结构,这里以IE浏览器为例
查看采集目标页面,点击IE
页面----查看源文件
很容易看到目标页面的代码结构
采集 页面的代码分析主要是寻找采集目标的特征
页面太大,这里不好解析,上图解释了URL采集界面相关规则的设置
单击提交以在此处保存设置
我想知道为什么我不直接跳到下一个内容采集而是提交后回到这个页面
在这个截图页面下面还有一个部分,叫做retrospective URL rule
这不是可选项目,一般不需要
而且这个只能获取一个网址,不是网址列表,个人觉得有点鸡肋,附上官方说明
回溯 URL:内容 URL 的扩展。有些是采集文档,个别字段的内容不在主内容页,而是在附加页,特别是与附件相关的内容。追溯URL用于采集它的附加页面URL,每个内容URL有两个附加页面可以追溯,追溯URL 2基于追溯URL 1。采集。
追溯概念的例子:当我们进入下载站点时,我们点击进入的页面往往只有软件信息描述和一个或多个下载页面的链接
注意:这是下载页面的链接,不是下载地址。当我们要下载软件时,首先要打开这个下载页面才能看到下载地址
这是第一级可追溯性,因为我们必须再次点击才能到达下载页面。这时候我们的一级溯源地址就是进入下载页面的链接
接下来是内容页的规则
同图解析,本节仅以一个字段的规则设置为例,其他字段基本相同
入库参数设置
如果是非编译,即单个文档采集,则规则设置结束
测试无问题后即可进行采集
如果你有足够的信心,可以不经测试直接采集。
如果是采集的合辑,比如小说,那么采集的设定只是中途而已。
采集 的编译也需要设置子任务的规则
如图:
子任务在父任务下方,任务名称缩进
子任务的规则设置与父任务的规则设置基本一致,不再赘述
理论上,采集 就到这里了。让我们开始一段愉快的采集之旅吧。就我个人而言,我感到非常高兴。
采集,可以一步步关注网址、内容、存储
一键采集更直接
但是这里有一个让人吐血的问题
采集除非任务是编译中的父任务和子任务采集
否则,您将不得不一项一项完成任务,而不是排队。. . .
虽然有很多不足,但是采集的整体体验还是不错的
本教程到此结束。不明白的可以发帖