资讯内容采集系统(08CMS架构上的“再一轮开发”或许就是指V3.5)
优采云 发布时间: 2022-01-09 13:03资讯内容采集系统(08CMS架构上的“再一轮开发”或许就是指V3.5)
虽然现在罐子里的人气不是很好,还有很多问题和帖子没有解决,但这些都会过去的。G表示将在新一轮开发后进入市场,这意味着官方将不再盲目关门。发展
这个所谓的“再一轮开发”,可能指的是V3.5版本。GBK编码版本已经发布,UTF8版本应该算是完整了。详情以官方时间表为准。
这个教程版的版主也是做了很久的版主,最郁闷的就是看到人家大喊:我用不了,文档太少……诸如此类。惭愧,占沟不拉屎似乎有点可疑
这不能怪我,我也想喊:G,你太低调了。不让人活,不出来也没关系。给我一个时间表,我希望我有一个。方向,盲人走,盲杖探路,至少给老太太指路
让我们停止在这里抱怨,进入正题
08cms采集系统指令
由于08cms架构的特殊性,目前市面上还没有完美支持的外置采集器(没看到,知道的请分享)
单采集一般采集器都可以处理,问题主要在编译采集
不过就算有,我也会选择系统自带的采集器。毕竟,合适的才是最好的。系统自带的采集器显然是量身定做的。
就个人而言,虽然目前系统自带的采集器还有很多不足之处,但也不是普通的采集器可以替代的。它在合身方*敏*感*词*有先天优势。
下面开始介绍08cms内置的采集系统
第一个一、登录后台进入采集管理
[附]1646[/附]
怎么登录后台,别问我点击顺序
二、第一次使用采集系统,系统会要求添加一个采集模型
所谓采集模型就是搭建采集的框架,设置需要采集的字段以及采集的内容添加到哪个文档模型
这里的设置有点郁闷,只要填上模型名,就可以建模型了
相关设置只有在建立后才能进行编辑。个人觉得在建立模型的时候设置采集模型相关的参数比较靠谱。
步骤 3. 编辑 采集 模型
模型编辑界面
至此,采集模型的添加完成
让我们开始添加 采集 任务
第四步,采集任务添加
下面是采集任务界面*敏*感*词*,请仔细阅读注释
第六步,重头戏开始,采集规则的设置
首先分析采集目标页面的代码结构,这里以IE浏览器为例
要查看 采集 目标页面,请单击 IE 的
页面----查看源文件
很容易看到目标页面的代码结构
采集页面的代码分析主要是找到采集target的特征
页面太大,此处无法分析。上图说明了URL采集接口相关规则的设置
单击提交以在此处保存设置
我想知道为什么不直接跳到下一步 采集 而是在提交后返回此页面
这个截图页面下面还有一个部分,叫做traceback URL rule
这不是非必填项,一般不需要
而且这个只能得到一个URL,不是URL列表,个人觉得有点鸡肋,附官方解释
Traceback URL:内容 URL 的扩展。文档中有部分是采集,个别字段的内容不在主内容页,而是在附加页,尤其是附件的内容,采集@使用了traceback URL > 其附加页面URL,每个内容URL 可追溯二级附加页面,追溯URL 2 是基于追溯URL 1采集。
回顾性概念示例:当我们去下载站时,我们经常只点击软件信息描述和下载页面的一个或多个链接。
注意:这里是下载页面的链接,不是下载地址。当我们要下载软件的时候,首先要打开这个下载页面,才能看到下载地址
这是第一级回溯,因为我们必须再次点击才能到达下载页面。这时候我们的一级回溯地址就是下载页面的链接。