资讯内容采集系统(08CMS架构上的“再一轮开发”或许就是指V3.5)

优采云发布时间: 2022-01-09 13:03

　　虽然现在罐子里的人气不是很好，还有很多问题和帖子没有解决，但这些都会过去的。G表示将在新一轮开发后进入市场，这意味着官方将不再盲目关门。发展

　　这个所谓的“再一轮开发”，可能指的是V3.5版本。GBK编码版本已经发布，UTF8版本应该算是完整了。详情以官方时间表为准。

　　这个教程版的版主也是做了很久的版主，最郁闷的就是看到人家大喊：我用不了，文档太少……诸如此类。惭愧，占沟不拉屎似乎有点可疑

　　这不能怪我，我也想喊：G，你太低调了。不让人活，不出来也没关系。给我一个时间表，我希望我有一个。方向，盲人走，盲杖探路，至少给老太太指路

　　让我们停止在这里抱怨，进入正题

　　08cms采集系统指令

　　由于08cms架构的特殊性，目前市面上还没有完美支持的外置采集器（没看到，知道的请分享）

　　单采集一般采集器都可以处理，问题主要在编译采集

　　不过就算有，我也会选择系统自带的采集器。毕竟，合适的才是最好的。系统自带的采集器显然是量身定做的。

　　就个人而言，虽然目前系统自带的采集器还有很多不足之处，但也不是普通的采集器可以替代的。它在合身方*敏*感*词*有先天优势。

　　下面开始介绍08cms内置的采集系统

　　第一个一、登录后台进入采集管理

　　[附]1646[/附]

　　怎么登录后台，别问我点击顺序

　　二、第一次使用采集系统，系统会要求添加一个采集模型

　　所谓采集模型就是搭建采集的框架，设置需要采集的字段以及采集的内容添加到哪个文档模型

　　这里的设置有点郁闷，只要填上模型名，就可以建模型了

　　相关设置只有在建立后才能进行编辑。个人觉得在建立模型的时候设置采集模型相关的参数比较靠谱。

　　步骤 3. 编辑采集模型

　　模型编辑界面

　　至此，采集模型的添加完成

　　让我们开始添加采集任务

　　第四步，采集任务添加

　　下面是采集任务界面*敏*感*词*，请仔细阅读注释

　　第六步，重头戏开始，采集规则的设置

　　首先分析采集目标页面的代码结构，这里以IE浏览器为例

　　要查看采集目标页面，请单击 IE 的

　　页面----查看源文件

　　很容易看到目标页面的代码结构

　　采集页面的代码分析主要是找到采集target的特征

　　页面太大，此处无法分析。上图说明了URL采集接口相关规则的设置

　　单击提交以在此处保存设置

　　我想知道为什么不直接跳到下一步采集而是在提交后返回此页面

　　这个截图页面下面还有一个部分，叫做traceback URL rule

　　这不是非必填项，一般不需要

　　而且这个只能得到一个URL，不是URL列表，个人觉得有点鸡肋，附官方解释

　　Traceback URL：内容 URL 的扩展。文档中有部分是采集，个别字段的内容不在主内容页，而是在附加页，尤其是附件的内容，采集@使用了traceback URL > 其附加页面URL，每个内容URL 可追溯二级附加页面，追溯URL 2 是基于追溯URL 1采集。

　　回顾性概念示例：当我们去下载站时，我们经常只点击软件信息描述和下载页面的一个或多个链接。

　　注意：这里是下载页面的链接，不是下载地址。当我们要下载软件的时候，首先要打开这个下载页面，才能看到下载地址

　　这是第一级回溯，因为我们必须再次点击才能到达下载页面。这时候我们的一级回溯地址就是下载页面的链接。

0

2022-01-09

资讯内容采集系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

资讯内容采集系统(08CMS架构上的“再一轮开发”或许就是指V3.5)

0 个评论

发起人

AI时代内容工厂

资讯内容采集系统(08CMS架构上的“再一轮开发”或许就是指V3.5)

0 个评论

发起人

相关问题