文章采集功能(如何创建一个采集功能的朋友所写采集规则(组图))
优采云 发布时间: 2021-12-25 08:00文章采集功能(如何创建一个采集功能的朋友所写采集规则(组图))
前言:这篇文章是写给刚接触德德的朋友cms采集。选择的目标站点是德德cms官方网站的dreameaver栏目文章,其内容页面不收录分页。以图片和文字的形式,详细讲解了如何创建一个Basic 采集规则。本文分为三部分:第一部分主要介绍如何进入采集界面以及添加采集节点的第一步:设置基本信息和URL索引页面规则;第二节,主要是引入新的采集节点的第二步:设置字段获取规则;第三部分主要介绍如何采集指定节点,以及如何导出采集的内容。现在进入第一部分。
1.1进入采集节点管理界面
如图(图1),在后台管理界面主菜单中点击“采集”,然后点击“采集节点管理”进入采集节点管理界面,如图(图2).
图1-后台管理界面
图2-采集节点管理界面
1.2. 添加新节点
在采集节点管理界面,点击左下角“添加新节点”或右上角“添加新节点”(如图2),可以进入“选择内容” Model”界面,如(如图3),
图3-选择内容模型界面
在“选择内容模型”界面的下拉列表框中,有“常用文章”和“图片集”可供选择。根据页面类型为采集,选择对应的内容模型。本文选择“普通文章”,点击确定,进入“添加采集节点:第一步设置基本信息和URL索引页面规则”界面,如图(图文章4)显示,
图4-新建采集节点:第一步是设置基本信息和URL索引页面规则
1.2.1 设置基本节点信息
图5-节点基本信息
如图(图5),
节点名称:给新创建的节点起一个名字,填写“采集Test(一)”;
目标页面编码:设置目标页面的编码格式为采集。共有三种类型:GB2312、UTF8 和 BIG5。在采集的目标页面右击,选择“查看源文件”即可获得。
脚步:
(A) 打开采集的目标页面:;
(B) 右击选择“查看源文件”,找到“字符集”,如图(图6),
图6-查看源文件
等号后面的代码就是需要的“编码格式”,这里是“gb2312”。
“区域匹配模式”:设置如何匹配需要的采集的内容部分,可以是字符串,也可以是正则表达式。系统默认模式为字符串。如果您对正则表达式有更多的了解,可以在这里选择正则表达式模式。
“内容导入顺序”:指定导入文章列表时的顺序,可以选择“与目标站一致”或“逆向目标站”。
“防盗链模式”:目标站点是否有刷新限制采集。一开始很难说,需要测试一下才知道。如果是这样,您需要在此处设置“资源下载超时时间”。