文章采集功能(Dedecms采集功能使用方法的第二篇设置基本信息及网址索引页规则 )
优采云 发布时间: 2021-11-12 23:07文章采集功能(Dedecms采集功能使用方法的第二篇设置基本信息及网址索引页规则
)
前言:本文章是德德cms采集函数使用的第二章,主要目的是为采集普通文章带分页,方便使用过滤规则。本次选择的目标站点为中国网管联盟网络技术频道的网络协议栏目,网址为“”。本文分为三个部分。第一部分主要介绍新增采集节点的第一步:设置基本信息和URL索引页面规则;第二节主要介绍新的采集节点第二步:设置字段获取规则;第三部分主要介绍如何采集指定节点以及如何导出采集的内容。对于采集的编写规则中的一些基本操作,
现在进入第一部分。
1.1 设置基本信息和URL索引页面规则
新建一个普通文章类型节点,进入“添加采集节点:第一步设置基本信息和URL索引页面规则”如图(图1),
图1-新建采集节点:第一步是设置基本信息和URL索引页面规则
1.1.1 设置基本节点信息
图2-节点基本信息
首先定义节点名称为“采集Test(二)”。其次,找到目标页面代码。步骤如下:
(A) 打开采集的目标页面:;
(B) 右击选择“查看源文件”,找到“字符集”,如图(图3),
图3-查看源文件
等号后面的代码就是需要的“编码格式”,这里是“gb2312”。对于“区域匹配模式”、“内容导入顺序”和“防盗链接模式”,使用默认值。
参考 URL:您可以选择 文章 列表中出现的任何 文章 页面 URL。为方便起见,通常在文章列表中填写第一篇文章文章的URL,但由于第一篇文章文章不涉及分页内容,为了说明如何文章采集分页文章,这里使用第二条文章作为参考网址。它的网址是:“”。设置后节点的基本信息,如图(图4),
图4-设置后节点的基本信息
检查无误后,进入下一步。
1.1.2 设置获取列表URL的规则
如图(图5),
图5-列出URL获取规则
这里是设置采集的文章列表页的匹配规则,也是本节的重点和难点。
具体步骤:
(A)首先回到打开的文章列表页面,然后浏览器的URL地址栏中显示的URL,如图(图6),