文章cms采集( 创建采集节点页面的网址索引页截图匹配规则介绍 )
优采云 发布时间: 2021-09-10 21:14文章cms采集(
创建采集节点页面的网址索引页截图匹配规则介绍
)
(图片2.111)
上图(2.111)为创建采集节点页面的URL索引页面截图,这里主要填写目标站列表地址和对应规则。下面分别获取node和list URL,介绍规则和文章URL匹配规则。
节点基本信息
节点基本信息下面有两个地方需要注意,节点名称和目标页面代码。节点名称虽然允许为空,但最好填写简单易懂的文字进行标识;目标页面代码是指目标文章页面源代码中的charset值,该设置是为了字符正常显示。
防盗链模式用于在目标站设置刷新限制后限制采集的速度。这个设置比较难判断,因为没有固定值,需要测试目标站点才知道。
列出网址获取规则
织梦的采集系统有3种方式获取列表地址:
1.批量生成列表网址:
批量采集list URL 是获取地址的常用方法。首先,通过观察目标站列表之间的变化,可以大致知道规则,如图2.121。
(图片2.121)
复制一个地址,返回采集器,粘贴到匹配的URL中,替换为(*),并设置*的变化范围和增量,如2.122所示。
(图片2.122)
以上只是生成目标站单列的列表。对于多列地址的生成,织梦也考虑到了,如图2.123,“匹配URL”输入(#),勾选“启用”添加多列通配符,填写下图中“多列通配符规则”中的规则。
(图片2.123)
2. 手动指定列表网址:
顾名思义,手动指定不同的列表地址
3. 从 RSS 获取:
使用RSS获取列表地址,如:
文章URL 匹配规则
您可以创建一个匹配区域来过滤文章地址。您还可以遵守地址定律,使用收录和不收录来过滤地址。收录的优先级高于不收录的优先级,这里可以使用正则规则。详情显示为2.131。
(图片2.131)