文章cms采集( 创建采集节点页面的网址索引页截图匹配规则介绍 )

优采云 发布时间: 2021-09-10 21:14

  文章cms采集(

创建采集节点页面的网址索引页截图匹配规则介绍

)

  

  (图片2.111)

  上图(2.111)为创建采集节点页面的URL索引页面截图,这里主要填写目标站列表地址和对应规则。下面分别获取node和list URL,介绍规则和文章URL匹配规则。

  节点基本信息

  节点基本信息下面有两个地方需要注意,节点名称和目标页面代码。节点名称虽然允许为空,但最好填写简单易懂的文字进行标识;目标页面代码是指目标文章页面源代码中的charset值,该设置是为了字符正常显示。

  防盗链模式用于在目标站设置刷新限制后限制采集的速度。这个设置比较难判断,因为没有固定值,需要测试目标站点才知道。

  列出网址获取规则

  织梦的采集系统有3种方式获取列表地址:

  1.批量生成列表网址:

  批量采集list URL 是获取地址的常用方法。首先,通过观察目标站列表之间的变化,可以大致知道规则,如图2.121。

  

  (图片2.121)

  复制一个地址,返回采集器,粘贴到匹配的URL中,替换为(*),并设置*的变化范围和增量,如2.122所示。

  

  (图片2.122)

  以上只是生成目标站单列的列表。对于多列地址的生成,织梦也考虑到了,如图2.123,“匹配URL”输入(#),勾选“启用”添加多列通配符,填写下图中“多列通配符规则”中的规则。

  

  (图片2.123)

  2. 手动指定列表网址:

  顾名思义,手动指定不同的列表地址

  3. 从 RSS 获取:

  使用RSS获取列表地址,如:

  文章URL 匹配规则

  您可以创建一个匹配区域来过滤文章地址。您还可以遵守地址定律,使用收录和不收录来过滤地址。收录的优先级高于不收录的优先级,这里可以使用正则规则。详情显示为2.131。

  

  (图片2.131)

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线