文章采集功能(Dedecms采集功能使用方法的第二篇设置基本信息及网址索引页规则 )

优采云 发布时间: 2021-11-12 23:07

  文章采集功能(Dedecms采集功能使用方法的第二篇设置基本信息及网址索引页规则

)

  前言:本文章是德德cms采集函数使用的第二章,主要目的是为采集普通文章带分页,方便使用过滤规则。本次选择的目标站点为中国网管联盟网络技术频道的网络协议栏目,网址为“”。本文分为三个部分。第一部分主要介绍新增采集节点的第一步:设置基本信息和URL索引页面规则;第二节主要介绍新的采集节点第二步:设置字段获取规则;第三部分主要介绍如何采集指定节点以及如何导出采集的内容。对于采集的编写规则中的一些基本操作,

  现在进入第一部分。

  1.1 设置基本信息和URL索引页面规则

  新建一个普通文章类型节点,进入“添加采集节点:第一步设置基本信息和URL索引页面规则”如图(图1),

  

  图1-新建采集节点:第一步是设置基本信息和URL索引页面规则

  1.1.1 设置基本节点信息

  

  图2-节点基本信息

  首先定义节点名称为“采集Test(二)”。其次,找到目标页面代码。步骤如下:

  (A) 打开采集的目标页面:;

  (B) 右击选择“查看源文件”,找到“字符集”,如图(图3),

  

  图3-查看源文件

  等号后面的代码就是需要的“编码格式”,这里是“gb2312”。对于“区域匹配模式”、“内容导入顺序”和“防盗链接模式”,使用默认值。

  参考 URL:您可以选择 文章 列表中出现的任何 文章 页面 URL。为方便起见,通常在文章列表中填写第一篇文章文章的URL,但由于第一篇文章文章不涉及分页内容,为了说明如何文章采集分页文章,这里使用第二条文章作为参考网址。它的网址是:“”。设置后节点的基本信息,如图(图4),

  

  图4-设置后节点的基本信息

  检查无误后,进入下一步。

  1.1.2 设置获取列表URL的规则

  如图(图5),

  

  图5-列出URL获取规则

  这里是设置采集的文章列表页的匹配规则,也是本节的重点和难点。

  具体步骤:

  (A)首先回到打开的文章列表页面,然后浏览器的URL地址栏中显示的URL,如图(图6),

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线