文章cms采集(如何创建一个基本的采集规则?(一)——Dedecms)

优采云 发布时间: 2021-11-09 07:14

  文章cms采集(如何创建一个基本的采集规则?(一)——Dedecms)

  前言:这篇文章是为刚接触德德的朋友写的cms采集。选择的目标站点是德德cms官方网站的dreameaver栏目文章,其内容页面不收录分页。以图文形式详细讲解了如何创建一个Basic 采集规则。本文分为三部分:第一部分主要介绍如何进入采集界面以及添加采集节点的第一步:设置基本信息和URL索引页面规则;第二节,主要是引入新的采集节点的第二步:设置字段获取规则;第三部分主要介绍如何采集指定节点以及如何导出采集的内容。现在进入第一部分。

  1.1进入采集节点管理界面

  如图(图1),在后台管理界面主菜单中点击“采集”,然后点击“采集节点管理”进入采集节点管理界面,如图(图2).

  

  图1-后台管理界面

  

  图2-采集节点管理界面

  1.2. 添加新节点

  在采集节点管理界面,点击左下角“添加新节点”或右上角“添加新节点”(如图2),可以进入“选择内容”模型”界面,如(如图3),

  

  图3-选择内容模型界面

  在“选择内容模型”界面的下拉列表框中,有“普通文章”和“图片集”可供选择。根据页面类型为采集,选择对应的内容模型。本文选择“普通文章”,点击确定,进入“新建采集节点:第一步设置基本信息和URL索引页面规则”界面,如图(图文章4)显示,

  

  图4-新建采集节点:第一步是设置基本信息和URL索引页面规则

  1.2.1 设置基本节点信息

  

  图5-基本节点信息

  如图(图5),

  节点名称:给新创建的节点起一个名字,填写“采集Test(一)”;

  目标页面编码:通过采集设置目标页面的编码格式。共有三种类型:GB2312、UTF8 和 BIG5。在采集的目标页面上右键,选择“查看源文件”即可获得。

  脚步:

  (A) 打开采集的目标页面:;

  (B) 右击选择“查看源文件”,找到“字符集”,如图(图6),

  

  图6-查看源文件

  等号后面的代码就是需要的“编码格式”,这里是“gb2312”。

  “区域匹配模式”:设置如何匹配所需采集的内容部分,可以是字符串,也可以是正则表达式。系统默认模式为字符串。如果您对正则表达式有更多的了解,可以在这里选择正则表达式模式。

  “内容导入顺序”:指定导入文章列表时的顺序。可以选择“与目标站一致”或“反向到目标站”。

  “防盗链模式”:目标站点采集是否有刷新限制。一开始很难说,你需要测试才能知道。如果是这样,您需要在此处设置“资源下载超时时间”。

  “引用网址”:填写任何文章 内容页面的网址,即采集。

  具体步骤:

  (一)在打开的文章列表页面,点击第一篇文章

  标题为“在Dreamweaver中为插入的Flash添加透明度”打开文章内容页面,如图(图7),

  

  图7-文章内容页面

  (B)此时浏览器的URL地址栏显示的URL就是“引用URL”中需要填写的URL,如图(图8),

  

  图8-浏览器的URL地址栏

  至此,“节点基本信息”就设置好了。最终结果,如图(图9),

  

  图9-设置后节点的基本信息

  检查无误后,进入下一步。

  1.2.2 设置获取列表URL的规则

  如图(图10),

  

  图10-列出URL获取规则

  这里是设置采集的文章列表页的匹配规则。如果采集的文章的列表页面有一定的样式,可以选择“批量生成列表URL”;如果采集的文章的列表页面完全没有规则,则可以选择“手动指定列表URL”;如果采集的站点提供RSS,您可以选择“从RSS获取”。对于特殊情况,如:列表页面部分规则,其余部分不规则,可以在“匹配URL”中填写规则部分,然后在“手动指定URL”中填写不规则部分。

  具体步骤:

  (A) 首先回到打开的文章列表页面,找到浏览器URL地址栏中显示的URL(图8)和页面底部的换页部分。对于示例(图11)如图所示,

  

  图11-页面变化

  (B) 点击“2”打开文章列表页的第二页。这时浏览器的URL地址栏中显示的URL和页面底部的页面变化部分,如(图12)和(如图13),

  

  图12-第二页的URL

  

  图13-page feed部分第二页

  (C) 在打开的文章列表页的第二页,点击(1)打开文章列表页的第一页,然后点击最下方的换页部分页面和图11是一样的,只是浏览器的URL地址栏显示的URL和图8不同,如图(图14),

  

  图14-第一页的URL

  (D) 从(b)和(c)可以推断,采集的文章列表页的URL遵循如下规律:

  (*).html。为安全起见,请自行测试更多列表页面。确定规则后,在“匹配URL”中,填写规则后跟文章列表页。

  (E) 最后,指定需要采集的页码或正则数,并设置递增的正则。

  至此,“列表URL获取规则”部分的设置就结束了。最终结果,如图(图15),

  

  图15-列出设置后的URL获取规则

  确认无误后,进行下一步设置。

  1.2.3 设置文章 URL匹配规则

  如图(图16),

  

  图16-文章 URL匹配规则

  这里是设置采集文章列表页的匹配规则。

  具体步骤:

  (A)对于“区域开头的HTML”,可以在打开的文章列表首页右击,选择“查看源文件”。在源文件中,找到第一篇文章文章的标题《在Dreamweaver中为插入的Flash添加透明度》,如图(图17),

  

  图17-查看源文件中第一篇文章文章的标题

  通过观察,不难看出“

  “是整个文章列表的开头。因此,在“HTML开头的区域”中,填写“

  ”。

  (B) 在源文件中找到上一篇文章题为《通过Dreamweaver设计网页时组织CSS的建议》,如图(图18),

  

  图18-查看源文件中上一篇文章的标题

  结合 文章 列表的开头部分并观察,第一个“

  “是整个文章列表的结尾。因此,在“HTML结尾区域”中,应填写“

  ”。

  “如果链接收录图片”:设置链接中收录的图片的处理方式,是否处理,缩略图可选采集。可根据实际需要选用。

  “重新过滤区域网址”:可以使用正则表达式再次过滤区域网站。这是针对一些需要保留或过滤掉的内容,尤其是混合列表页面,通过“必须收录”或“不能收录”过滤掉你想要获取的文章内容页面的URL或者不想得到。

  具体步骤:

  回到正在打开的文章列表首页的源文件,通过观察可以看出,每个文章内容页地址的扩展名都是.html。因此,您可以在“必须收录”中填写“.html”。

  至此,“文章URL匹配规则”的设置就结束了。最终结果,如图(图19),

  

  图19-文章 设置后的URL匹配规则

  通过1.2.1子节,1.2.2子节和1.2.3子节,采集节点的节添加 一步完成设置。设置后的结果,如图(图20),

  

  图20-设置后新增的采集节点:第一步是设置基本信息和URL索引页面规则

  一切都完成并检查后,单击“保存信息并进入下一步设置”。如果前面的设置正确,点击后会进入“新建采集节点:测试基本信息和URL索引页面规则设置的URL检索规则测试”页面,看到对应的文章列表地址。如图(图21),

  

  图21-URL获取规则测试

  确认无误后,点击“保存信息,进入下一步设置”。否则请点击“返回上一步修改”。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线