文章cms采集(如何创建一个基本的采集规则?(一)——Dedecms)
优采云 发布时间: 2021-11-09 07:14文章cms采集(如何创建一个基本的采集规则?(一)——Dedecms)
前言:这篇文章是为刚接触德德的朋友写的cms采集。选择的目标站点是德德cms官方网站的dreameaver栏目文章,其内容页面不收录分页。以图文形式详细讲解了如何创建一个Basic 采集规则。本文分为三部分:第一部分主要介绍如何进入采集界面以及添加采集节点的第一步:设置基本信息和URL索引页面规则;第二节,主要是引入新的采集节点的第二步:设置字段获取规则;第三部分主要介绍如何采集指定节点以及如何导出采集的内容。现在进入第一部分。
1.1进入采集节点管理界面
如图(图1),在后台管理界面主菜单中点击“采集”,然后点击“采集节点管理”进入采集节点管理界面,如图(图2).
图1-后台管理界面
图2-采集节点管理界面
1.2. 添加新节点
在采集节点管理界面,点击左下角“添加新节点”或右上角“添加新节点”(如图2),可以进入“选择内容”模型”界面,如(如图3),
图3-选择内容模型界面
在“选择内容模型”界面的下拉列表框中,有“普通文章”和“图片集”可供选择。根据页面类型为采集,选择对应的内容模型。本文选择“普通文章”,点击确定,进入“新建采集节点:第一步设置基本信息和URL索引页面规则”界面,如图(图文章4)显示,
图4-新建采集节点:第一步是设置基本信息和URL索引页面规则
1.2.1 设置基本节点信息
图5-基本节点信息
如图(图5),
节点名称:给新创建的节点起一个名字,填写“采集Test(一)”;
目标页面编码:通过采集设置目标页面的编码格式。共有三种类型:GB2312、UTF8 和 BIG5。在采集的目标页面上右键,选择“查看源文件”即可获得。
脚步:
(A) 打开采集的目标页面:;
(B) 右击选择“查看源文件”,找到“字符集”,如图(图6),
图6-查看源文件
等号后面的代码就是需要的“编码格式”,这里是“gb2312”。
“区域匹配模式”:设置如何匹配所需采集的内容部分,可以是字符串,也可以是正则表达式。系统默认模式为字符串。如果您对正则表达式有更多的了解,可以在这里选择正则表达式模式。
“内容导入顺序”:指定导入文章列表时的顺序。可以选择“与目标站一致”或“反向到目标站”。
“防盗链模式”:目标站点采集是否有刷新限制。一开始很难说,你需要测试才能知道。如果是这样,您需要在此处设置“资源下载超时时间”。
“引用网址”:填写任何文章 内容页面的网址,即采集。
具体步骤:
(一)在打开的文章列表页面,点击第一篇文章
标题为“在Dreamweaver中为插入的Flash添加透明度”打开文章内容页面,如图(图7),
图7-文章内容页面
(B)此时浏览器的URL地址栏显示的URL就是“引用URL”中需要填写的URL,如图(图8),
图8-浏览器的URL地址栏
至此,“节点基本信息”就设置好了。最终结果,如图(图9),
图9-设置后节点的基本信息
检查无误后,进入下一步。
1.2.2 设置获取列表URL的规则
如图(图10),
图10-列出URL获取规则
这里是设置采集的文章列表页的匹配规则。如果采集的文章的列表页面有一定的样式,可以选择“批量生成列表URL”;如果采集的文章的列表页面完全没有规则,则可以选择“手动指定列表URL”;如果采集的站点提供RSS,您可以选择“从RSS获取”。对于特殊情况,如:列表页面部分规则,其余部分不规则,可以在“匹配URL”中填写规则部分,然后在“手动指定URL”中填写不规则部分。
具体步骤:
(A) 首先回到打开的文章列表页面,找到浏览器URL地址栏中显示的URL(图8)和页面底部的换页部分。对于示例(图11)如图所示,
图11-页面变化
(B) 点击“2”打开文章列表页的第二页。这时浏览器的URL地址栏中显示的URL和页面底部的页面变化部分,如(图12)和(如图13),
图12-第二页的URL
图13-page feed部分第二页
(C) 在打开的文章列表页的第二页,点击(1)打开文章列表页的第一页,然后点击最下方的换页部分页面和图11是一样的,只是浏览器的URL地址栏显示的URL和图8不同,如图(图14),
图14-第一页的URL
(D) 从(b)和(c)可以推断,采集的文章列表页的URL遵循如下规律:
(*).html。为安全起见,请自行测试更多列表页面。确定规则后,在“匹配URL”中,填写规则后跟文章列表页。
(E) 最后,指定需要采集的页码或正则数,并设置递增的正则。
至此,“列表URL获取规则”部分的设置就结束了。最终结果,如图(图15),
图15-列出设置后的URL获取规则
确认无误后,进行下一步设置。
1.2.3 设置文章 URL匹配规则
如图(图16),
图16-文章 URL匹配规则
这里是设置采集文章列表页的匹配规则。
具体步骤:
(A)对于“区域开头的HTML”,可以在打开的文章列表首页右击,选择“查看源文件”。在源文件中,找到第一篇文章文章的标题《在Dreamweaver中为插入的Flash添加透明度》,如图(图17),
图17-查看源文件中第一篇文章文章的标题
通过观察,不难看出“
“是整个文章列表的开头。因此,在“HTML开头的区域”中,填写“
”。
(B) 在源文件中找到上一篇文章题为《通过Dreamweaver设计网页时组织CSS的建议》,如图(图18),
图18-查看源文件中上一篇文章的标题
结合 文章 列表的开头部分并观察,第一个“
“是整个文章列表的结尾。因此,在“HTML结尾区域”中,应填写“
”。
“如果链接收录图片”:设置链接中收录的图片的处理方式,是否处理,缩略图可选采集。可根据实际需要选用。
“重新过滤区域网址”:可以使用正则表达式再次过滤区域网站。这是针对一些需要保留或过滤掉的内容,尤其是混合列表页面,通过“必须收录”或“不能收录”过滤掉你想要获取的文章内容页面的URL或者不想得到。
具体步骤:
回到正在打开的文章列表首页的源文件,通过观察可以看出,每个文章内容页地址的扩展名都是.html。因此,您可以在“必须收录”中填写“.html”。
至此,“文章URL匹配规则”的设置就结束了。最终结果,如图(图19),
图19-文章 设置后的URL匹配规则
通过1.2.1子节,1.2.2子节和1.2.3子节,采集节点的节添加 一步完成设置。设置后的结果,如图(图20),
图20-设置后新增的采集节点:第一步是设置基本信息和URL索引页面规则
一切都完成并检查后,单击“保存信息并进入下一步设置”。如果前面的设置正确,点击后会进入“新建采集节点:测试基本信息和URL索引页面规则设置的URL检索规则测试”页面,看到对应的文章列表地址。如图(图21),
图21-URL获取规则测试
确认无误后,点击“保存信息,进入下一步设置”。否则请点击“返回上一步修改”。