文章cms采集(如何创建一个基本的采集规则？（一）——Dedecms)

优采云发布时间: 2021-11-09 07:14

　　前言：这篇文章是为刚接触德德的朋友写的cms采集。选择的目标站点是德德cms官方网站的dreameaver栏目文章，其内容页面不收录分页。以图文形式详细讲解了如何创建一个Basic 采集规则。本文分为三部分：第一部分主要介绍如何进入采集界面以及添加采集节点的第一步：设置基本信息和URL索引页面规则；第二节，主要是引入新的采集节点的第二步：设置字段获取规则；第三部分主要介绍如何采集指定节点以及如何导出采集的内容。现在进入第一部分。

　　1.1进入采集节点管理界面

　　如图（图1），在后台管理界面主菜单中点击“采集”，然后点击“采集节点管理”进入采集节点管理界面，如图（图2）.

　　图1-后台管理界面

　　图2-采集节点管理界面

　　1.2. 添加新节点

　　在采集节点管理界面，点击左下角“添加新节点”或右上角“添加新节点”（如图2），可以进入“选择内容”模型”界面，如（如图3）,

　　图3-选择内容模型界面

　　在“选择内容模型”界面的下拉列表框中，有“普通文章”和“图片集”可供选择。根据页面类型为采集，选择对应的内容模型。本文选择“普通文章”，点击确定，进入“新建采集节点：第一步设置基本信息和URL索引页面规则”界面，如图（图文章4）显示，

　　图4-新建采集节点：第一步是设置基本信息和URL索引页面规则

　　1.2.1 设置基本节点信息

　　图5-基本节点信息

　　如图（图5），

　　节点名称：给新创建的节点起一个名字，填写“采集Test(一）”；

　　目标页面编码：通过采集设置目标页面的编码格式。共有三种类型：GB2312、UTF8 和 BIG5。在采集的目标页面上右键，选择“查看源文件”即可获得。

　　脚步：

　　(A) 打开采集的目标页面：；

　　(B) 右击选择“查看源文件”，找到“字符集”，如图（图6），

　　图6-查看源文件

　　等号后面的代码就是需要的“编码格式”，这里是“gb2312”。

　　“区域匹配模式”：设置如何匹配所需采集的内容部分，可以是字符串，也可以是正则表达式。系统默认模式为字符串。如果您对正则表达式有更多的了解，可以在这里选择正则表达式模式。

　　“内容导入顺序”：指定导入文章列表时的顺序。可以选择“与目标站一致”或“反向到目标站”。

　　“防盗链模式”：目标站点采集是否有刷新限制。一开始很难说，你需要测试才能知道。如果是这样，您需要在此处设置“资源下载超时时间”。

　　“引用网址”：填写任何文章内容页面的网址，即采集。

　　具体步骤：

　　（一）在打开的文章列表页面，点击第一篇文章

　　标题为“在Dreamweaver中为插入的Flash添加透明度”打开文章内容页面，如图（图7），

　　图7-文章内容页面

　　(B)此时浏览器的URL地址栏显示的URL就是“引用URL”中需要填写的URL，如图（图8），

　　图8-浏览器的URL地址栏

　　至此，“节点基本信息”就设置好了。最终结果，如图（图9），

　　图9-设置后节点的基本信息

　　检查无误后，进入下一步。

　　1.2.2 设置获取列表URL的规则

　　如图（图10），

　　图10-列出URL获取规则

　　这里是设置采集的文章列表页的匹配规则。如果采集的文章的列表页面有一定的样式，可以选择“批量生成列表URL”；如果采集的文章的列表页面完全没有规则，则可以选择“手动指定列表URL”；如果采集的站点提供RSS，您可以选择“从RSS获取”。对于特殊情况，如：列表页面部分规则，其余部分不规则，可以在“匹配URL”中填写规则部分，然后在“手动指定URL”中填写不规则部分。

　　具体步骤：

　　(A) 首先回到打开的文章列表页面，找到浏览器URL地址栏中显示的URL（图8）和页面底部的换页部分。对于示例（图11）如图所示，

　　图11-页面变化

　　(B) 点击“2”打开文章列表页的第二页。这时浏览器的URL地址栏中显示的URL和页面底部的页面变化部分，如(图12）和(如图13）,

　　图12-第二页的URL

　　图13-page feed部分第二页

　　(C) 在打开的文章列表页的第二页，点击(1）打开文章列表页的第一页，然后点击最下方的换页部分页面和图11是一样的，只是浏览器的URL地址栏显示的URL和图8不同，如图（图14）,

　　图14-第一页的URL

　　(D) 从(b)和(c)可以推断，采集的文章列表页的URL遵循如下规律：

　　(*).html。为安全起见，请自行测试更多列表页面。确定规则后，在“匹配URL”中，填写规则后跟文章列表页。

　　(E) 最后，指定需要采集的页码或正则数，并设置递增的正则。

　　至此，“列表URL获取规则”部分的设置就结束了。最终结果，如图（图15），

　　图15-列出设置后的URL获取规则

　　确认无误后，进行下一步设置。

　　1.2.3 设置文章 URL匹配规则

　　如图（图16），

　　图16-文章 URL匹配规则

　　这里是设置采集文章列表页的匹配规则。

　　具体步骤：

　　(A)对于“区域开头的HTML”，可以在打开的文章列表首页右击，选择“查看源文件”。在源文件中，找到第一篇文章文章的标题《在Dreamweaver中为插入的Flash添加透明度》，如图（图17），

　　图17-查看源文件中第一篇文章文章的标题

　　通过观察，不难看出“

　　“是整个文章列表的开头。因此，在“HTML开头的区域”中，填写“

　　”。

　　(B) 在源文件中找到上一篇文章题为《通过Dreamweaver设计网页时组织CSS的建议》，如图（图18），

　　图18-查看源文件中上一篇文章的标题

　　结合文章列表的开头部分并观察，第一个“

　　“是整个文章列表的结尾。因此，在“HTML结尾区域”中，应填写“

　　”。

　　“如果链接收录图片”：设置链接中收录的图片的处理方式，是否处理，缩略图可选采集。可根据实际需要选用。

　　“重新过滤区域网址”：可以使用正则表达式再次过滤区域网站。这是针对一些需要保留或过滤掉的内容，尤其是混合列表页面，通过“必须收录”或“不能收录”过滤掉你想要获取的文章内容页面的URL或者不想得到。

　　具体步骤：

　　回到正在打开的文章列表首页的源文件，通过观察可以看出，每个文章内容页地址的扩展名都是.html。因此，您可以在“必须收录”中填写“.html”。

　　至此，“文章URL匹配规则”的设置就结束了。最终结果，如图（图19），

　　图19-文章设置后的URL匹配规则

　　通过1.2.1子节，1.2.2子节和1.2.3子节，采集节点的节添加一步完成设置。设置后的结果，如图（图20），

　　图20-设置后新增的采集节点：第一步是设置基本信息和URL索引页面规则

　　一切都完成并检查后，单击“保存信息并进入下一步设置”。如果前面的设置正确，点击后会进入“新建采集节点：测试基本信息和URL索引页面规则设置的URL检索规则测试”页面，看到对应的文章列表地址。如图（图21），

　　图21-URL获取规则测试

　　确认无误后，点击“保存信息，进入下一步设置”。否则请点击“返回上一步修改”。

0

2021-11-09

文章cms采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章cms采集(如何创建一个基本的采集规则？（一）——Dedecms)

0 个评论

发起人

AI时代内容工厂

文章cms采集(如何创建一个基本的采集规则？（一）——Dedecms)

0 个评论

发起人

相关问题