文章采集规则(到织梦dedecms如何处理被采集页面含有以及如何使用简单的过滤规则)
优采云 发布时间: 2021-12-16 23:53文章采集规则(到织梦dedecms如何处理被采集页面含有以及如何使用简单的过滤规则)
本文将介绍织梦dedecms 如何处理采集 页面中收录的分页符以及如何使用简单的过滤规则。本文分为三部分:第一部分主要介绍如何进入采集界面以及添加采集节点的第一步:设置基本信息和URL索引页面规则;第二节,主要是引入新的采集节点的第二步:设置字段获取规则;第三部分主要介绍如何采集指定节点以及如何导出采集的内容。
现在进入第一部分。
1.1进入采集节点管理界面
如图(图1),在后台管理界面主菜单中点击“采集”,然后点击“采集节点管理”进入采集节点管理界面,如图(图2).
图1-后台管理界面
图2-采集节点管理界面
1.2. 添加新节点
在采集节点管理界面,点击左下角的“添加新节点”或右上角的“添加新节点”(如2),可以进入“选择内容”模型”界面,如(如图3),
图3-选择内容模型界面
在“选择内容模型”界面的下拉列表框中,有“普通文章”和“图片集”可供选择。
根据页面类型为采集,选择对应的内容模型。本文选择“图片采集”,点击确定,进入“添加采集节点:第一步是设置基本信息和URL索引页面规则”界面,如图(图4) ,
图4-新建采集节点:第一步是设置基本信息和URL索引页面规则
1.2.1 设置基本节点信息
图5-节点基本信息
如图(图5),这里只是获取“目标页面代码”的方法,其他设置请参考前面的文章。具体步骤:
(A) 打开采集的目标页面:;
(B) 右击选择“查看源文件”,找到“字符集”,如图(图6),
图6-查看源文件
等号后面的代码就是要填写的“编码格式”,这里是“utf-8”。
填写后,如图(图7),
图7-设置后节点的基本信息
检查无误后,进入下一步。
1.2.2 设置获取列表URL的规则
图8-列出URL获取规则
如图(图8),这里是设置采集的文章列表页的匹配规则。具体步骤:
(A) 首先回到打开的列表页面,找到浏览器的URL地址栏中显示的URL和页面的换页部分。如图(图9)和(图10),
图9-浏览器的URL地址栏
图10-页面变化
(B) 点击“2”打开文章列表页第二页,再次找到浏览器URL地址栏中显示的URL和页面的换页部分,如图(图12)和(如图13),
图11-第二页的URL
图 12-第二页上的页面提要
(C) 在打开的列表页的第二页,点击(1)返回到列表页的第一页。此时页面的换页部分与上图10相同,但是浏览器在URL地址栏中显示的URL与之前的图9不同,如图(图13),
图13-第一页的URL
(D) 从(b)和(c)可以推断出采集的列表页的URL遵循以下规则:
!0!0!200!(*)!1!0!0/. 为安全起见,请自行测试更多列表页面。确定规则后,在“匹配网址”中填写规则后跟列表页。
(E) 最后根据需要指定采集的页码或正则数,并设置递增的正则。
至此,“列表URL获取规则”部分的设置就结束了。最终结果,如图(图14),
图14-列出设置后的URL获取规则
确认无误后,进行下一步设置。