文章采集规则( 如何使用采集功能去采集一个图片类的网站?)
优采云 发布时间: 2021-09-02 02:10文章采集规则(
如何使用采集功能去采集一个图片类的网站?)
如何使用Dedecms采集功能---图片采集(一)
前言:这个文章主要介绍了如何使用采集函数来采集一个图片类网站。本次选定的目标站点为:站酷精品欣赏版块。网址是:。本文将介绍如何处理收录分页的采集 页面以及如何使用简单的过滤规则。本文分为三部分:第一部分主要介绍如何进入采集界面以及添加采集节点的第一步:设置基本信息和URL索引页面规则;第二部分主要介绍添加采集节点的第二步:设置字段获取规则;第三部分主要介绍如何采集指定一个节点以及如何导出采集内容。
输入下面的第一部分。
1.1进入采集node管理界面
如图(图1),在后台管理界面主菜单中点击“采集”,然后点击“采集node管理”进入采集节点管理界面,如(图片2)显示。
图1-后台管理界面
图2-采集Node 管理界面
1.2. 添加新节点
在采集节点管理界面,点击左下角“添加新节点”或右上角“添加新节点”(如2),可进入“选择内容模型” " 界面,如( 如图3),
图3-选择内容模型界面
在“选择内容模型”界面的下拉列表框中,有“General文章”和“图片集”可供选择。
根据页面类型为采集,选择对应的内容模型。本文选择“图片采集”,点击确定,进入“添加采集节点:第一步设置基本信息和URL索引页面规则”界面,如图(图4),
图4-新建采集节点:第一步设置基本信息和URL索引页面规则
1.2.1 设置基本节点信息
图5-基本节点信息
如图(图片5),这里只是获取“目标页面代码”的方法,其他设置请参考前面的文章。具体步骤:
(a) 打开采集的目标页面:;
(b) 右击选择“查看源文件”,找到“字符集”,如图(图6),
图6-查看源文件
等号后面的代码是要填写的“编码格式”,这里是“utf-8”。
填写后,如图(picture7),
图7-设置后节点的基本信息
检查后,进入下一步。
1.2.2 设置列表网址获取规则
图8-列出URL获取规则
如图(图片8),这里是设置采集文章list页面的匹配规则。具体步骤:
(a) 首先回到打开的列表页面,找到浏览器的URL地址栏中显示的URL和页面的换页部分。如图(图9)和(图10),
)
图9-浏览器的URL地址栏
图 10 页面变化
(b) 点击“2”打开文章列表页面的第二页,再次找到浏览器的URL地址栏中显示的URL和页面的换页部分,如图(图12)和(如图13),
图11-第二页的URL
图12-第二页的换页
(c) 在打开的列表页的第二页,点击(1),返回到列表页的第一页,然后页面的换页部分和上图10一样,但是浏览设备的URL地址栏中显示的URL与之前的图9不同,如图(图13),
图13-第一页的URL
(d) 从(b)和(c)可以推断出采集的列表页的URL遵循以下规则:
!0!0!200!(*)!1!0!0/.为安全起见,请自行测试更多列表页面。确定规则后,在“匹配网址”中填写规则后跟列表页。
(e) 最后根据需要指定采集的页码或正则数,并设置递增的正则。
到这里,“列表网址获取规则”部分就结束了。最终结果,如图(图14),
图14-设置后的URL获取规则列表
确认无误后,进行下一步。
1.2.3 设置文章 URL 匹配规则
图15-文章URL匹配规则
这里是设置采集列表页的匹配规则。
具体步骤:
(a)对于“区域开始的HTML”,可以在已打开的列表首页,单击右键后选择“查看源文件”查找出第一篇文章的标题“高清壁纸”来获得,如(图16)所示,
图16-查看源文件中第一篇文章文章的标题
通过观察,不难看出“”是整个列表的结尾,后面的“”是页面的换页部分。因此,在“HTML在该区域的末尾”中,您应该填写“”,表示到第一个的末尾。
(c) 观察图16和图17的文章title部分,我们可以发现标题的链接地址收录“=.html”。因此,您可以在“必须收录”中填写“=.html”。
到此,“文章URL 匹配规则”的设置就结束了。填写后,如图(图18),
图18-设置后文章URL匹配规则
通过以上三小节,添加采集节点的第一步已经搭建完成。设置后的最终结果,如图(图19),
图19-设置后新建采集节点:第一步设置基本信息和URL索引页面规则
一切都完成并检查后,点击“保存信息并进入下一步设置”。如果之前的设置正确,点击后会进入“新建采集节点:测试基本信息和URL索引页面规则设置的URL获取规则测试”页面,看到对应的文章列表地址。如图(图20),
图20-URL获取规则测试
确认无误后,点击“保存信息,进入下一步设置”。否则请点击“返回上一步修改”。
到此,第一部分结束。现在进入第二部分。 . .