自动采集编写(如何使用采集功能去采集一个图片类的网站(组图))
优采云 发布时间: 2022-01-22 11:21自动采集编写(如何使用采集功能去采集一个图片类的网站(组图))
前言:本文章主要介绍如何使用采集函数来采集一个图片类网站。本次选择的目标站点为:战酷网名作鉴赏栏目,网址为:. 本文将介绍如何处理收录 采集 分页的页面以及如何使用简单的过滤规则。本文分为三个部分: 第1部分主要介绍如何进入采集界面以及添加新采集节点的第一步:设置基本信息和URL索引页面规则;第二节,主要是引入新的采集节点的第二步:设置字段获取规则;第三节主要介绍采集如何指定节点以及如何导出采集内容。
进入下面的第一部分。
1.1进入采集节点管理界面
如图1),在后台管理界面主菜单点击“采集”,再点击“采集节点管理”进入采集节点管理界面,如图(图2).
图 1 - 后台管理界面
图2-采集节点管理界面
1.2. 添加新节点
在采集节点管理界面,点击左下角“添加新节点”或右上角“添加新节点”(如图2),可以输入“选择内容模型”界面,如(如图3),
图 3 - 选择内容模型界面
在“选择内容模型”界面的下拉列表框中,有“普通文章”和“图片采集”可供选择。
根据页面类型为采集,选择对应的内容模型。本文选择“图片采集”,点击确定,即可进入“添加采集节点:第一步设置基本信息和URL索引页面规则”界面,如图(图4)@ > ,
图4 - 添加采集节点:第一步设置基本信息和URL索引页面规则
1.2.1 设置节点基本信息
图 5 - 节点基本信息
如图(图5),这里只是获取“目标页面代码”的方法,其他设置请参考前面的文章。具体操作步骤:
(a) 打开 采集: 所针对的目标页面;
(b) 右击选择“查看源文件”找到“charset”,如图(图6),
图 6 - 查看源文件
等号后面的代码就是需要填写的“编码格式”,这里是“utf-8”。
填写后,如图(图7),
图 7 - 设置后节点的基本信息
检查后,进入下一步。
1.2.2 设置列表URL获取规则
图 8 - 列出 URL 获取规则
如(图8),这里是设置采集的文章列表页的匹配规则。具体步骤:
(a) 首先,回到打开的列表页面,找到浏览器的URL地址栏中显示的URL和页面的分页符部分。如(图9)和(图10))所示,
图 9 - 浏览器的 URL 地址栏
图 10 - 页面提要
(b) 点击“2”打开文章列表页面的第二页,再次找到浏览器的URL地址栏显示的URL和页面的换页部分,如图(图12)和(如图13),
图 11 - 第二页的 URL
图 12 - 第二页上的换页
(c) 在打开的列表页第二页,点击(1)返回列表页第一页,页面换页部分同上图10,只是浏览器URL地址栏显示的URL与上图9不同,如图(图13),
图 13 - 第一个页面的 URL
(d) 由(b)和(c)可知,这里采集的列表页的URL遵循如下规则:
!0!0!200!(*)!1!0!0/. 为了安全起见,请为自己测试更多列表页面。规则确定后,在“匹配网址”中,填写列表页后面的规则。
(e) 最后,根据需要指定采集的页码或常规数,并设置其递增规则。
至此,“List URL获取规则”部分就设置好了。最终结果,如图(图14)@>,
图 14 - 设置后的 URL 获取规则列表
确认无误后,进行下一步。
1.2.3设置文章网址匹配规则
图 15 - 文章 URL 匹配规则
下面是设置采集列表页的匹配规则。
具体步骤:
(a)对于“区域开始的HTML”,可以在已打开的列表首页,单击右键后选择“查看源文件”查找出第一篇文章的标题“高清壁纸”来获得,如(图16)所示,
图 16 - 查看源文件中第一个 文章 的标题
通过观察不难看出,“”是整个列表的结尾,后面的“”是页面的分页符。所以,在“HTML 结尾区域”中,应该用“”填充,意思是到第一个结尾。
(c) 观察图16和图17中文章的标题部分,可以发现标题的链接地址收录“=.html”。因此,在“必须收录”中,填写“=.html”。
至此,“文章URL匹配规则”就设置好了。填写后,如图(图18),
图 18 - 文章 设置后的 URL 匹配规则
通过以上三个小节,已经设置了添加采集节点的第一步。设置后的最终结果,如图(图19),
图19 - 设置后新增采集节点:第一步设置基本信息和URL索引页面规则
全部完成并勾选后,点击“保存信息并进入下一步”。如果前面设置正确,点击后会进入“添加采集节点:测试URL索引页面规则设置的基本信息和URL获取规则测试”页面,看到对应的文章列表地址. 如图(图20),
图 20 - URL 获取规则测试
确认无误后,点击“保存信息并进入下一步”。否则,单击“返回上一步进行更改”。
至此,第一章结束
2.1增加了一个采集节点:第二步设置内容字段获取规则
点击“保存信息并进入下一步”后,可以进入“添加采集节点:步骤2设置内容字段获取规则”页面,如图(图21),
图 21 - 设置内容字段获取规则
在预览网址,系统会自动指定一个文章作为演示页面,如有特殊需要可自行更改。打开演示页面,观察页面收录分页,如图(图22),
图 22 - 分页
让我们为分页部分设置匹配规则。
具体步骤:
(a) 在页面的源码中,找到分页代码的开头和结尾,如图(图23),
图 23 - 分页代码
(b) 观察可见分页码位于“
“和”
”。因此,在“内容分页导航所在区域匹配规则”中,应填写“[内容]