自动采集编写(如何使用采集功能去采集一个图片类的网站(组图))

优采云 发布时间: 2022-01-22 11:21

  自动采集编写(如何使用采集功能去采集一个图片类的网站(组图))

  前言:本文章主要介绍如何使用采集函数来采集一个图片类网站。本次选择的目标站点为:战酷网名作鉴赏栏目,网址为:. 本文将介绍如何处理收录 采集 分页的页面以及如何使用简单的过滤规则。本文分为三个部分: 第1部分主要介绍如何进入采集界面以及添加新采集节点的第一步:设置基本信息和URL索引页面规则;第二节,主要是引入新的采集节点的第二步:设置字段获取规则;第三节主要介绍采集如何指定节点以及如何导出采集内容。

  进入下面的第一部分。

  1.1进入采集节点管理界面

  如图1),在后台管理界面主菜单点击“采集”,再点击“采集节点管理”进入采集节点管理界面,如图(图2).

  

  图 1 - 后台管理界面

  

  图2-采集节点管理界面

  1.2. 添加新节点

  在采集节点管理界面,点击左下角“添加新节点”或右上角“添加新节点”(如图2),可以输入“选择内容模型”界面,如(如图3),

  

  图 3 - 选择内容模型界面

  在“选择内容模型”界面的下拉列表框中,有“普通文章”和“图片采集”可供选择。

  根据页面类型为采集,选择对应的内容模型。本文选择“图片采集”,点击确定,即可进入“添加采集节点:第一步设置基本信息和URL索引页面规则”界面,如图(图4)@ > ,

  

  图4 - 添加采集节点:第一步设置基本信息和URL索引页面规则

  1.2.1 设置节点基本信息

  

  图 5 - 节点基本信息

  如图(图5),这里只是获取“目标页面代码”的方法,其他设置请参考前面的文章。具体操作步骤:

  (a) 打开 采集: 所针对的目标页面;

  (b) 右击选择“查看源文件”找到“charset”,如图(图6),

  

  图 6 - 查看源文件

  等号后面的代码就是需要填写的“编码格式”,这里是“utf-8”。

  填写后,如图(图7),

  

  图 7 - 设置后节点的基本信息

  检查后,进入下一步。

  1.2.2 设置列表URL获取规则

  

  图 8 - 列出 URL 获取规则

  如(图8),这里是设置采集的文章列表页的匹配规则。具体步骤:

  (a) 首先,回到打开的列表页面,找到浏览器的URL地址栏中显示的URL和页面的分页符部分。如(图9)和(图10))所示,

  

  图 9 - 浏览器的 URL 地址栏

  

  图 10 - 页面提要

  (b) 点击“2”打开文章列表页面的第二页,再次找到浏览器的URL地址栏显示的URL和页面的换页部分,如图(图12)和(如图13),

  

  图 11 - 第二页的 URL

  

  图 12 - 第二页上的换页

  (c) 在打开的列表页第二页,点击(1)返回列表页第一页,页面换页部分同上图10,只是浏览器URL地址栏显示的URL与上图9不同,如图(图13),

  

  图 13 - 第一个页面的 URL

  (d) 由(b)和(c)可知,这里采集的列表页的URL遵循如下规则:

  !0!0!200!(*)!1!0!0/. 为了安全起见,请为自己测试更多列表页面。规则确定后,在“匹配网址”中,填写列表页后面的规则。

  (e) 最后,根据需要指定采集的页码或常规数,并设置其递增规则。

  至此,“List URL获取规则”部分就设置好了。最终结果,如图(图14)@>,

  

  图 14 - 设置后的 URL 获取规则列表

  确认无误后,进行下一步。

  1.2.3设置文章网址匹配规则

  

  图 15 - 文章 URL 匹配规则

  下面是设置采集列表页的匹配规则。

  具体步骤:

   (a)对于“区域开始的HTML”,可以在已打开的列表首页,单击右键后选择“查看源文件”查找出第一篇文章的标题“高清壁纸”来获得,如(图16)所示,

  

  图 16 - 查看源文件中第一个 文章 的标题

  通过观察不难看出,“”是整个列表的结尾,后面的“”是页面的分页符。所以,在“HTML 结尾区域”中,应该用“”填充,意思是到第一个结尾。

  (c) 观察图16和图17中文章的标题部分,可以发现标题的链接地址收录“=.html”。因此,在“必须收录”中,填写“=.html”。

  至此,“文章URL匹配规则”就设置好了。填写后,如图(图18),

  

  图 18 - 文章 设置后的 URL 匹配规则

  通过以上三个小节,已经设置了添加采集节点的第一步。设置后的最终结果,如图(图19),

  

  图19 - 设置后新增采集节点:第一步设置基本信息和URL索引页面规则

  全部完成并勾选后,点击“保存信息并进入下一步”。如果前面设置正确,点击后会进入“添加采集节点:测试URL索引页面规则设置的基本信息和URL获取规则测试”页面,看到对应的文章列表地址. 如图(图20),

  

  图 20 - URL 获取规则测试

  确认无误后,点击“保存信息并进入下一步”。否则,单击“返回上一步进行更改”。

  至此,第一章结束

  2.1增加了一个采集节点:第二步设置内容字段获取规则

  点击“保存信息并进入下一步”后,可以进入“添加采集节点:步骤2设置内容字段获取规则”页面,如图(图21),

  

  图 21 - 设置内容字段获取规则

  在预览网址,系统会自动指定一个文章作为演示页面,如有特殊需要可自行更改。打开演示页面,观察页面收录分页,如图(图22),

  

  图 22 - 分页

  让我们为分页部分设置匹配规则。

  具体步骤:

  (a) 在页面的源码中,找到分页代码的开头和结尾,如图(图23),

  

  图 23 - 分页代码

  (b) 观察可见分页码位于“

  “和”

  ”。因此,在“内容分页导航所在区域匹配规则”中,应填写“[内容]

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线