文章采集规则( 如何使用采集功能去采集一个图片类的网站?)

优采云 发布时间: 2021-09-02 02:10

  文章采集规则(

如何使用采集功能去采集一个图片类的网站?)

  如何使用Dedecms采集功能---图片采集(一)

  前言:这个文章主要介绍了如何使用采集函数来采集一个图片类网站。本次选定的目标站点为:站酷精品欣赏版块。网址是:。本文将介绍如何处理收录分页的采集 页面以及如何使用简单的过滤规则。本文分为三部分:第一部分主要介绍如何进入采集界面以及添加采集节点的第一步:设置基本信息和URL索引页面规则;第二部分主要介绍添加采集节点的第二步:设置字段获取规则;第三部分主要介绍如何采集指定一个节点以及如何导出采集内容。

  输入下面的第一部分。

  1.1进入采集node管理界面

  如图(图1),在后台管理界面主菜单中点击“采集”,然后点击“采集node管理”进入采集节点管理界面,如(图片2)显示。

  

  图1-后台管理界面

  

  图2-采集Node 管理界面

  1.2. 添加新节点

  在采集节点管理界面,点击左下角“添加新节点”或右上角“添加新节点”(如2),可进入“选择内容模型” " 界面,如( 如图3),

  

  图3-选择内容模型界面

  在“选择内容模型”界面的下拉列表框中,有“General文章”和“图片集”可供选择。

  根据页面类型为采集,选择对应的内容模型。本文选择“图片采集”,点击确定,进入“添加采集节点:第一步设置基本信息和URL索引页面规则”界面,如图(图4),

  

  图4-新建采集节点:第一步设置基本信息和URL索引页面规则

  1.2.1 设置基本节点信息

  

  图5-基本节点信息

  如图(图片5),这里只是获取“目标页面代码”的方法,其他设置请参考前面的文章。具体步骤:

  (a) 打开采集的目标页面:;

  (b) 右击选择“查看源文件”,找到“字符集”,如图(图6),

  

  图6-查看源文件

  等号后面的代码是要填写的“编码格式”,这里是“utf-8”。

  填写后,如图(picture7),

  

  图7-设置后节点的基本信息

  检查后,进入下一步。

  1.2.2 设置列表网址获取规则

  

  图8-列出URL获取规则

  如图(图片8),这里是设置采集文章list页面的匹配规则。具体步骤:

  (a) 首先回到打开的列表页面,找到浏览器的URL地址栏中显示的URL和页面的换页部分。如图(图9)和(图10),

  )

  

  图9-浏览器的URL地址栏

  

  图 10 页面变化

  (b) 点击“2”打开文章列表页面的第二页,再次找到浏览器的URL地址栏中显示的URL和页面的换页部分,如图(图12)和(如图13),

  

  图11-第二页的URL

  

  图12-第二页的换页

  (c) 在打开的列表页的第二页,点击(1),返回到列表页的第一页,然后页面的换页部分和上图10一样,但是浏览设备的URL地址栏中显示的URL与之前的图9不同,如图(图13),

  

  图13-第一页的URL

  (d) 从(b)和(c)可以推断出采集的列表页的URL遵循以下规则:

  !0!0!200!(*)!1!0!0/.为安全起见,请自行测试更多列表页面。确定规则后,在“匹配网址”中填写规则后跟列表页。

  (e) 最后根据需要指定采集的页码或正则数,并设置递增的正则。

  到这里,“列表网址获取规则”部分就结束了。最终结果,如图(图14),

  

  图14-设置后的URL获取规则列表

  确认无误后,进行下一步。

  1.2.3 设置文章 URL 匹配规则

  

  图15-文章URL匹配规则

  这里是设置采集列表页的匹配规则。

  具体步骤:

   (a)对于“区域开始的HTML”,可以在已打开的列表首页,单击右键后选择“查看源文件”查找出第一篇文章的标题“高清壁纸”来获得,如(图16)所示,

  

  图16-查看源文件中第一篇文章文章的标题

  通过观察,不难看出“”是整个列表的结尾,后面的“”是页面的换页部分。因此,在“HTML在该区域的末尾”中,您应该填写“”,表示到第一个的末尾。

  (c) 观察图16和图17的文章title部分,我们可以发现标题的链接地址收录“=.html”。因此,您可以在“必须收录”中填写“=.html”。

  到此,“文章URL 匹配规则”的设置就结束了。填写后,如图(图18),

  

  图18-设置后文章URL匹配规则

  通过以上三小节,添加采集节点的第一步已经搭建完成。设置后的最终结果,如图(图19),

  

  图19-设置后新建采集节点:第一步设置基本信息和URL索引页面规则

  一切都完成并检查后,点击“保存信息并进入下一步设置”。如果之前的设置正确,点击后会进入“新建采集节点:测试基本信息和URL索引页面规则设置的URL获取规则测试”页面,看到对应的文章列表地址。如图(图20),

  

  图20-URL获取规则测试

  确认无误后,点击“保存信息,进入下一步设置”。否则请点击“返回上一步修改”。

  到此,第一部分结束。现在进入第二部分。 . .

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线