文章采集规则(到织梦dedecms如何处理被采集页面含有以及如何使用简单的过滤规则)

优采云 发布时间: 2021-12-16 23:53

  文章采集规则(到织梦dedecms如何处理被采集页面含有以及如何使用简单的过滤规则)

  本文将介绍织梦dedecms 如何处理采集 页面中收录的分页符以及如何使用简单的过滤规则。本文分为三部分:第一部分主要介绍如何进入采集界面以及添加采集节点的第一步:设置基本信息和URL索引页面规则;第二节,主要是引入新的采集节点的第二步:设置字段获取规则;第三部分主要介绍如何采集指定节点以及如何导出采集的内容。

  现在进入第一部分。

  1.1进入采集节点管理界面

  如图(图1),在后台管理界面主菜单中点击“采集”,然后点击“采集节点管理”进入采集节点管理界面,如图(图2).

  

  图1-后台管理界面

  

  图2-采集节点管理界面

  1.2. 添加新节点

  在采集节点管理界面,点击左下角的“添加新节点”或右上角的“添加新节点”(如2),可以进入“选择内容”模型”界面,如(如图3),

  

  图3-选择内容模型界面

  在“选择内容模型”界面的下拉列表框中,有“普通文章”和“图片集”可供选择。

  根据页面类型为采集,选择对应的内容模型。本文选择“图片采集”,点击确定,进入“添加采集节点:第一步是设置基本信息和URL索引页面规则”界面,如图(图4) ,

  

  

  图4-新建采集节点:第一步是设置基本信息和URL索引页面规则

  1.2.1 设置基本节点信息

  

  图5-节点基本信息

  如图(图5),这里只是获取“目标页面代码”的方法,其他设置请参考前面的文章。具体步骤:

  (A) 打开采集的目标页面:;

  (B) 右击选择“查看源文件”,找到“字符集”,如图(图6),

  

  图6-查看源文件

  等号后面的代码就是要填写的“编码格式”,这里是“utf-8”。

  填写后,如图(图7),

  

  图7-设置后节点的基本信息

  检查无误后,进入下一步。

  1.2.2 设置获取列表URL的规则

  

  图8-列出URL获取规则

  如图(图8),这里是设置采集的文章列表页的匹配规则。具体步骤:

  (A) 首先回到打开的列表页面,找到浏览器的URL地址栏中显示的URL和页面的换页部分。如图(图9)和(图10),

  

  图9-浏览器的URL地址栏

  

  图10-页面变化

  (B) 点击“2”打开文章列表页第二页,再次找到浏览器URL地址栏中显示的URL和页面的换页部分,如图(图12)和(如图13),

  

  图11-第二页的URL

  

  图 12-第二页上的页面提要

  (C) 在打开的列表页的第二页,点击(1)返回到列表页的第一页。此时页面的换页部分与上图10相同,但是浏览器在URL地址栏中显示的URL与之前的图9不同,如图(图13),

  

  图13-第一页的URL

  (D) 从(b)和(c)可以推断出采集的列表页的URL遵循以下规则:

  !0!0!200!(*)!1!0!0/. 为安全起见,请自行测试更多列表页面。确定规则后,在“匹配网址”中填写规则后跟列表页。

  (E) 最后根据需要指定采集的页码或正则数,并设置递增的正则。

  至此,“列表URL获取规则”部分的设置就结束了。最终结果,如图(图14),

  

  图14-列出设置后的URL获取规则

  确认无误后,进行下一步设置。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线