ET帮助 采集规则配置

优采云 发布时间: 2020-08-20 14:33

  ET帮助 采集规则配置

  一、数据分页设置页简介

  1、说明

  我们常常碰到一些网站在显示文章内容时,将内容分成了几个页面来显示,我们须要翻页能够依次阅览全部内容,当我们采集这类网站的文章时,就须要使用数据分页;在ET中,我们可以从两种分页方法中选择其二来采集分页,分别是‘采集方式’和‘逻辑形式’,[数据分页-采集方式设置页]见图示1:

  

  (图示1:采集方式数据分页)

  数据项从所属采集页(即第一个分页)源代码中用数据项采集规则剖析获取内容,然后分别从每一个分页源代码中单独用数据项采集规则剖析获取内容,这些内容将依次序合并,并以[内容分隔]标记 “ #-0-# ” 分隔;

  当访问分页失败时,不中断对该篇文章的采集;

  注:在2.4版曾经,分页仅对正文数据项有效,从2.4版开始,各个数据项都可以从分页中获取内容了。

  在2.4版曾经,是先将全部分页源代码依次合并后,再用数据项采集规则剖析获取内容;2.4版开始,是先单独从每位分页源代码中用数据项采集规则剖析获取内容后,再将获取的各个内容按次序合并。因此,2.4版之前使用了正文分页功能的采集规则,在升级到2.4版后可能会存在兼容问题,需要调整。

  二、启用采集方式

  采集方式是指通过预设的分页规则从数据分页所属采集页的源代码中用剖析规则获取分页网址的方法,这种方法设置上比逻辑形式复杂一些,但适用范围更广,见图示1;

  采集方式从数据分页所属采集页开始,依次提取每一个分页源代码中符合分页规则的非重复分页网址,这对于未在起始分页中显示全部分页网址的网站,也能采集到全部分页;

  要使用采集方式获取分页,请勾选[使用采集方式],见图示2:

  

  (图示2)

  数据分页是做为某一个采集页的分页存在的,而该采集页,就是第一个分页,例如一篇文章的内容页显示为多个分页,一件商品的评论页显示为多个分页,因此须要设置数据分页属于哪一个采集页,见图示2;

  为防止用户错误的配置引起分页采集陷入死循环,ET提供了最大分页数设置项,用以指定使用采集方式能采集的分页数目上限,分页数上限为2000,见图示3。

  三、分页区域规则

  1、说明

  [分页区域规则]用于指定收录分页网址的代码段,起到缩小并确切定位分页网址的剖析范围的作用,见图示3:

  

  (图示3)

  [分页区域规则]可以选填,当此项留空时将以整个[正文]数据项所属的页面的源代码为分页网址剖析对象,填写本项后,将以本项中区域标记所表示的源码作为分页网址剖析对象;

  点击

  

  图标,可以对[分页区域规则]进行测试;

  2、标记区

  [分页区域规则]有两个可用标记,见图示3;

  1、区域标记

  标记代码为,用于表示网页源码中收录分页网址的代码段,[区域标记]标记在规则中仅可使用一次,并不可和其他标记联接;

  2、变量标记

  标记代码为,用于表示源码中不需要采集的、连续的、零到任意数目的不确定字符串,[变量标记]标记在规则中可以多次使用,不可和其他标记联接;

  [变量标记]使用次数越多,会导致采集工作效率越低;

  关于标记更多说明见相关主题 ;

  3、参考范例

  [分页区域规则]的完善和 的构建形式相像,请参考该处的范例;

  四、分页链接规则

  1、说明

  [分页链接规则]为必填项,本项用以从[分页区域规则]确定的网页代码范围短发析出分页网址信息,见图示4:

  

  (图示4)

  点击

  

  图标,可以对[分页链接规则]进行测试;

  2、标记区

  [分页链接规则]有两个可用标记,见图示4;

  1、分页地址

  标记代码为,为必用项,用于表示分页网址中的特点字符串,将被用于[分页网址合成]处确定该分页的网址,[分页地址]标记在规则中仅可使用一次,并不可和其他标记联接;

  2、变量标记

  标记代码为,用于表示源码中不需要采集的、连续的、零到任意数目的不确定字符串,[变量标记]标记在规则中可以多次使用,不可和其他标记联接;

  [变量标记]使用次数越多,会导致采集工作效率越低;

  关于标记更多说明见相关主题 ;

  3、参考范例

  [分页链接规则]的完善和 的构建方法相像,请参考该处的范例;

  五、分页网址合成

  1、说明

  [分页网址合成]使用[分页链接规则]中获取的[分页地址]在此合成为完整分页网址,见图示5:

  

  (图示5)

  [分页网址合成]可以选填,留空时则直接使用[分页链接规则]中获取的[分页地址]为完整分页网址;

  合成后的完整分页网址若与之前合成的完整分页网址有重复,则被过滤;

  完整分页网址可以使用相对当前页的的相对链接和完整链接,如:“../../page-.htm” 、 “page.htm” 、 “.htm” 等;

  注:文章地址为计算机本地文件路径时分页网址必须为完整地址,不能使用相对地址;

  点击

  

  图标,可以对[分页网址合成]进行测试;

  2、标记区

  [分页网址合成]有一个可用标记,见图示5;

  1、分页地址

  标记代码为,为必用项,用于表示分页网址中的特点字符串,和[分页链接规则]中的[分页地址]标记为同一个标记,用于引用其值;

  关于标记更多说明见相关主题 ;

  3、参考范例

  [分页网址合成]的构建和 的构建方法相像,请参考该处的范例;

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线