内容采集器(优采云采集器进入列表页后如何制作内容页网址采集规则)

优采云 发布时间: 2021-12-23 03:22

  内容采集器(优采云采集器进入列表页后如何制作内容页网址采集规则)

  我们在使用网站爬取向导做采集的时候,往往需要先从网页的初始URL中获取内容页面的URL,然后是优采云采集器进入列表页面,如何进一步获取内容URL,让新手看看如何制作内容页面URL采集规则。

  在优采云采集器V9中,内容URL获取有两种:普通模式和高级模式。

  1.普通模式:该模式默认捕获一级地址,即从起始页的源码中获取到内容页A的链接。它有两种方式: a.自动获取地址链接 b.手动设置规则获取。

  2.高级模式:该模式对0级、多级、POST类URL爬取有效。即起始网址是内容页的网址;或者多级列表URL采集需要获取最终内容页面的链接;或者在post URL类型爬取的情况下使用高级模式。

  这里详细说明了两种方法采集在普通模式a和b下的具体操作。高级模式将在后面解释。

  【常规模式】自动获取地址链接

  自动获取URL链接:自动获取该级别列表页面中所有标签的URL链接。比如新浪大陆新闻:

  结果如图:

  

  根据统计,我们可以看到一共81个一级网址,但是我们实际需要抓取的一级网址是每页40个,说明有不需要的链接,所以我们可以按区域设置和链接过滤。过滤以获取我们需要的链接。点击浏览器查看网页源码,分析源码。所需链接应满足以下条件:

  开始字符串是结束字符串

  我们在设置区填写,再次测试,查看结果。通过测试可以看出,结果是正确的,如下图所示。

  

  

  [常规模式] b. 手动设置规则获取

  对于某些脚本生成的 URL,采集器 无法自动识别。这时候就必须手动设置规则才能获取。手动设置规则的原理是编写脚本规则,匹配源码中的内容,获取自己设置的参数。其中,抽取规则中的[parameter]、(*)、[label:XXX]都是通配符,可以配置任意字符,但不同的是[parameter]有返回值,一般用于拼接地址,(*)没有返回值,[Label:XXX]有返回值,返回值给标签。比如新浪大陆新闻:

  源代码如下:

  

  ​

  此时,我们可以将其中一个代码作为循环匹配,将我们想要获取的链接替换为[参数],并将采集中的值替换为一个标签。填写抽取规则如下:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线