网站内容采集器(优采云采集器进入列表页后如何进一步获取内容页网址?)

优采云 发布时间: 2021-10-04 09:20

  网站内容采集器(优采云采集器进入列表页后如何进一步获取内容页网址?)

  我们在使用采集的时候,往往需要先从网页的初始URL中获取内容页面的URL。那么进入列表页面后,如何进一步获取内容URL呢?请看一下内容页URL 采集 规则是如何制定的。

  其中,内容 URL 获取有两种类型:常规模式和高级模式。1.普通模式:该模式默认捕获一级地址,即从起始页的源码中获取到内容页A的链接。它有两种方式: a.自动获取地址链接 b.手动设置获取规则。2.高级模式:该模式对0级、多级、POST类URL爬取有效。即起始网址为内容页网址;或者多级列表URL采集需要获取最终的内容页面链接;或者在post URL类型爬取的情况下使用高级模式。这里详细描述了普通模式a和b两种模式采集的具体操作,高级模式后面会讲解。【常规模式】自动获取地址链接。自动获取地址链接:自动获取该级别列表页面所有标签中的URL链接。比如新浪大陆新闻:

  得到的结果如图:

  

  根据统计,我们可以看到一共找到了81个一级网址,但是我们实际需要抓取的一级网址是每页40个,说明有我们不需要的链接,所以我们可以按区域设置和链接过滤。过滤以获取我们需要的链接。点击浏览器查看网页源码,分析源码。所需链接应满足以下条件:起始字符串为结束字符串

  我们在设置区填写,再次测试,查看结果。通过测试可以看出结果是正确的,如下图所示。

  

  

  [常规模式] b. 手动设置规则获取

  对于某些脚本生成的 URL,采集器 无法自动识别。这时候就必须手动设置规则才能获取。手动设置规则的原理是编写脚本规则来匹配源代码中的内容,然后获取自己设置的参数。其中,抽取规则中的[parameter]、(*)、[label:XXX]都是通配符,可以配置任意字符,但不同的是[parameter]有返回值,一般使用对于拼接地址,(*)没有返回值,[Label:XXX]有返回值,返回值给标签。比如新浪大陆新闻:

  源代码如下:

  山西公布政府部门职责清单,建立反腐倡廉机制(10月10日20:20)

  河南登封市长被传与史彦禄关系密切,为贪污建庙(10月10日20:14)

  张家界市国土资源局副局长涉嫌严重违纪被立案调查(10月10日19:45)

  此时,我们可以将其中一个代码作为循环匹配,将我们想要获取的链接替换为[参数],并将采集中的值替换为一个标签。填写抽取规则如下:

  参数]" target="_blank">[label:title]([label:time])

  

  如上图所示,会自动匹配符合格式的源代码。内容页地址链接从参数中获取,标题和时间分布在标签中。

  至此,网站Grab Wizard优采云采集器V9已经完成了获取内容URL的通用模式设置。只要你读过,你会发现它更容易,优采云采集器V9软件需要大家多学习,所以上手会很容易。返回搜狐查看更多

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线