网站内容采集器(优采云采集器进入列表页后如何进一步获取内容页网址?)

优采云发布时间: 2021-10-04 09:20

　　我们在使用采集的时候，往往需要先从网页的初始URL中获取内容页面的URL。那么进入列表页面后，如何进一步获取内容URL呢？请看一下内容页URL 采集规则是如何制定的。

　　其中，内容 URL 获取有两种类型：常规模式和高级模式。1.普通模式：该模式默认捕获一级地址，即从起始页的源码中获取到内容页A的链接。它有两种方式： a．自动获取地址链接 b．手动设置获取规则。2.高级模式：该模式对0级、多级、POST类URL爬取有效。即起始网址为内容页网址；或者多级列表URL采集需要获取最终的内容页面链接；或者在post URL类型爬取的情况下使用高级模式。这里详细描述了普通模式a和b两种模式采集的具体操作，高级模式后面会讲解。【常规模式】自动获取地址链接。自动获取地址链接：自动获取该级别列表页面所有标签中的URL链接。比如新浪大陆新闻：

　　得到的结果如图：

　　根据统计，我们可以看到一共找到了81个一级网址，但是我们实际需要抓取的一级网址是每页40个，说明有我们不需要的链接，所以我们可以按区域设置和链接过滤。过滤以获取我们需要的链接。点击浏览器查看网页源码，分析源码。所需链接应满足以下条件：起始字符串为结束字符串

　　我们在设置区填写，再次测试，查看结果。通过测试可以看出结果是正确的，如下图所示。

　　[常规模式] b. 手动设置规则获取

　　对于某些脚本生成的 URL，采集器无法自动识别。这时候就必须手动设置规则才能获取。手动设置规则的原理是编写脚本规则来匹配源代码中的内容，然后获取自己设置的参数。其中，抽取规则中的[parameter]、(*)、[label:XXX]都是通配符，可以配置任意字符，但不同的是[parameter]有返回值，一般使用对于拼接地址，(*)没有返回值，[Label:XXX]有返回值，返回值给标签。比如新浪大陆新闻：

　　源代码如下：

　　山西公布政府部门职责清单，建立反腐倡廉机制（10月10日20:20)

　　河南登封市长被传与史彦禄关系密切，为贪污建庙（10月10日20:14)

　　张家界市国土资源局副局长涉嫌严重违纪被立案调查（10月10日19:45)

　　此时，我们可以将其中一个代码作为循环匹配，将我们想要获取的链接替换为[参数]，并将采集中的值替换为一个标签。填写抽取规则如下：

　　参数]" target="_blank">[label:title]([label:time])

　　如上图所示，会自动匹配符合格式的源代码。内容页地址链接从参数中获取，标题和时间分布在标签中。

　　至此，网站Grab Wizard优采云采集器V9已经完成了获取内容URL的通用模式设置。只要你读过，你会发现它更容易，优采云采集器V9软件需要大家多学习，所以上手会很容易。返回搜狐查看更多

0

2021-10-04

网站内容采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容采集器(优采云采集器进入列表页后如何进一步获取内容页网址?)

0 个评论

发起人

AI时代内容工厂

网站内容采集器(优采云采集器进入列表页后如何进一步获取内容页网址?)

0 个评论

发起人

相关问题