内容采集器(优采云采集器进入列表页后如何制作内容页网址采集规则)

优采云发布时间: 2021-12-23 03:22

　　我们在使用网站爬取向导做采集的时候，往往需要先从网页的初始URL中获取内容页面的URL，然后是优采云采集器进入列表页面，如何进一步获取内容URL，让新手看看如何制作内容页面URL采集规则。

　　在优采云采集器V9中，内容URL获取有两种：普通模式和高级模式。

　　1.普通模式：该模式默认捕获一级地址，即从起始页的源码中获取到内容页A的链接。它有两种方式： a．自动获取地址链接 b．手动设置规则获取。

　　2.高级模式：该模式对0级、多级、POST类URL爬取有效。即起始网址是内容页的网址；或者多级列表URL采集需要获取最终内容页面的链接；或者在post URL类型爬取的情况下使用高级模式。

　　这里详细说明了两种方法采集在普通模式a和b下的具体操作。高级模式将在后面解释。

　　【常规模式】自动获取地址链接

　　自动获取URL链接：自动获取该级别列表页面中所有标签的URL链接。比如新浪大陆新闻：

　　结果如图：

　　根据统计，我们可以看到一共81个一级网址，但是我们实际需要抓取的一级网址是每页40个，说明有不需要的链接，所以我们可以按区域设置和链接过滤。过滤以获取我们需要的链接。点击浏览器查看网页源码，分析源码。所需链接应满足以下条件：

　　开始字符串是结束字符串

　　我们在设置区填写，再次测试，查看结果。通过测试可以看出，结果是正确的，如下图所示。

　　[常规模式] b. 手动设置规则获取

　　对于某些脚本生成的 URL，采集器无法自动识别。这时候就必须手动设置规则才能获取。手动设置规则的原理是编写脚本规则，匹配源码中的内容，获取自己设置的参数。其中，抽取规则中的[parameter]、(*)、[label:XXX]都是通配符，可以配置任意字符，但不同的是[parameter]有返回值，一般用于拼接地址，(*)没有返回值，[Label:XXX]有返回值，返回值给标签。比如新浪大陆新闻：

　　源代码如下：

　　此时，我们可以将其中一个代码作为循环匹配，将我们想要获取的链接替换为[参数]，并将采集中的值替换为一个标签。填写抽取规则如下：

0

2021-12-23

内容采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

内容采集器(优采云采集器进入列表页后如何制作内容页网址采集规则)

0 个评论

发起人

AI时代内容工厂

内容采集器(优采云采集器进入列表页后如何制作内容页网址采集规则)

0 个评论

发起人

相关问题