采集器的工作流程列表页采集到内容页的地址

优采云发布时间: 2021-08-12 06:19

　　我们知道采集器的工作流程是从列表页采集到内容页的地址，然后就可以按照规则采集content页中对应的内容进行操作。

　　比如我们采集“幽默笑话”分类中文章的地址就是我们列表页的地址

　　我们在起始 URL 中添加列表页面的地址：那里

　　然后在多级URL中获取：设置在那里，采集到类别下的内容页地址

　　这是我们编写采集规则的一般步骤，也称为一级URL获取。整个过程来自分类页地址采集内容页地址。

　　如果遇到大类页地址采集小类页地址（或者类可以多级），然后采集到内容页地址，我们的思路是从大类开始，采集去小类，然后在采集小类采集content页面地址，上图说明

　　我们从采集下的“经典网文”、“诙谐笑话”、“冷笑话”等子类大类下手

　　我们以经典网页文本为起始地址，然后从多级网站获取，设置规则，采集到小类的地址如下：

　　选择自己比较熟练的方式获取子类地址

　　让我们测试 URL采集Result：

　　看到我们已经到了小类采集的地址，现在需要采集小类下的文章地址

　　我们在多级URL获取部分再次添加文章address采集设置，选择你比较熟悉的获取方式。我用的是第一个：

　　保存后如下图：

　　测试结果如下：

　　点击打开一个小分类地址。以下是该分类下的文章地址

　　起始页为0级URL，采集到达的子类地址为1级URL，地址文章为2级地址，以此类推。从而实现无限列表网址采集。我们这里只设置了3个级别，其实你可以这样设置无限极点，添加的方法是

　　同理，希望大家能有所推论。

　　还有一点，如果你要采集的地址不是列表页的地址，直接作为内容页采集比如我要直接采集这个地址

　　将此地址添加到起始页地址中，多级留空如下图：

　　我们测试过

　　采集器不会是采集以下的地址。只需将此地址用作内容页采集。它也通常被称为 0 级采集。

　　网站采集相关服务，请联系我们：

　　QQ全年24小时在线：389311875 网址：“采集超市”

0

2021-08-12

无规则采集器列表算法

0 个评论

要回复文章请先登录或注册