采集器的工作流程列表页采集到内容页的地址

优采云 发布时间: 2021-08-12 06:19

  采集器的工作流程列表页采集到内容页的地址

  我们知道采集器的工作流程是从列表页采集到内容页的地址,然后就可以按照规则采集content页中对应的内容进行操作。

  比如我们采集“幽默笑话”分类中文章的地址就是我们列表页的地址

  

  我们在起始 URL 中添加列表页面的地址:那里

  然后在多级URL中获取:设置在那里,采集到类别下的内容页地址

  这是我们编写采集规则的一般步骤,也称为一级URL获取。整个过程来自分类页地址采集内容页地址。

  如果遇到大类页地址采集小类页地址(或者类可以多级),然后采集到内容页地址,我们的思路是从大类开始,采集去小类,然后在采集小类采集content页面地址,上图说明

  

  我们从采集下的“经典网文”、“诙谐笑话”、“冷笑话”等子类大类下手

  我们以经典网页文本为起始地址,然后从多级网站获取,设置规则,采集到小类的地址如下:

  

  选择自己比较熟练的方式获取子类地址

  

  让我们测试 URL采集Result:

  

  看到我们已经到了小类采集的地址,现在需要采集小类下的文章地址

  

  我们在多级URL获取部分再次添加文章address采集设置,选择你比较熟悉的获取方式。我用的是第一个:

  

  保存后如下图:

  

  测试结果如下:

  

  点击打开一个小分类地址。以下是该分类下的文章地址

  起始页为0级URL,采集到达的子类地址为1级URL,地址文章为2级地址,以此类推。从而实现无限列表网址采集。我们这里只设置了3个级别,其实你可以这样设置无限极点,添加的方法是

  同理,希望大家能有所推论。

  还有一点,如果你要采集的地址不是列表页的地址,直接作为内容页采集比如我要直接采集这个地址

  将此地址添加到起始页地址中,多级留空如下图:

  

  我们测试过

  

  采集器 不会是采集 以下的地址。只需将此地址用作内容页采集。它也通常被称为 0 级 采集。

  网站采集相关服务,请联系我们:

  QQ全年24小时在线:389311875 网址:“采集超市”

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线