无限极列表网址采集

优采云 发布时间: 2020-08-18 15:49

  无限极列表网址采集

  我们晓得采集器的工作流程是从列表页采集到内容页的地址,然后才会根据规则采集内容页上面对应的内容。

  比如我们采集“幽默笑话”这个分类下的文章 这个地址就是我们列表页的地址了

  

  我们在起始网址:那里添加列表页地址

  然后在多级网址获取:那里设置,采集到分类下边的内容页地址

  这个是我们写采集规则的通常步骤,也叫1级网址获取,整个过程是从分类页地址采集内容页地址。

  假如遇见从大分类页地址采集小分类页地址(或者分类还可以有更多级),然后在采集到内容页地址,我们的思路是从大分类,采集到小分类,然后在采集小分类采集内容页地址,上图说明

  

  我们从“经典网文”这个大分类,采集下面“幽默笑话”,“冷笑话”等等小分类分类

  我们把经典网文 做为起始地址 然后在多级网址获取那儿,设置规则,采集到小分类的地址如下图:

  

  选择你比较在行的方法获取到小分类的地址

  

  我们来测试网址采集结果:

  

  看到我们早已把小分类的地址采集到了,下面我们就要采集小分类下的文章地址了

  

  我们再度,在多级网址获取那儿添加获取小分类下文章地址采集设置,同样选择你比较熟悉的获取方法,我用的是第一种:

  

  保存好后如下图:

  

  测试结果如下图:

  

  点开一个小分类地址 下面就是此分类下的文章地址

  起始页是0级网址,采集到的小分类地址是1级网址,文章地址是2级地址,这样一次类推。从而实现无限极列表网址采集。我们这儿只是设置了3级,其实这样是可以设置无限极,添加方法是

  一样的,希望你们能举一反三。

  还有一点如果,你要采集的地址不是列表页地址,就是直接是做为内容页采集比如我要直接采集这个地址

  把这个地址添加到起始页地址上面之后多级那儿留空如下图:

  

  我们测试下

  

  采集器就不会采集这个地址下边的地址了。直接把这个地址当内容页采集。也就是常说的0级采集。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线