采集器的工作流程列表页采集到内容页的地址
优采云 发布时间: 2021-08-12 06:19采集器的工作流程列表页采集到内容页的地址
我们知道采集器的工作流程是从列表页采集到内容页的地址,然后就可以按照规则采集content页中对应的内容进行操作。
比如我们采集“幽默笑话”分类中文章的地址就是我们列表页的地址
我们在起始 URL 中添加列表页面的地址:那里
然后在多级URL中获取:设置在那里,采集到类别下的内容页地址
这是我们编写采集规则的一般步骤,也称为一级URL获取。整个过程来自分类页地址采集内容页地址。
如果遇到大类页地址采集小类页地址(或者类可以多级),然后采集到内容页地址,我们的思路是从大类开始,采集去小类,然后在采集小类采集content页面地址,上图说明
我们从采集下的“经典网文”、“诙谐笑话”、“冷笑话”等子类大类下手
我们以经典网页文本为起始地址,然后从多级网站获取,设置规则,采集到小类的地址如下:
选择自己比较熟练的方式获取子类地址
让我们测试 URL采集Result:
看到我们已经到了小类采集的地址,现在需要采集小类下的文章地址
我们在多级URL获取部分再次添加文章address采集设置,选择你比较熟悉的获取方式。我用的是第一个:
保存后如下图:
测试结果如下:
点击打开一个小分类地址。以下是该分类下的文章地址
起始页为0级URL,采集到达的子类地址为1级URL,地址文章为2级地址,以此类推。从而实现无限列表网址采集。我们这里只设置了3个级别,其实你可以这样设置无限极点,添加的方法是
同理,希望大家能有所推论。
还有一点,如果你要采集的地址不是列表页的地址,直接作为内容页采集比如我要直接采集这个地址
将此地址添加到起始页地址中,多级留空如下图:
我们测试过
采集器 不会是采集 以下的地址。只需将此地址用作内容页采集。它也通常被称为 0 级 采集。
网站采集相关服务,请联系我们:
QQ全年24小时在线:389311875 网址:“采集超市”