技巧干货:优采云采集器教程之手动剖析链接
优采云 发布时间: 2020-08-29 03:26优采云采集器教程之手动剖析链接
自动剖析链接
网址采集里最常用的就是手动剖析链接。程序可以剖析出
我们先测试下可以采到我们须要的网址不?我们选用昨天的网址来测试,先添加网址
点完成,在任务里就可以看见见网址了。
我们点开始测试网址,就可以看见有好多网址采集下来。但是有很多不是我们须要的,怎么办呢?我们可以 采选取区域的网址,
我们仔细看代码,就可以发觉在
和之间是文章列表内容,而且这两个标记是惟一的,我们就借此为分页区域。
在没有任务设置的情况下采到的是89条,我们这儿设置区域后获得30条,刚好是列表里的网址数,这就是我们须要的。规 则下载。
这只是一个列表页的,想把 搜索&SEO 这个栏目的所有文章采出来,怎么办呢? 我先剖析一下所有列表页网址规律。
首页的网址是,第二页的网址是http: ///browse/9/list_2.shtml,第三页的网址是 ,第100页的网址是
我们可以看出这种网址是有序递增的,同时我们发觉首 页还有另一个网址,我们用批量多页一次就可以加完。
这样就可以完全的采集所有的网址了。规 则下载
上边这是一个用设置采集区域来采集网址的方式,还有一个收录和不收录采网址的选项,如果在选取区域内有其它的不同类的网址,如 这样的,你可以用文章内容页网址收录 或是不收录asp这样的字符来过滤掉这些不需要的网址。