火车头采集器标签循环采集
优采云 发布时间: 2020-04-28 11:00我们要采集一个页面里面同样格式的多条数据的时侯,就可以针对一条信息设置好规则,勾选下标签循环匹配,就可以把满足这个规则的所有数据采集到如下图:
比如采集这个网站:;method=doquery&querysid=g0002&showpage=1
我们查看页面源代码,我把源代码复制到txt上面做了些简单的处理,让你们看的更明白如下图:
上图听到船名都是“”开始“”结束火车头采集教程,我们构建一个规则分别是以“”开始和以“”结束。
规则设置如下图:
采集结果如下:
左侧标签循环处理哪里选了“添加为新记录”,右侧看见了船名都早已采集到了,并且每位船名都是一条独立的信息,
看到上图两侧有个选项“循环不足的记录以第一条记录补全”勾选上这个,如果在循环过程中有的信息没有采集到火车头采集教程,就会用采集到的第一条数据填充。
假如两侧标签循环处理哪里选了“用分隔符链接在上条的记录后” 然后在下边的“分隔符”哪一项设置分隔符,如下图:
测试结果如下:
上图可以看见每次循环采集到的结果都是用我们设置的分隔符联接上去做为一条信息,注意和前面选择“添加为新记录”,采集结果的不同。
我们通过页面源代码,知道这个是个表格,那么我们就多说些,表格怎么采集。如果我们还要继续采集更多信息如下图的“英文船名”,“航次”等等。
我们打开页面源代码见到这种信息的开始都是以“”开始以“”结束,我们设置规则的时侯才会太困难,如右图
那么看下我是怎样采集到“英文船名”的规则如下:
在看下我采集“航次”规则是怎样设置的:
设置完后测试采集如下图:
成功采集了!
原理就是都是以“”开始这么我们就通过这个字符出现的次数来划分,结束字符全部都是“”。
上面设置的规则恰好说明了这个一点,船名是在第一次出现的旁边,英文船名是在第二次出现“”的旁边,航次是在第三次出现“”的前面。。。。。。。
后面以此类推,中间不需要的东西我们就用“(*)”代替,表示任意。可以自己尝试写写。这个是常常采集表格要用的。
(资源库 )