无规则采集器列表算法(优采云采集器中是参数拼接地址的真实操作案例(组图))
优采云 发布时间: 2021-10-14 11:16无规则采集器列表算法(优采云采集器中是参数拼接地址的真实操作案例(组图))
[参数] 优采云采集器中是一个mark标签,用来匹配一些要提取的信息。为了区别于(*),(*)是一个通配符,用来表示一些应该被忽略的信息。
[参数]出现在内容URL获取和内容标签的常规提取中,如图:
[参数]、[参数1]、[参数N]呢?
这三者之间又是怎样的一种存在?
例如:
如果合肥和食物是我们需要提取和利用的内容,那么我们在编写提取规则时将它们标记为参数标签:[参数]/[参数]
拼接地址时,使用上面提取的参数。我们这里提取的参数已经排序好了,所以合肥和食物分别是我们提取的【参数1】和【参数2】。但是在写拼接地址的时候,我们会发现旁边的标签是【参数N】而不是【参数1】和【参数2】。为什么?
其实【参数N】的作用就是点击一次,【参数1】会自动出现,再次点击时,【参数2】,【参数3】会依次出现,方便情况需要使用多个参数的地方。
如果依次出现的参数序号与拼接目标不同,我们也可以自行修改序号来调整参数位置,如上图动态图所示~
我知道如何使用它,但它在哪里使用?下面是一个在大众点评中使用参数拼接地址的真实操作案例:
进入商户列表页面后,我们需要获取商户地址,点击商户可以看到地址格式。
回到列表页面查看页面源码,可以发现商家地址不完整,所以我们需要借用源码中的信息拼接一个完整的内容页面地址。这时候就可以借助参数提取源码中的内容页面地址信息了,不说了,看下图的规则。
点击【参数N】后,这里的【参数1】就出来了。内容页地址拼接完成后,我们来测试一下~
这样拼接就成功了~