无规则采集器列表算法(优采云采集器中是参数拼接地址的真实操作案例(组图))

优采云 发布时间: 2021-10-14 11:16

  无规则采集器列表算法(优采云采集器中是参数拼接地址的真实操作案例(组图))

  [参数] 优采云采集器中是一个mark标签,用来匹配一些要提取的信息。为了区别于(*),(*)是一个通配符,用来表示一些应该被忽略的信息。

  [参数]出现在内容URL获取和内容标签的常规提取中,如图:

  [参数]、[参数1]、[参数N]呢?

  这三者之间又是怎样的一种存在?

  

  例如:

  如果合肥和食物是我们需要提取和利用的内容,那么我们在编写提取规则时将它们标记为参数标签:[参数]/[参数]

  拼接地址时,使用上面提取的参数。我们这里提取的参数已经排序好了,所以合肥和食物分别是我们提取的【参数1】和【参数2】。但是在写拼接地址的时候,我们会发现旁边的标签是【参数N】而不是【参数1】和【参数2】。为什么?

  其实【参数N】的作用就是点击一次,【参数1】会自动出现,再次点击时,【参数2】,【参数3】会依次出现,方便情况需要使用多个参数的地方。

  

  如果依次出现的参数序号与拼接目标不同,我们也可以自行修改序号来调整参数位置,如上图动态图所示~

  我知道如何使用它,但它在哪里使用?下面是一个在大众点评中使用参数拼接地址的真实操作案例:

  

  进入商户列表页面后,我们需要获取商户地址,点击商户可以看到地址格式。

  

  回到列表页面查看页面源码,可以发现商家地址不完整,所以我们需要借用源码中的信息拼接一个完整的内容页面地址。这时候就可以借助参数提取源码中的内容页面地址信息了,不说了,看下图的规则。

  

  

  点击【参数N】后,这里的【参数1】就出来了。内容页地址拼接完成后,我们来测试一下~

  

  这样拼接就成功了~

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线