采集器采集源(优采云采集器V9源码部分区域做限定,多页地址获取方式)

优采云 发布时间: 2022-04-16 22:06

  采集器采集源(优采云采集器V9源码部分区域做限定,多页地址获取方式)

  公司介绍取自网站,*敏*感*词*取自网站。所以我们需要使用多页功能来实现这一点。前者称为默认页地址,后者称为多页地址。

  流程:点击①创建多页,进行②多页设置,然后选择数据源③中的多页调用,最后根据多页源代码设置提取方式。

  

  下面重点介绍②,获取多页地址的两种方式:页地址替换和源码截取。

  1.页面地址替换:即默认页面和多页面地址在同一位置,通过简单的替换即可变为多页面地址。

  比较默认页面“”和多页面地址的共同点:“”,我们可以发现默认页面“creditdetail.htm”被替换为“contactinfo” .htm" 是我们的多页地址。

  设置如下:

  

  注意:正则表达式中的 (.*) 是任何通配符。 $1, $2...$ 数字依次对应上面 (.*) 所指示的部分。限制多页源码的局部区域,可以指定多页源码区域设置。

  如果留空,则默认返回多个页面上的整个源代码。设置好后点击Test查看结果。

  2.从源码截取:即多个页面的地址在默认页面的页面源码中。

  如图,可以看到默认页面源码中有多个页面地址。

  

  所以设置如下:

  

  测试后,如果正确,可以保存。最后设置数据源和提取方式,如图:

  

  注意:如果需要多级多页,可以在多页地址获取方式中选择需要的多页

  

  这两种获取方式你掌握了吗?以后在爬网站的时候,可以通过优采云采集器V9现在的上述操作,轻松获取关联的多页地址,作为全功能的网站@ >抓取精灵,优采云采集器一定会考虑到用户的需求,如何最大限度的方便

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线