网站抓取精灵优采云采集器的多页抓取教程

优采云 发布时间: 2020-08-15 01:43

  流程:点击①创建多页,进行②多页设置,然后在数据来源③选择多页调用,最后按照多页源代码设置提取方法。

  

  下面重点讲解②,多页地址的两种获取方法:页面地址替换和源码中截取。

  1.页面地址替换:也就是默认页和多页地址有相同的地方,通过简单的替换就可以弄成多页地址。

  比较默认页“”和多页地址:“http: ///page/contactinfo.htm”之间的共同点,可以发觉默认页“creditdetail.htm”替换为“contactinfo.htm”就是我们的多页地址了。

  设置如下图:

  

  注:正则表达式中 (.*)为任意转义。$1,$2…$数字来根据次序对应里面(.*)表示的部份。若要对多页源码部份区域做限定,可在指定多页源码区域设置。若留空则默认返回多页整个源代码。设置好之后,点击测试查看结果即可。

  2.源码中截取:也就是多页的地址在默认页的页面源代码上面。

  如图,可以看见默认页源码中存在多页地址。

  

  所以设置如下:

  

  测试后如正确则保存即可。最后设置数据来源和提取方法,如图:

  

  注:如须要多级多页,则在多页地址获取方法选择须要的多页即可

  

  这两种获取方法你们把握了吗,今后在抓取网站时使用的上述操作就可以很容易地获取到关联的多页地址了,作为一款功能全面的,优采云采集器一定会充分考虑到用户的使用需求,以及怎样最大化实现便利。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线