软文采集器(优采云采集器V9地址的两种获取方式介绍及获取方法介绍)
优采云 发布时间: 2021-10-05 04:30软文采集器(优采云采集器V9地址的两种获取方式介绍及获取方法介绍)
公司介绍自网站获取,*敏*感*词*自网站获取。所以我们需要使用多页功能来实现。前者称为默认页地址,后者称为多页地址。
流程:点击①创建多页,进行②多页设置,然后在数据源③中选择多页调用,最后根据多页源码设置提取方式。
下面重点介绍②,获取多页地址的两种方式:页地址替换和源代码截取。
1. 页地址替换:即默认页和多页地址有相同的地方,通过简单的替换就可以变成多页地址。
对比默认页面“”和多页面地址:“”的共同点,可以发现默认页面“creditdetail.htm”替换为“contactinfo.htm”是我们的多页地址 NS。
设置如下:
注意:正则表达式中的 (.*) 是任何通配符。数字$1、$2...$ 依次对应于上面(.*) 所指示的部分。如果想限制多页源码的部分区域,可以设置在多页源码的指定区域。
如果留空,则默认返回整个源代码的多页。设置好后,点击Test查看结果。
2. 从源码中截取:即多个页面的地址在默认页面的页面源代码中。
如图,可以看到默认页面源码中有多个页面地址。
所以设置如下:
测试后,如果正确,请保存。最后,设置数据源和提取方式,如图:
注:如果需要多级多页,只需在多页地址获取方式中选择需要的多页即可
两种获取方式你掌握了吗?以后可以在捕获网站时,使用优采云采集器V9的上述操作,轻松获取关联的多页地址。一个功能齐全的网站抓取精灵,优采云采集器一定会考虑到用户的需求以及如何最大限度的方便
文章日照SEO网络转载,版权归原作者所有,如转载请注明出处:,侵权删除!