不用采集规则就可以采集(采集安居客小区信息为例讲解优采云采集器V9的多页设置)
优采云 发布时间: 2021-08-28 15:13不用采集规则就可以采集(采集安居客小区信息为例讲解优采云采集器V9的多页设置)
在采集webpage信息的过程中,经常会遇到信息不在同一个页面上,所以需要用到多页功能。今天以采集安居客社区信息为例来讲解优采云采集器V9。多页设置。因为主要是解释多个页面,所以跳过了案例中的其他设置!
我们要抓取的信息包括社区的房屋数量,我们发现网页源代码中并没有这样的数据。数据的真实URL可以通过抓包软件fiddler抓包分析得到,参考下图:
通过URL可以找到一个ID参数“337684”,这样我们就可以在内容页源码中查看是否可以找到ID值
通过搜索,我们发现源代码中存在这个值,那么我们可以利用这个值拼接出多页功能中listing数量的URL,参考下图:
我们想在主页上添加多个页面。在内容采集 规则步骤的左下方有一个关联的多页面。我们点击+号添加多个页面
获取多页网址的原理与获取内容页网址的原理相同。规则也可以通过源代码找到。因为内容页中没有多页的完整链接,但是可以取URL中的ID参数,所以我们只需要获取ID,然后拼接出多页URL,参考下面图:
选择一个名称并保存多个页面。下一步,我们可以通过这个页面获取listing数量
添加标签,通过拼接多页网址分析获取数据规则,注意上图中的数据源,一定要选择关联多页。这样我们就可以通过多页功能获取隐藏房源数量的信息。你学会了吗?
安居客社区信息采集规则下载: