自动采集编写(优采云V8.2.0版新增边点击边采集示例: )
优采云 发布时间: 2021-12-17 20:09自动采集编写(优采云V8.2.0版新增边点击边采集示例:
)
网站有很多,点击【加载更多】或【显示20多】按钮可以翻页。搜狗微信首页和其他页面都是这种情况。
对于此类网页,新版优采云V8.2.0 增加了【点击和点击采集】的功能,您可以点击【加载更多】 button] 加载一个新数据,edge 采集 每次加载新数据。
示例:设置为5次点击,然后1次点击后,采集第一次点击后加载的数据,第二次继续点击,采集第二次点击后加载的数据... ...最多20次点击,采集 20次点击后加载的数据。
使用智能识别和自行配置的采集规则,可以实现【点击后采集】。具体设置方法如下。
一、使用智能识别实现【点击和点击采集】
示例网址:
Step1:在首页输入框中输入目标网址,点击【开始采集】,优采云会自动打开网页。
打开网页后,选择【智能识别网页】,等待智能识别完成。
智能识别结束后,可以看到它自动识别了页面的【滚动】、【加载更多按钮】和【列表数据】。
鼠标移到图片上右击,选择【在新标签页中打开图片】,即可查看高清大图
Step2:点击【生成采集设置】自动生成对应的采集流程,方便用户编辑修改。
Step3:如图所示,通过流程中生成的【循环加载更多按钮】+嵌入【循环列表】的步骤,可以边点击数据边点击。
但是这个过程还是存在一些问题,需要我们手动修改。
①注意观察页面,这个页面点击5次到最后,100条数据全部加载完毕,所以我们设置翻页次数为5次。进入【循环加载更多按钮】设置页面,发现优采云已经为我们自动设置好了。
②再看【翻页】这一步,因为这个网页不需要翻页,所以这一步是多余的,需要删除。注意在删除【滚动页面】之前需要先删除【循环列表】,以免误删。
Step4:点击左上角的【采集】,选择【Start Local采集】,优采云会自动启动采集数据。
注意观察页面:优采云点击一次,采集第一次点击加载的数据,第二次继续点击,采集第二次点击加载的数据... ...直到数据全部采集 完成。
二、自行配置采集 任务实现【点击采集】
如果不使用智能识别,如何自己配置采集任务实现【点击侧采集】?下面是详细的解释。
示例网址:
Step1:在首页输入框中输入目标网址,点击【开始采集】,优采云会自动打开网页。关闭智能识别,我们自己配置采集任务。
Step2:根据需求配置提取数据。在示例中,我们提取列表数据。提取方法请参考采集列表数据教程。
Step3:提取列表数据,过程中会自动生成【循环列表】步骤。自动生成的【循环列表】不能收录所有 100 个 文章 列表。我们需要修改XPath。
进入【循环列表】设置页面,修改XPath为:.//*[@id='pc_0_d']//li.
Step4:找到并选择【加载更多内容】按钮,在弹出的操作提示框中选择【循环点击单个元素】,自动生成【循环翻页】步骤。
【循环翻页】在步骤中嵌入了【循环列表】的步骤,方便我们点击采集数据。
再次注意页面,这个页面会被点击5次到最后,100条数据全部加载,所以我们设置翻页次数为5次。
Step4:点击左上角的【采集】,选择【Start Local采集】,优采云会自动启动采集数据。
注意观察页面:优采云点击一次,采集第一次点击加载的数据,第二次继续点击,采集第二次点击加载的数据... ...直到数据全部采集 完成。