自动采集编写(优采云V8.2.0版新增边点击边采集示例: )

优采云 发布时间: 2021-12-17 20:09

  自动采集编写(优采云V8.2.0版新增边点击边采集示例:

)

  网站有很多,点击【加载更多】或【显示20多】按钮可以翻页。搜狗微信首页和其他页面都是这种情况。

  对于此类网页,新版优采云V8.2.0 增加了【点击和点击采集】的功能,您可以点击【加载更多】 button] 加载一个新数据,edge 采集 每次加载新数据。

  示例:设置为5次点击,然后1次点击后,采集第一次点击后加载的数据,第二次继续点击,采集第二次点击后加载的数据... ...最多20次点击,采集 20次点击后加载的数据。

  使用智能识别和自行配置的采集规则,可以实现【点击后采集】。具体设置方法如下。

  一、使用智能识别实现【点击和点击采集】

  示例网址:

  Step1:在首页输入框中输入目标网址,点击【开始采集】,优采云会自动打开网页。

  打开网页后,选择【智能识别网页】,等待智能识别完成。

  智能识别结束后,可以看到它自动识别了页面的【滚动】、【加载更多按钮】和【列表数据】。

  

  鼠标移到图片上右击,选择【在新标签页中打开图片】,即可查看高清大图

  Step2:点击【生成采集设置】自动生成对应的采集流程,方便用户编辑修改。

  

  Step3:如图所示,通过流程中生成的【循环加载更多按钮】+嵌入【循环列表】的步骤,可以边点击数据边点击。

  但是这个过程还是存在一些问题,需要我们手动修改。

  ①注意观察页面,这个页面点击5次到最后,100条数据全部加载完毕,所以我们设置翻页次数为5次。进入【循环加载更多按钮】设置页面,发现优采云已经为我们自动设置好了。

  ②再看【翻页】这一步,因为这个网页不需要翻页,所以这一步是多余的,需要删除。注意在删除【滚动页面】之前需要先删除【循环列表】,以免误删。

  

  Step4:点击左上角的【采集】,选择【Start Local采集】,优采云会自动启动采集数据。

  注意观察页面:优采云点击一次,采集第一次点击加载的数据,第二次继续点击,采集第二次点击加载的数据... ...直到数据全部采集 完成。

  

  二、自行配置采集 任务实现【点击采集】

  如果不使用智能识别,如何自己配置采集任务实现【点击侧采集】?下面是详细的解释。

  示例网址:

  Step1:在首页输入框中输入目标网址,点击【开始采集】,优采云会自动打开网页。关闭智能识别,我们自己配置采集任务。

  

  Step2:根据需求配置提取数据。在示例中,我们提取列表数据。提取方法请参考采集列表数据教程。

  

  Step3:提取列表数据,过程中会自动生成【循环列表】步骤。自动生成的【循环列表】不能收录所有 100 个 文章 列表。我们需要修改XPath。

  进入【循环列表】设置页面,修改XPath为:.//*[@id='pc_0_d']//li.

  

  Step4:找到并选择【加载更多内容】按钮,在弹出的操作提示框中选择【循环点击单个元素】,自动生成【循环翻页】步骤。

  【循环翻页】在步骤中嵌入了【循环列表】的步骤,方便我们点击采集数据。

  再次注意页面,这个页面会被点击5次到最后,100条数据全部加载,所以我们设置翻页次数为5次。

  

  Step4:点击左上角的【采集】,选择【Start Local采集】,优采云会自动启动采集数据。

  注意观察页面:优采云点击一次,采集第一次点击加载的数据,第二次继续点击,采集第二次点击加载的数据... ...直到数据全部采集 完成。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线