优采云采集原理和流程执行逻辑遵循2个原则

优采云 发布时间: 2021-08-27 06:13

  优采云采集原理和流程执行逻辑遵循2个原则

  通过前面的学习,我们已经掌握了列表数据、表格数据、点击多个链接后的详细页面数据,以及实现翻页的任务配置方法。

  在此基础上,本课将详细讲解优采云的采集原理和流程执行逻辑,让大家对优采云采集数据方法有更深入的了解。

  一、优采云采集principle

  1、 模拟人类行为并通过内置的 Chrome 浏览器浏览网络数据。

  所以采集data的第一步总是找到目标URL并输入。这与通过普通浏览器访问网页完全相同。

  普通浏览器需要点击链接进入详情,点击页面按钮查看更多数据,优采云也是如此。

  2、根据网页特点和采集要求设计采集流程,优采云根据流程全自动采集data。

  通常我们浏览网页的行为不会被记录。例如:这次在京东输入关键词【手机】查询相关商品数据,下次需要输入。

  在使用优采云采集数据时,我们需要根据网页特性和采集需求设计采集流程,并记录我们的采集需求。那么优采云就可以按照设计好的采集流程全自动完成采集数据了。

  例如:前几节课学到的,我们需要采集页面上所有产品的列表,我们会做一个【循环-提取数据】的步骤。 采集当页面多需要翻页时,我们会做一个【循环翻页】的步骤。

  二、[采集process] 执行逻辑

  优采云通过[采集process]全自动采集数据。 [采集Process] 执行逻辑遵循2个原则:先从上到下,再从内到外。

  【采集Process】由两部分组成:【蓝步骤】和【灰框】。 【蓝色步骤】是将要执行的步骤,优采云与网页交互。 【灰盒】起到记录网页的作用。

  

  鼠标移到图片上,右击选择【在新标签页中打开图片】查看高清大图

  同样适用于下面的其他图片

  看几个例子,更深入地理解[采集process]执行逻辑。

  示例 1:

  

  示例 2:

  

  示例 3:

  

  特别说明:

  一个。 [采集Process] 没有固定标准,满足网页本身的跳转逻辑即可。

  B.在[采集process]中可以设置多个点击步骤和多个嵌套循环,实现网页上的多级数据采集。

  c. [采集process]中的步骤可以拖动调整位置。用鼠标选择步骤并将其拖动到所需步骤

  

  位置。

  

  看到这里的朋友,恭喜你完成了【自定义配置采集数据】的所有入门课程。现在,你已经掌握了基本的data采集技巧!

  如有任何问题或建议,请通过QQ、电话、客服系统等官网右侧渠道联系我们!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线