优采云采集原理和流程执行逻辑遵循2个原则
优采云 发布时间: 2021-08-27 06:13优采云采集原理和流程执行逻辑遵循2个原则
通过前面的学习,我们已经掌握了列表数据、表格数据、点击多个链接后的详细页面数据,以及实现翻页的任务配置方法。
在此基础上,本课将详细讲解优采云的采集原理和流程执行逻辑,让大家对优采云采集数据方法有更深入的了解。
一、优采云采集principle
1、 模拟人类行为并通过内置的 Chrome 浏览器浏览网络数据。
所以采集data的第一步总是找到目标URL并输入。这与通过普通浏览器访问网页完全相同。
普通浏览器需要点击链接进入详情,点击页面按钮查看更多数据,优采云也是如此。
2、根据网页特点和采集要求设计采集流程,优采云根据流程全自动采集data。
通常我们浏览网页的行为不会被记录。例如:这次在京东输入关键词【手机】查询相关商品数据,下次需要输入。
在使用优采云采集数据时,我们需要根据网页特性和采集需求设计采集流程,并记录我们的采集需求。那么优采云就可以按照设计好的采集流程全自动完成采集数据了。
例如:前几节课学到的,我们需要采集页面上所有产品的列表,我们会做一个【循环-提取数据】的步骤。 采集当页面多需要翻页时,我们会做一个【循环翻页】的步骤。
二、[采集process] 执行逻辑
优采云通过[采集process]全自动采集数据。 [采集Process] 执行逻辑遵循2个原则:先从上到下,再从内到外。
【采集Process】由两部分组成:【蓝步骤】和【灰框】。 【蓝色步骤】是将要执行的步骤,优采云与网页交互。 【灰盒】起到记录网页的作用。
鼠标移到图片上,右击选择【在新标签页中打开图片】查看高清大图
同样适用于下面的其他图片
看几个例子,更深入地理解[采集process]执行逻辑。
示例 1:
示例 2:
示例 3:
特别说明:
一个。 [采集Process] 没有固定标准,满足网页本身的跳转逻辑即可。
B.在[采集process]中可以设置多个点击步骤和多个嵌套循环,实现网页上的多级数据采集。
c. [采集process]中的步骤可以拖动调整位置。用鼠标选择步骤并将其拖动到所需步骤
位置。
看到这里的朋友,恭喜你完成了【自定义配置采集数据】的所有入门课程。现在,你已经掌握了基本的data采集技巧!
如有任何问题或建议,请通过QQ、电话、客服系统等官网右侧渠道联系我们!