网页数据采集原理
优采云 发布时间: 2020-08-18 15:11网页数据采集原理
2、根据网页特点和采集需求,设计采集流程,优采云根据流程全手动采集数据。
平常我们浏览网页的动作不会被记录出来。例如:这次在易迅上输入关键词【手机】查询相关商品数据,下次还须要输。
在用优采云采集数据的时侯,我们就须要依照网页特点和采集需求,设计采集流程,将我们的采集需求记录出来。之后优采云就能按照设计好的采集流程,全手动的采集数据。
例如:在前几课小学到的,需采集页面上的所有商品列表,我们就做一个【循环-提取数据】的步骤。采集时有很多页,需要翻页,我们就做一个【循环翻页】的步骤。
二、【采集流程】执行逻辑
优采云通过【采集流程】全手动采集数据。【采集流程】执行逻辑遵守2个原则:先从上至下、再由内而外。
【采集流程】由【蓝色步骤】和【灰色框】两大部份组成。【蓝色步骤】是会执行的步骤,优采云与网页发生互动。【灰色框】起记录网页的作用。
鼠标放在图片上,右键,选择【在新标签页中打开图片】可查看高清大图
下文其他图片同理
来看几个实例,更深入理解【采集流程】执行逻辑。
实例1:
实例2:
实例3:
特别说明:
a. 【采集流程】无固定标准,符合网页本身的跳转逻辑即可。
b.【采集流程】中可设置多个点击步骤、多个嵌套循环,以实现网页多层级的数据采集。
c. 【采集流程】中的步骤,可以拖动调整位置。鼠标选中步骤并拖住联通至想要的
位置。
看到这儿的小伙伴,恭喜您已经完成了【自定义配置采集数据】全部的入门课程。现在,您早已把握基础的数据采集技能啦!
如果您有任何的问题与建议,请通过官网两侧QQ、电话、客服系统等多种渠道联系我们!
作者:Aisling