网页数据采集原理

优采云 发布时间: 2020-08-18 15:11

  网页数据采集原理

  2、根据网页特点和采集需求,设计采集流程,优采云根据流程全手动采集数据。

  平常我们浏览网页的动作不会被记录出来。例如:这次在易迅上输入关键词【手机】查询相关商品数据,下次还须要输。

  在用优采云采集数据的时侯,我们就须要依照网页特点和采集需求,设计采集流程,将我们的采集需求记录出来。之后优采云就能按照设计好的采集流程,全手动的采集数据。

  例如:在前几课小学到的,需采集页面上的所有商品列表,我们就做一个【循环-提取数据】的步骤。采集时有很多页,需要翻页,我们就做一个【循环翻页】的步骤。

  二、【采集流程】执行逻辑

  优采云通过【采集流程】全手动采集数据。【采集流程】执行逻辑遵守2个原则:先从上至下、再由内而外。

  【采集流程】由【蓝色步骤】和【灰色框】两大部份组成。【蓝色步骤】是会执行的步骤,优采云与网页发生互动。【灰色框】起记录网页的作用。

  

  鼠标放在图片上,右键,选择【在新标签页中打开图片】可查看高清大图

  下文其他图片同理

  来看几个实例,更深入理解【采集流程】执行逻辑。

  实例1:

  

  实例2:

  

  实例3:

  

  特别说明:

  a. 【采集流程】无固定标准,符合网页本身的跳转逻辑即可。

  b.【采集流程】中可设置多个点击步骤、多个嵌套循环,以实现网页多层级的数据采集。

  c. 【采集流程】中的步骤,可以拖动调整位置。鼠标选中步骤并拖住联通至想要的

  

  位置。

  

  看到这儿的小伙伴,恭喜您已经完成了【自定义配置采集数据】全部的入门课程。现在,您早已把握基础的数据采集技能啦!

  如果您有任何的问题与建议,请通过官网两侧QQ、电话、客服系统等多种渠道联系我们!

  作者:Aisling

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线