采集网页数据并批量导入的方式

优采云 发布时间: 2020-08-09 08:23

  经过前几课的学习,我们早已把握了列表数据、表格数据、点击多个链接后的详情页数据、实现翻页的任务配置方式。

  任务配置完成后,需要启动一个采集任务,去全手动的采集数据。用优采云配置好的任务可运行在本地笔记本中,也可运行在云服务器上。

  数据采集完成之后,可选择Ecxel、CSV、HTML、数据库(SqlServer、MySql)、API等多种形式导入。

  一、启动采集任务

  1、【启动本地采集】

  【启动本地采集】即用自己的本地笔记本进行数据采集。常用于任务调试或小规模数据采集。【启动本地采集】后,会新开一个任务采集窗口,采集过程中不可关掉此采集窗口,否则将中断采集任务。

  

  鼠标放在图片上,右键,选择【在新标签页中打开图片】可查看高清大图

  下文其他图片同理

  在任务采集窗口中,我们可以清楚看见优采云的采集状态,进而判定采集任务是否正常执行。例:内置浏览器是否正常打开网页,是否正常翻页,是否正常提取数据...... 优采云提取到的数据,会显示在浏览器下方的数据预览窗口中。

  

  为了更好的观察采集状态,可点击

  

  按钮将数据预览窗口隐藏。再次点击

  

  按钮,即可再度彰显数据预览窗口。

  

  2、【启动云采集

  【启动云采集】即用优采云的云服务集群进行数据采集。在本地将任务配置完成,测试没有问题之后,可【启动云采集】,将任务交给优采云的云服务集群去采集。

  

  特别说明:

  a. 云采集是优采云旗舰版以上用户才可使用的。点击查看 版本套餐。

  b. 与【本地采集】相比,【云采集】具有以下优势:

  提高采集速度。云集群采用分布式布署形式,多节点同时采集,有效提升采集速度。

  实现无人值守。可关掉笔记本、软件进行数据采集,真正实现无人值守。

  配合【验证码手动辨识】【优质代理IP】,突破网站防采集策略。

  定时采集、自动入库、实时对接内部系统。云采集集群是7*24小时工作,可设置任务的定时采集。云采集数据可设置手动入库,通过API实时对接内部系统。

  

  二、数据导入

  数据采集完成之后,可选择须要的格式导入。

  【本地采集】数据可导入为:

  Ecxel、CSV、HTML

  数据库(SqlServer、MySql),需自动导入到数据库

  

  【云采集】数据可导入为:

  Ecxel、CSV、HTML

  数据库(SqlServer、MySql),可手动入库,查看手动入库教程

  API,通过调用API,无缝对接内部系统,查看API教程

  【云采集】数据默认保存3个月,之后将被永久删掉。请及时导入【云采集】数据

  

  作者:Aisling

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线