配置好的任务可【启动本地采集】和云采集
优采云 发布时间: 2021-06-23 06:11配置好的任务可【启动本地采集】和云采集
通过前面的学习,我们已经掌握了列表数据、表格数据、点击多个链接后的详细页面数据,以及实现翻页的任务配置方法。
任务配置完成后,可以启动采集任务,会自动采集数据。配置好的任务可以在本地电脑【Start Local采集】上运行,也可以【Start Cloud采集】在优采云提供的云服务器上运行。本地采集和云端采集完成后得到的数据可以导出Ecxel、CSV、HTML、数据库(SqlServer、MySql)、API等多种格式。
一、[Start Local采集] 和 [Start Cloud采集]
1、【启动本地采集】
[Start Local采集] 的意思是使用你的本地计算机来获取数据采集。常用于任务调试或小规模数据采集。
鼠标移到图片上,右击选择【在新标签页中打开图片】查看高清大图
同样适用于下面的其他图片
【启动local采集】,会打开一个新任务采集窗口,采集期间不能关闭这个采集窗口,否则采集任务会中断。
在任务采集窗口中,我们可以清晰的看到优采云的采集状态,进而判断采集任务是否正常执行。示例:内置浏览器是否正常打开网页,是否正常翻页,是否正常提取数据...优采云提取的数据会显示在浏览器底部的数据预览窗口中.
为了更好的观察采集状态,请点击这里
按钮隐藏数据预览窗口。再次点击
按钮再次显示数据预览窗口。
2、【启动云采集】
【启动Cloud采集】优采云提供的云服务集群,用于数据采集。本地配置好任务,测试没有问题后,可以【启动Cloud采集】,将任务交给优采云的云服务集群到采集。
特别说明:
一个。 Cloud采集仅对优采云旗舰版以上的用户开放。点击查看版本包。
与[local采集]相比,[云采集]有以下优势:
1、improve 采集 速度。云集群采用分布式部署方式,多个节点同时为采集,有效提升采集速度。
2、 实现无人值守操作。可以关闭电脑和软件进行数据采集,真正无人值守。
3、timing采集。云端采集集群7*24小时工作,任务定时采集可设置。
4、配合【验证码自动识别】【优质代理IP】破解网站防采集策略。
5、Data 自动存入数据库。
6、使用数据导出API接口实现二级导出,与内部系统无缝对接。
二、数据导出
data采集完成后,可以选择需要导出的格式。
1、[local采集] 数据可以导出为:
Excel: ①导出Excel时,一个Excel文件最多可以有2W条数据。示例:一个任务单次总共有采集到10W条数据。导出到Excel时,会有5个Excel文件,每个文件有2W条数据。 ②Excel单元格最多可容纳32,000个字符(包括中西文字或字母、数字、空格、非数字字符的任意组合),超过将被截断。
CSV:①导出为CSV时,一个CSV文件最多可以有2W条数据。示例:一个任务单次总共有采集到10W条数据。导出到 CSV 时,会有 5 个 CSV 文件,每个文件有 2W 条数据。 ② CSV 单元格中可以收录的字符数没有限制。
HTML:每个数据一个文件。
数据库(SqlServer、MySql),本地采集数据需要手动导出到数据库中,可以批量导出1-2000条数据。
2、【云采集】数据可以导出为:
Excel、CSV、HTML,详情同上。
数据库(SqlServer、MySql),可设置定时自动导出到数据库,时间间隔1-24小时。单批次可导出1-2000条数据。
API,通过数据导出API接口,实现二级导出,与内部系统无缝对接。
注:【云采集】数据默认保存3个月,过期后将永久删除。请及时导出[云采集]数据。