网页文章采集器(几课鱼配置好的任务可运行在云服务器上采集 )
优采云 发布时间: 2021-10-07 12:16网页文章采集器(几课鱼配置好的任务可运行在云服务器上采集
)
经过前几节课,我们已经掌握了列表数据、表格数据、点击多个链接后的详细页面数据,以及翻页的任务配置方法。
任务配置完成后,需要启动一个采集任务去全自动的采集数据。优采云 配置的任务可以在本地计算机或云服务器上运行。
数据采集完成后,可以选择Ecxel、CSV、HTML、数据库(SqlServer、MySql)、API等格式导出。
一、开始采集任务
1、【启动本地采集】
[启动本地采集] 使用本地计算机获取数据采集。常用于任务调试或小规模数据采集。【启动本地采集】,会打开一个新任务采集窗口,采集过程中不能关闭这个采集窗口,否则采集任务会中断。
鼠标放在图片上,右击,选择【在新标签页中打开图片】查看高清大图
这同样适用于下面的其他图片
在任务采集窗口中,我们可以清楚的看到优采云的采集状态,进而判断采集任务是否正常执行。示例:内置浏览器是否正常打开网页,是否正常翻页,是否正常提取数据...优采云 提取的数据将显示在底部的数据预览窗口中浏览器。
为了更好的观察采集的状态,点击
用于隐藏数据预览窗口的按钮。再次点击
按钮再次显示数据预览窗口。
2、【启动云采集】
【启动云采集】数据采集使用优采云的云服务集群。本地配置好任务,测试没有问题后,可以【启动云采集】,将任务交给优采云的云服务集群给采集。
特别说明:
一种。云采集仅限优采云旗舰版及以上用户使用。点击查看版本包。
湾 与[Local采集]相比,[Cloud采集]具有以下优势:
提高采集的速度。云集群采用分布式部署方式,多个节点同时为采集,有效提高了采集的速度。
实现无人值守。您可以关闭电脑和软件进行数据采集,真正的无人值守。
配合【验证码自动识别】【优质代理IP】突破网站反采集策略。
定时采集,自动入库,与内部系统实时对接。云集群采集7*24小时工作,任务定时采集可设置。云端采集数据可设置自动存入数据库,内部系统可通过API实时连接。
二、数据导出
数据采集完成后,可以选择需要导出的格式。
[Local采集] 数据可以导出为:
Ecxel、CSV、HTML
数据库(SqlServer、MySql),需要手动导出到数据库
[Cloud采集] 数据可以导出为:
Ecxel、CSV、HTML
数据库(SqlServer、MySql),可以自动存储,查看自动存储教程
API,通过调用API,无缝对接内部系统,见API教程
【云采集】数据默认保存3个月,过期后永久删除。请及时导出[cloud采集]数据