福利:业内首个数据集高级清洗服务 百度EasyData智能数据服务平台免费试用中
优采云 发布时间: 2020-09-07 23:30业界首个高级数据集清洁服务百度EasyData智能数据服务平台正在免费试用
在开发AI模型时,数据的数量和质量会直接影响模型的效果。在获得现场数据采集之后,公司经常需要从大量数据中筛选出符合培训要求的相关数据,并消除质量差或不相关的数据。此步骤称为数据清除。
通常,在清理数据时,主要清理对培训任务无用的数据。例如,当培训工厂工人佩戴头盔识别模型时,希望在绘制视频帧后仅工人保留在大量图片中。用于注释训练的图像。在此步骤中,传统方法是执行手动筛选,这需要大量的人工输入,并且容易遗漏。随着人工智能的发展,诸如百度大脑AI开放平台等许多平台已经提供了用于人脸检测和人体检测的通用接口。 ,用户可以首先调用界面来处理数据,从采集到人像中过滤掉数据,然后输入特定的检测和识别步骤。那么,是否有一种解决方案可以集成各种数据处理功能,最大程度地减少人工干预,并可以自动完成视频数据采集,帧提取,数据清理和智能标记,从而有效地提取高质量的训练数据?
着眼于越来越多的用户对数据处理的强烈需求。今年4月,百度推出了新的智能数据服务平台EasyData,该平台集成了数据采集,数据清理,数据标记等功能,完成了上述工作。数据处理后,可以在EasyDL平台上进行模型训练和模型部署
对于数据清理的特定功能,EasyData当前具有五种基本的数据清理功能:类似,去模糊,旋转,修剪和镜像。那么,除了常规功能之外,EasyData在行业中还有哪些其他最终秘诀?
从应用程序开始,先进的清理功能使数据处理更加轻松高效
在公园智能管理等场景中,有必要监视是否有人闯入工厂公园或森林区域,或检查工人是否戴上安全帽。为了满足这种情况下图像清洁的需求,EasyData推出了高级清洁功能,可以在没有人脸或人体的情况下过滤数据。 EasyData与百度Brain AI开放平台提供的尖端技术功能相关联。用户只需要在百度智能云上打开相应的服务即可(面部检测和人体检测均可免费试用),他们可以通过简单的配置直接在EasyData平台上使用这些功能进行自动数据清理。
1、过滤没有脸孔的照片
如果您以前从未使用过百度智能云的面部检测服务,则第一次使用高级清洁功能时,系统会提示您“申请免费试用”,单击链接进入百度智能云面部检测页面,按照提示激活服务后,返回EasyData页面即可正常使用。
像基本的数据清洁服务一样,无人脸图像的过滤也基于数据集。在数据清理页面上,选择过滤没有人脸的图像,单击保存,然后提交任务以对其进行清理。如果选中“保留标签”,则不仅将滤除没有脸部的图片,而且脸部框架也会同步到清洁的数据集。
提交任务时检查保持脸部轮廓
例如,在下图中,除了面部图片之外,清洁之前的数据集还收录风景照片,车辆和其他物体的图片。面部过滤器将过滤掉这些没有面部的照片,并保留收录面部的照片,包括遮罩和遮挡的面部也可以被识别。
清洁前的数据集收录人脸照片,风景照片和静物照片
仅保存清洁数据集的面部照片
戴口罩的脸的照片
2、过滤掉没有人体的图像
对没有人体的图像进行过滤还将使用百度智能云的人体检测功能,并且在使用之前需要在百度智能云上激活相应的服务。两个界面用于过滤没有人体的图像,即人体检测和属性分析()和人像分割()。用于图像分类和对象检测的数据集模板将调用人体检测和属性分析界面,而用于图像分割数据集的数据集模板将调用肖像分割界面。百度智能云上的人像分割界面返回与人像图像相对应的二进制图像(人像为1,背景为0),并在后端进行相应的标签转换,并将返回的二进制图像转换为相应的标签。
在清洁之前的数据集中有风景图像,静物图像和人体图像。
通过数据清理和过滤保留5张人像
模板是清洁图像检测数据集后的标签
模板是清洗图像分割数据集后的标签
关注广泛的需求并提供各种基本的数据清理功能
1、转到相似的图片
使用照相机自动[k1]照片时,即使长时间在同一场景中提取帧,仍然会有大量相似的照片。大量相似图片的数据值较低,并且占用大量存储空间。手动选择非常耗时,费力且容易出错。 EasyData平台启动的相似图片的去除,利用图片的相似检索功能,计算出图片的成对相关性,可以自动判断相似图片并保留不相似图片,具体操作也非常简单。
如下图所示,类似之前,数据集中有8张图片。根据图片的相似度,图片可分为3类。清洁后数据集中有3张图片,是清洁前3种图片之一。
8张图片,然后再浏览类似图片
相似后保留3张图片
拖动点以修改相似度得分
2、对图像进行模糊处理
相机震动和快速移动的物体会导致图像不清晰和质量低劣的图像。手动选择去除模糊图像的方法缺乏统一的标准,容易遗漏或删除多个。使用EasyData的去模糊图像,您可以轻松删除模糊的图像。
以示例图片为例。清洁之前,有5张不同质量的照片。清洁后保留两张高质量的照片。另外,如果用户认为某些模糊的图片没有被去除,或者高质量的图片没有被保留,他们可以考虑调整清晰度得分并再次对其进行清洁。
去模糊前5张不同质量的图片
去模糊后保持清晰的画面
拖动点以修改清晰度得分
对于常规清洁,您可以在清洁任务中提交多个清洁操作。例如,检查同时删除相似性和去模糊功能以同时删除相似和模糊的图片。
当前数据清理服务可以支持的最大数据集大小为50,000张图像。基于EasyData平台的大数据处理平台,为基本清洁服务,仅1小时即可清洁20,000张图片的数据集;可以在2小时内清除50,000张照片的数据集。对于高级清洁服务,还可以通过配置QPS灵活地调整清洁效率,这更加方便,快捷。
考虑到在智能公园管理等场景中,需要剪切帧并自动上传视频,EasyData平台还提供了免费的SDK供用户下载,并且该SDK可以连接到数据采集终端,在平台上设置切帧时间和间隔,并自动将原创视频数据切成图片数据,并将其上传到EasyData平台进行后续处理。
EasyData是百度Brain推出的业界首个智能数据采集和处理平台,可提供软件和硬件集成以及端云协作。它支持处理四种类型的数据:图片,文本,音频和视频,其中图片数据支持采集一站式清洁和标记处理,涵盖了模型开发中的各种数据管理要求。 EasyData处理的数据可以直接应用于EasyDL模型训练,通过EasyDL预训练模型和自动迁移学习机制可以有效地开发AI模型。