不用采集规则就可以采集(ModelArts地发掘有利于提升AI应用精度的部分数据(组图) )
优采云 发布时间: 2022-01-27 03:01不用采集规则就可以采集(ModelArts地发掘有利于提升AI应用精度的部分数据(组图)
)
ModelArts平台提供的自动疑难案例发现功能,可以在一批输入到老AI应用的推理数据中,通过内置规则过滤掉可以进一步提高老AI应用准确率的数据。自动疑难病例发现功能,可有效减少AI应用更新时所需的标注人力。对于老AI应用的推理数据,尽量发现一些有利于提高AI应用准确率的数据。你只需要对这部分数据做进一步的确认和标注,然后加入到训练数据集中。重新训练后,您可以获得更高准确度的新 AI 应用程序。
对于部署为在线服务的AI应用,调用URL或者通过Console输入预测数据可以使用data采集函数采集或者过滤掉疑难案例输出到数据集。用于后续的模型训练。
在线服务的Data采集,如图所示,支持以下场景。
图1 在线服务数据采集
前提条件
数据采集
当部署为在线服务时,您可以启动 data采集 任务。或者对于已经部署的在线服务,可以在服务详情页启动data采集任务。如果只开启数据采集任务,则只有调用服务时产生的数据才会存储采集到OBS。如需过滤hard case,请参考;如果需要将采集之后的数据同步到数据集,但不需要硬案例筛选,请参考。
登录ModelArts管理控制台,在左侧菜单栏中选择“在线部署>在线服务”,进入在线服务管理页面。开始数据采集 任务。填写Data采集任务的相关参数。详细参数说明请参考。
表1 数据采集参数说明
范围
操作说明
采集规则
支持“完整采集”或“信心十足”采集。目前仅支持“完整 采集”模式。
采集输出
采集数据存储路径。仅支持 OBS 目录。请选择现有目录或创建新的 OBS 目录。
保存周期
支持“一天”、“一周”、“永久”或“自定义”。
图4 data采集的配置
数据采集被激活后,调用该服务进行预测(通过Console或通过URL接口预测)时,上传的数据会按照设定的规则被采集放到对应的OBS目录中。
将数据同步到数据集
对于开启data采集任务的在线服务,支持将采集的数据同步到数据集。该操作不进行硬大小写过滤,只是将采集的数据存入数据集中。您可以保存到现有数据集或创建新数据集来存储数据。
开始数据采集 任务。有关详细信息,请参阅。
当data采集任务还没有收到数据采集,即用户没有调用API使用预测功能时,无法进行将数据同步到数据集的操作。
点击服务名称进入服务详情页面,在“同步数据”选项中,点击“同步数据到数据集”。
图 5 将数据同步到数据集
在弹出的对话框中,勾选“Annotation Type”,然后“Select Dataset”,点击“OK”,将采集的数据同步到数据集的“Unlabeled”选项卡中。
同步的数据是系统采集在data采集任务配置规则下接收到的数据。当采集数据为空时,不会进行同步数据到数据集的操作。
图 6 将数据同步到数据集
数据采集 和过滤hard case
如果只打开data采集任务,则不会启动疑难病例自动识别。需要同时打开疑难病例筛选任务,可以对采集疑难病例的数据进行筛选,并将筛选结果存储到对应的数据集中。
由于疑难病例筛选功能对预测输出格式有要求,因此不同模型源的要求不同:
开始数据采集 任务。有关详细信息,请参阅。
在启用疑难病例过滤功能之前,必须启用 Data采集 任务。当本在线服务之前开启了data采集任务,且对应OBS路径中存储的数据还在时,只能开启疑难病例过滤功能。此时,疑难病例过滤只会过滤存储在OBS路径中的数据。
开始疑难病例筛选任务。在配置数据采集任务的同一页面,可以同时开启疑难病例筛选任务。相关参数请参考。
表 2 疑难病例筛查参数说明
范围
操作说明
训练数据集
将 AI 应用程序部署为在线服务。这个 AI 应用程序的模型是从数据集中训练出来的。过程如下:
(训练脚本 + 训练数据集)-> 训练模型 -> 将模型创建为 AI 应用程序 -> 部署为在线服务
对于该在线服务对应的训练数据集,您可以在筛选疑难案例时导入训练数据集,更容易过滤掉模型深层次的数据问题。
该参数是可选的,但为了提高准确性,建议您导入相应的数据集。如果您的数据集不在 ModelArts 中管理,请参阅创建数据集(旧版)。
过滤规则
支持按持续时间或按样本大小过滤。
硬壳输出
将过滤后的硬案例数据保存到数据集。支持现有数据集或创建新数据集。
必须选择相应类型的数据集。比如模型类型是“图像分类”,过滤后的hard case输出的数据集也必须是“图像分类”类型。
图7 开启疑难病例过滤功能
配置好数据采集和疑难病例筛选任务后,系统会采集数据,按照您设置的规则筛选疑难病例。您可以在在线服务的“疑难病例筛选”选项卡下查看“任务状态”。任务完成后,其“任务状态”将显示为“数据集导入完成”。您可以通过数据集链接快速跳转到对应的数据集。采集 的数据将存储在“未标记”选项卡下;过滤后的疑难案例将存储在数据集的“待确认”选项卡下。
图 8 任务状态
图 9 疑难病例筛查结果