ModelArts平台提供的自动难例发现功能(图1)

优采云 发布时间: 2021-07-29 07:51

  ModelArts平台提供的自动难例发现功能(图1)

  ModelArts平台提供的自动硬案例发现功能,可以通过内置规则,从输入旧模型的一批推理数据中,过滤掉可以进一步提高旧模型准确率的数据。自动硬案例发现功能可以有效减少模型更新时所需的标注人力。对于旧模型的推理数据,尽量挖掘出有利于提高模型准确率的部分数据。你只需要对这部分数据进行进一步的确认和标注,然后加入到训练数据集中即可。重新训练后,您可以获得更高准确率的新模型。

  对于部署为在线服务的模型,调用 URL 或通过控制台输入预测数据。可以使用数据采集函数采集或者过滤掉疑难案例输出到数据集进行Follow-up模型训练。

  对于在线服务数据采集,如图所示,支持以下场景。

  图1 online services采集数据

  

  先决条件

  数据采集

  部署为在线服务时,可以启动data采集任务。或者对于已经部署的在线服务,可以在服务详情页面打开数据采集任务。如果只启用了数据采集任务,则只有调用服务时产生的数据,采集才会存储在OBS中。如需过滤疑难病例,请参考。如果需要将采集后的数据同步到数据集,但不需要过滤疑难案例,请参考。

  登录ModelArts管理控制台,在左侧菜单栏中选择“部署>在线服务”,进入在线服务管理页面。打开 data采集 任务。填写data采集task的相关参数,请参考详细参数说明。

  表1 Data采集参数说明

  参数

  说明

  采集rule

  支持“全额采集”或“根据信任”采集。目前仅支持“全额采集”模式。

  采集output

  采集data,数据存放的路径。仅支持 OBS 目录。请选择现有目录或创建新的 OBS 目录。

  保存周期

  支持“一天”、“一周”、“永久”或“自定义”。

  图4采集数据配置

  

  data采集启动后,调用该服务进行预测(Console预测或URL接口预测)时,上传的数据会按照设定的规则采集到对应的OBS目录。<//p

p将数据同步到数据集/p

p对于已经启动数据采集任务的在线服务,支持采集数据同步到数据集。此操作不会进行困难情况过滤,只会将采集 的数据存储在数据集中。它可以存储在现有的数据集中,也可以创建一个新的数据集来存储数据。/p

p打开data采集task。详细操作请参考。/p

p当数据采集task不是采集到数据时,即用户没有调用接口使用预测功能,无法进行数据同步到数据集的操作。/p

p点击服务名称进入服务详情页面,在“同步数据”选项中点击“同步数据到数据集”。/p

p图 5 同步数据到数据集/p

pimg src='https://support.huaweicloud.com/engineers-modelarts/zh-cn_image_0298495669.png' alt='免规则采集器列表算法'//p

p在弹出的对话框中,勾选“标记类型”,然后“选择数据集”,点击“确定”,将采集数据同步到数据集的“未标记”选项卡中。/p

p同步的数据是系统采集在data采集task配置规则下收到的数据。当采集data为空时,无法进行数据同步到数据集的操作。/p

p图 6 同步数据到数据集/p

pimg src='https://support.huaweicloud.com/engineers-modelarts/zh-cn_image_0298495752.png' alt='免规则采集器列表算法'//p

pData采集并过滤疑难案例/p

p如果只开启了data采集任务,则不会启动疑难案例自动识别操作。需要同时启动疑难案例过滤任务,可以过滤采集疑难案例的数据,并将过滤结果存入对应的数据集中。/p

p由于疑难案例筛选功能对预测输出格式有要求,不同模型源要求不同:/p

p打开data采集task。详细操作请参考。/p

pimg src='https://support.huaweicloud.com/engineers-modelarts/public_sys-resources/note_3.0-zh-cn.png' alt='免规则采集器列表算法'//p

p在开启疑难案例过滤功能前,必须先开启data采集task。对于此在线服务,数据采集任务之前已经开启,对应OBS路径下存储的数据依然可用,只能开启稀有案例过滤功能。此时,困难案例过滤仅过滤存储在OBS路径中的数据。/p

p开启疑难病例筛选任务。在配置数据采集任务的同一页面,可以同时启动疑难案例过滤任务。请参考相关参数。/p

p表2疑难病例筛选参数说明/p

p参数/p

p说明/p

p模型类型/p

p模型的应用类型,目前仅支持“图像分类”和“物体检测”。/p

p训练数据集/p

p将模型部署为在线服务。这个模型是通过一定的数据集训练的。过程如下。对于本在线服务对应的训练数据集,您可以在筛选疑难案例时导入训练数据集,更容易过滤出模型的深层数据问题。/p

p(训练脚本+训练数据集)-> 训练模型-> 将模型部署为在线服务

  该参数是可选的,但为了提高准确率,建议您导入相应的数据集。如果您的数据集不在 ModelArts 中管理,请参阅创建数据集。

  过滤规则

  支持“按持续时间”过滤或“按样本大小”过滤。

  困难的示例输出

  将选定的困难案例数据保存到数据集。支持现有数据集或创建新数据集。

  您必须选择相应类型的数据集。比如模型类型是“图像分类”,需要过滤掉的疑难案例的数据集也必须是“图像分类”类型。

  图7 打开疑难案例筛选功能

  

  当配置了数据采集和疑难案例过滤任务时,系统会根据你设置的采集规则过滤疑难案例。您可以在在线服务的“疑难病例筛选”选项卡上查看“任务状态”。任务完成后,其“任务状态”会显示为“数据集导入完成”,您可以通过数据集链接快速跳转到对应的数据集。 采集的数据会保存在“Unmarked”标签下;筛选出的疑难案例将存储在数据集的“待确认”选项卡下。

  图 8 任务状态

  

  图 9 疑难案例选择结果

  

  困难的反馈示例

  在ModelArts管理控制台中,当您使用在线服务进行预测时,如果预测结果不准确,您可以直接将这个疑难案例反馈到预测页面上的对应数据集。

  登录ModelArts管理控制台,在左侧菜单栏中选择“部署>在线服务”,点击对应的服务名称,进入服务详情页面。点击“预测”选项卡,上传您用于预测的图片,然后点击“预测”。当预测结果不准确时,点击“疑难案例反馈”。

  图 10 在线服务疑难案例反馈

  

  在弹出的对话框中,勾选“标签类型”,然后“选择数据集”,点击“确定”,将疑难案例数据反馈到该数据集的“待确认”选项卡。用于提高进一步模型训练的准确性。

  图 11 疑难案例反馈

  

  预测输出格式要求

  对于自定义模型,推理代码中的“infer_output”,即预测返回的JSON格式,必须与下例一致。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线