技巧:Bing研究人员开发新的方法,用于自动收集高质量AI训练数据

优采云 发布时间: 2020-11-28 08:23

  Bing研究人员开发了一种自动采集高质量AI训练数据的新方法

  

  Microsoft Bing团队的研究人员已经开发了用于训练机器学习模型的高质量数据生成方法。在CVPR会议之前发表的博客文章和论文中,他们描述了一种系统,该系统可以以准确的一致性将准确标记的数据与错误标记的数据区分开。

  研究人员写道:“获得足够高质量的训练数据通常是构建基于AI的服务中最具挑战性的部分。通常,人类标记的数据质量很高(错误相对较少),但是成本昂贵,无论是在金钱还是时间上。此外,自动方法允许生成大量低成本数据,但带有更多错误标志。”

  正如Bing小组所解释的那样,训练算法需要采集数十万甚至数百万个数据样本,并对这些样本进行手动分类,这对于数据科学家而言无疑是一项艰巨的任务。常用的快捷方式是通过将类别列表放在一起来从搜索引擎采集数据,对列表中的每个项目执行网络搜索并采集结果(例如,在构建可以区分不同类型的计算机视觉算法时)食物过程中,您可以对“寿司”进行图像搜索。)

  

  Bing团队的模型消除了语料库中的嘈杂数据。

  但并非每个结果都与搜索类别相关,并且训练数据中的错误可能会导致机器学习模型出现偏差和不准确性。减少贴错标签问题的一种方法是训练第二种算法来查找不匹配的数据并对其进行纠正,但这是一个处理密集型解决方案。必须为每个类别训练一个模型。

  Bing团队的方法使用AI模型实时纠正错误。在系统的一部分训练过程中,班级嵌入向量学习选择最能代表每个班级的图像。同时,模型的另一部分,查询嵌入向量学习将样本图像嵌入到同一向量中。随着训练的进行,系统的设计方式是:如果图像是类别的一部分,则类别嵌入向量和查询图像向量越来越相似;如果它们不属于类别,则它们是进一步分开。

  系统最终确定了用于查找每个类别的高代表性图像的模式。该小组说,它甚至可以在不手动确认标记的情况下工作。

  研究小组写道:“这种方法对于清理与图像有关的任务的训练数据非常有效,我们认为它也适用于视频,文本或语音。”

  有关此研究的博客文章和论文的URL如下:

  / search-quality-insights / 2018-06 / Artificial-intelligence-human-intelligence-Training-data-breakthrough

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线