算法 自动采集列表(微软Bing团队开发出一种数据生成方法,可实时纠正错误)

优采云 发布时间: 2021-09-28 08:15

  算法 自动采集列表(微软Bing团队开发出一种数据生成方法,可实时纠正错误)

  Microsoft Bing 团队的研究人员开发了一种用于训练机器学习模型的高质量数据生成方法。在 CVPR 会议之前发表的博客 文章 和论文中,他们描述了一个系统,可以以准确的一致性区分准确标记的数据和不准确标记的数据。

  研究人员写道:“获得足够高质量的训练数据通常是构建基于人工智能的服务最具挑战性的部分。一般来说,人工标注的数据质量高(错误相对较少),但成本高,无论是金钱还是时间。此外,自动化方法允许生成大量低成本数据,但带有更多错误标志。”

  正如必应团队解释的那样,训练算法需要采集数十万甚至数百万个数据样本并手动对这些样本进行分类,这对于数据科学家来说无疑是一项艰巨的任务。一个常用的快捷方式是通过将类别列表放在一起来从搜索引擎采集数据,对列表中的每个项目执行网络搜索并采集结果(例如,在构建可以区分不同类型的计算机视觉算法语料库时)食物在此过程中,您可以执行图像搜索“寿司”)。

  Bing 团队的模型从语料库中清除了噪声数据。

  但并非每个结果都与搜索类别相关,训练数据中的错误可能会导致机器学习模型出现偏差和不准确。减少错误标记问题的一种方法是训练第二个算法以找到不匹配的数据并纠正它们,但这是一个处理密集型的解决方案;必须为每个类别训练一个模型。

  Bing 团队的方法使用 AI 模型实时纠正错误。在训练过程中,作为系统的一部分,类嵌入向量学习选择最能代表每个类的图像。同时,模型的另一部分,查询嵌入向量学习将样本图像嵌入到同一个向量中。随着训练的进行,系统的设计方式是,如果图像是类别的一部分,则类别嵌入向量和查询图像向量会越来越相似,如果它们不属于类别,则它们是进一步分离。

  系统最终识别出它用于为每个类别查找具有高度代表性的图像的模式。该团队表示,它甚至可以在不手动确认标记的情况下工作。

  该团队写道,“这种方法对于清理图像相关任务的训练数据非常有效,我们相信它同样适用于视频、文本或演讲。”

  本次研究的博客文章及论文网址如下:

  /search-quality-insights/2018-06/Artificial-intelligence-human-intelligence-Training-data-breakthrough

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线