一是人工采集,二是智能采集( 初创公司如何创建高质量数据集以用于训练学习算法?(图))

优采云 发布时间: 2021-11-11 18:12

  一是人工采集,二是智能采集(

初创公司如何创建高质量数据集以用于训练学习算法?(图))

  人工智能发展的一大瓶颈:缺乏高质量的数据集

  多年来,用于机器学习的数据“不合理的有效性”引发了广泛的争议。还有一种观点认为,制约人工智能(AI)领域许多重大突破的不是算法不够先进,而是缺乏高质量的数据集。如果你想开发最先进的机器学习技术,数据是必不可少的,这是贯穿这些讨论的一个共同主题。

  对于将机器学习作为其业务核心技术的初创公司来说,获得高质量的训练数据至关重要。尽管许多算法和软件工具是开源和共享的,但好的数据集通常是专有的并且难以创建。因此,拥有特定领域的庞大数据集可以成为竞争优势的重要来源,尤其是当初创公司可以快速触发数据网络效应时(更多用户→更多数据→更智能算法→更好产品→更多用户)。

  因此,如何为训练学习算法创建高质量的数据集,是机器学习初创公司必须做出的重要战略决策。不幸的是,一开始,初创公司的标记数据通常非常有限或缺失,这阻碍了他们在创建数据驱动产品方面取得重大进展。因此,在聘请数据科学团队或部署昂贵的核心设施之前,有必要从一开始就研究和制定数据策略。

  有很多方法可以帮助初创公司克服数据采集的冷启动问题。数据策略/来源的选择通常与商业模式的选择、公司的侧重点(消费者或企业、横向或纵向等)、融资密切相关。以下是五种数据采集策略。尽管它们并不详尽且在某种程度上重叠,但它们可以让您直观地了解许多可用的方法。

  策略一:手工作业

  从头开始创建一个好的专有数据集几乎总是意味着提前投入大量人力采集数据来执行难以扩展的手动任务。有许多初创公司依靠蛮力来开辟自己的道路。例如,许多聊天机器人初创公司聘请人类作为“AI培训师”,让他们手动创建或验证虚拟助手做出的预测(实际效果各不相同,离职率较高)。就连科技巨头也采取这样的策略:Facebook 虚拟助手 M 的所有答案都由合同工团队审核和编辑。

  只要数据网络效应在某个时间点生效,并且所需的人力不再随着客户数量的增加而增加,手动标记数据点的蛮力策略就可以成功。一旦AI系统进展得足够快,模糊异常值的数量就会变少,进行人工标注的人数可以减少或保持不变。

  适用于:几乎所有机器学习初创公司

  例子:

  *许多聊天机器人初创公司(包括 Magic、GoButler、x.ai 和 Clara)

  *MetaMind(手动采集 和标记食品分类数据集)

  *BuildingRadar(员工/实习生手动标记建筑图片)

  策略 2:缩小范围

  大多数初创公司会尝试直接从用户那里获取采集数据,但问题是在机器学习的好处没有完全实现之前,很难说服早期采用者使用该产品(因为需要数据来训练和改进算法)。避免这种困境的一种方法是显着减少问题域(并在将来必要时扩展它)。Chris Dixon 说:“你需要的数据量与你试图解决的问题的广度有关。”

  关于缩小范围的好处,聊天机器人再次是一个很好的例子。该领域的初创公司可以选择两种市场进入策略:一种是创建横向虚拟助手,即帮助回答许多问题并响应即时请求的机器人,例如 Viv、Magic、Awesome、Maluuba 和 Jam;一个是创造一个垂直的虚拟助手,也就是一个力求非常好地完成某个特定任务的机器人,比如x.ai、Clara、DigitalGenius、Kasisto、Meekan,以及最近的GoButler。虽然这两种方法都是可行的,但解决闭域问题的初创公司在数据上要容易得多采集。

  适用于:垂直整合公司

  例子:

  *高度专业化的垂直聊天机器人(例如 x.ai、Clara 和 GoButler)

  *DeepGenomics(使用深度学习技术对遗传变异进行分类和解释)

  *QuantifiedSkin(使用客户自拍进行皮肤分析)

  策略 3:众包

  除了让合格的员工(或实习生)手动采集 并标记数据,初创公司还可以使用众包。AmazonMechanicalTurk 和 CrowdFlower 等平台使用无数在线劳动力来消除无效和不完整的数据。例如,VocalIQ 使用 Amazon MechanicalTurk 平台向其虚拟助手输入数千个用户问题。也可以外包员工并雇用其他独立承包商(这就是 Clara 和 FacebookM 所做的)。采用众包策略的必要条件是任务必须解释清楚,不能太耗时和枯燥。

  另一种方法是鼓励人们自愿提供数据。例如,巴黎的 Snips 使用这种方法来获取某些类型的数据(餐厅、酒店和航空公司确认电子邮件)。与其他初创公司一样,Snips 使用游戏化系统对用户进行排名。

  适用于:可以轻松实施质量控制的用例

  例子:

  *DeepMind、Maluuba、AlchemyAPI 和许多其他公司

  *VocalIQ(使用MechanicalTurk平台教你自己的虚拟助手人类对话的方式)

  *Snips(让人们提供免费数据进行研究)

  策略 4:副业

  计算机视觉初创公司似乎特别喜欢的一种策略是为特定领域提供面向消费者的免费移动应用程序。Clarifai、HyperVerge 和 Madbits 都采用了这种策略。他们推出了一个照片应用程序,为他们的核心业务采集更多的图像数据。

  这种策略并非完全没有风险(毕竟应用程序的开发和推广也是需要时间和金钱的)。初创公司还必须确保他们创建的用例具有足够的吸引力,让用户愿意交出他们的数据,即使该服务一开始缺乏数据网络效应。

  适用于:企业创业/横向平台

  例子:

  *Clarifai(照片发现应用 Forevery)

  *HyperVerge(照片组织应用程序银)

  *Madbits(Momentsia 照片拼贴应用)

  策略 5:公开可用的数据集

  许多初创公司都尝试过这种策略,尽管效果各不相同。具体方法是从公开来源中挖掘数据。CommonCrawl 等网络档案收录从 采集 多年网络信息中获得的免费原创数据,容量可达数 PB。此外,雅虎、Criteo 等公司向研究界发布了海量数据集(雅虎发布了 13.5TB 的未压缩数据)。随着最近公开可用的政府数据集(由奥巴马政府领导)的增加,免费和开放的数据源变得越来越多。

  几家机器学习初创公司已经在使用这种类型的公共数据。当 Oren Etzioni 开始 Farecast 时,他使用的样本收录 1. 20,000 个价格观察,这是他从一名游客的信息 网站 中搜索出来的。同样,SwiftKey 在一开始就从互联网上采集和分析了 TB 级的数据,以建立自己的语言模型。

  适合:能找到相关公共数据集的创业公司

  例子:

  *Farecast(第一版数据来源于一次旅行网站)

  *SwiftKey(从网上采集数据建立语言模型)

  *Jetpac(使用公共Instagram数据开发移动应用程序)

  还有很多其他的数据采集策略,本文没有提到。初创企业还可以使用多种算法技术来避免数据问题(例如 MetaMind 使用的迁移学习)。无论使用哪种策略,关键是获取并拥有特定领域的庞大数据集,以构建高精度模型。这是创业者一开始唯一能解决的问题。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线