这家人工智能行业供应商的新游戏单价为每月1000万元

优采云发布时间: 2020-08-07 08:22

　　人工智能，今天这个词已成为流行语. 自2015年人工智能商业化浪潮以来，越来越多的公司需要人工智能技术来增强传统业务的能力，其中最典型的是自动驾驶和面部识别.

　　但是人工智能并不像想象中的那么容易开发. 它的算法是一方面. 更重要的是，所有人工智能都需要一个特定的培训平台来对其进行培训和评估. 通过不断重复此循环，人工智能可以实现各种功能. 推动培训平台发展的是数据.

　　在世界经济论坛（World Economic Forum）2012年的报告中，数据被称为世界的新财富，其价值可与石油媲美. 《麦肯锡咨询报告》认为，数据是一种生产手段，大数据是创新，竞争和生产力提高的下一个前沿领域. 因此，这些大数据的生产者被称为“人工智能原材料供应商”.

　　今天的主角就是这样的供应商，龙猫数据.

　　Totoro Data是一家什么样的公司？

　　与通常的采访不同，DT先生于星期六早上来到Totoro Data. 根据公司创始人Zanzhi的说法，Totoro Data采用了每两周一次的工作系统，即一周的星期六正常工作，两周的周末休息.

　　Totoro Data的业务可以分为两层，为企业的业务提供数据服务. 顾名思义，该公司将为具有人工智能培训平台的公司提供培训数据. 该业务分为四类: 图片，视频，文本和语音. 这意味着大多数与AI相关的公司现在都可以成为其客户.

　　虽然向公司出售数据是Totoro Data的主要业务方法，但Zanzhi告诉DT先生，对于Totoro Data而言，另一项业务更为重要，那就是采集数据的过程.

　　采集数据可以理解为开采石油. 石油公司的主要业务是向其他公司出售石油，但石油公司的中心不是如何出售石油，而是如何以较低的价格开采更好的石油. 龙猫数据是相同的. 该公司使用众包平台进行数据挖掘.

　　众包平台分为两个级别: 获取和注释. 在采集方面，龙猫数据将在收到客户提交的任务后将这些任务（例如照片，录音等）分发到公司的APP. 完成任务后将奖励用户，并根据任务的难度奖励不同金额的*敏*感*词*（存储在在线帐户中）.

　　Zan Zhixiang对DT先生说: “我们将用户忽略的材料称为原创材料，但是这些材料不能用于培训，需要对其进行标记和审核. ”所谓的标记是指手动. 该方法将机器可理解的信息素应用于原创材料上的特征点，以便可以通过这些特征来训练人工智能.

　　以“龙猫”数据的面部照片材料为例. 地图上有密集的点，每个点都有自己的特征含义，例如眼睛的内角和眼睛的外角. 众包平台的人员需要在图中标记这些特征点，并且可以将其视为Totoro数据所需的材料.

　　但是，通常人脸识别所需的培训材料范围从少至160点到多达数百点. 通过人工估计很难准确，完整地标记整个图像. 根据Zanzhi的描述，Totoro Data在众包平台的数据采集阶段使用了一种自行开发的人工智能预处理技术，也就是说，当用户将原创资料上传到Totoro众包平台时，人工智能将直接落后于此. 最后开始预处理，并预先标记任务所需的特征点. 当材料进入手动标记阶段时，操作员只需稍微移动一些不合理的点即可完成任务.

　　此预处理分为许多类型. 仍以人脸识别为例，龙猫数据已经准备了多种特征标注方法，例如186点，216点等. 这些标注方法相对通用，可以直接应用于大多数人脸识别训练平台. 对于其他不常见的标记方法，Chinchilla Data Selection和客户公司共同开发了预处理方法. 赞智认为，由于客户从事这一领域的培训，因此他们对这些数据的需求必须是唯一的，因此共同开发是最合理，最节省成本的事情. 从Totoro Data现有的预处理技术来看，该公司的专业知识是与计算机视觉有关和与音频有关的预处理技术，为自动驾驶，图像识别和语音识别等行业提供服务.

　　当然，所有众包平台都会遇到此类问题. 运营商并非真正隶属于该企业，因此不可避免地存在混合因素. 特别是对于数据采集，这样的环境将给数据清理过程带来很大的麻烦. Totoro Data对众包平台人员使用了多级审查机制.

　　首先是评估. 操作员需要通过练习问题才能“就业”. 但是，即使他们值班，操作员也不会四处乱逛. 在数据标记阶段，Totoro数据将不时发出陷阱问题，即Totoro数据已经知道答案. 如果操作员没有像答案一样正确地标记数据，系统将警告它们并最终失去操作资格.

　　同时，在打标过程中，系统还将检查操作员的打标速度，操作记录等. 这是为了防止机器人刷卡任务和其他非法操作. 到目前为止，龙猫众包平台的用户已超过400万，每月订单金额已达到1000万元的水平.

　　但是，这还没有结束，当原创材料被标记和审阅时，它将被上传到云中. 目前，Totoro Data将原创资料和提交给客户的资料存储在两家不同公司的云存储中. 赞志解释说，这是为了保护数据安全和客户隐私.

　　谁构成了龙猫的数据？

　　Totoro Data的获利思路非常明确，Zan Zhi说这是科技公司应该做的. 实际上，龙猫数据并不是最初为大数据采集的. 在*敏*感*词*轮阶段，Totoro Data的业务是在交通卡和手机之间进行移动支付. 通过NFC功能，用户可以直接通过手机对交通卡进行充值，也可以将交通卡中的钱转入手机. 该业务在2014年被称为“闪电刷”. 在微信支付和支付宝的迅速崛起之后，赞志意识到闪电刷很难在这两座山的前面崛起，因此他进行了果断的转型，只有那时龙猫的数据

　　Zan Zhi是百度广告系统的产品经理，但他不喜欢这份工作，因此搬到了Pea Pod. 来到新公司后，Zanzhi负责的第一件事就是Pea Pod的广告系统. 鉴于百度时间短，他的广告系统仍然是从零开始.

　　在广告系统工作了一年多之后，Zan Zhi被调到豌豆荚的游戏联运中. 他告诉DT先生，他喜欢这种零对一流程. 正是在Pea Pod就职典礼上，Zan Zhi遇到了现任Totoro Data的首席技术官Yao Yi.

　　Yao Yi曾经是Google的工程师，后来跟随李开复来到创新工作室. 姚毅相信赞之的战略眼光. 即使Totoro Data进行了重大的业务调整，Yao Yi还是选择了推翻原创技术并进行重新开发.

　　Totoro数据目前共有68人，技术团队所占比例最高，将近30人. 其余人员是20多个平台操作员，而销售人员则很少. 赞智告诉DT Jun: “我们也期望有很多销售人员，但是我们的销售要求相对较高. 龙猫数据主要与客户的研发团队联系在一起，因为他们有直接的数据要求，这意味着销售人员必须非常了解此行业. ”

　　截至2018年，Totoro Data已将其业务出售给百度，腾讯，华为，快手，京东和三星等巨头公司. 赞智说，龙猫数据已经为这些客户开展了数十项业务，其中有些已经完成了数百项.

　　数据

　　如上所述，Totoro Data是提供人工智能培训数据的公司，而不是直接提供大数据的公司. 尽管有两个数据字，但两者是天壤之别. 大数据关注“五个大Vs”，即大数据规模（卷），数据多样性（品种），数据处理及时性（速度），结果准确性（准确性）和深度值（价值）.

　　人工智能对训练数据的需求符合训练平台的需求. 仍以人脸识别为例，在该领域的人工智能训练中，训练数据的采集往往需要室内50％，室外50％，明亮环境80％，普通环境20％. 但是实际上，消费者实际使用面部识别来唤醒机器的场景比训练场景要复杂得多.

　　因此，如果您想了解Totoro Data的业务，则应该了解这些人工智能培训平台需要什么样的数据集. 2014年，Facebook提出了DeepFace，一种使用卷积神经网络和*敏*感*词*人脸图像进行人脸识别的技术. 它在LFW上达到了97.35％的精度，其性能可与手动识别相媲美； VGG网络采用较深的拓扑结构和较大的输入图像，可达到98.95％的精度；香港中文大学提出的DeepId网络进一步改进了卷积神经网络，使用局部和全局特征关节，并使用联合贝叶斯处理量产品特征和训练，并通过两种监督信息（识别和认证）提高了准确性至99％； Google的FaceNet使用三重损失功能（Triplet Loss）作为监管信息，并在2015年达到了99.63％的准确性.

　　上述面部识别技术的准确性超过手动识别的技术，需要大量的训练数据集来支持它们. 具体数据量如下.

　　图丨各种人脸识别技术所需数据量的比较

　　尽管Lightened CNN使用了新的激活功能MFM功能，并且其网络结构也很小，但仍需要450,000数据才能完成训练. 使用中心损失的Caffe脸部也是如此. 这些“小”用于其他培训平台，对于人类来说，这仍然是天文数字.

　　此图片实际上不能完全反映对面部识别训练数据集的需求. 如果您看下一张图片，您将了解该行业需要多少培训数据.

　　图片丨训练图片的数量以及各种面部识别技术所需的图片的数量

　　实际上，在人工智能训练领域，人脸识别所需的数据量远远少于其他训练方法. 最好的例子就是无人驾驶，这也体现在计算机视觉中. 后者可能需要比前者大数千倍甚至数万倍的训练数据.

　　ECCV2016中的一篇文章提出使用人工合成来完成大量训练数据. 谷歌最近推出了BEGAN，它使用生成式对抗网络来生成不同的任务. 这是目前解决训练数据短缺的方法之一，但正是由于这种方法的出现，才体现出“人工智能供应商”的严重短缺.

　　然而，事实是，诸如人脸识别之类的技术受到生成对抗网络的支持. 在无人驾驶和语音识别等领域，还没有成熟的生成对抗网络技术. 他们仍然需要大量的培训数据. 实际上，当前的GAN仍处于试验阶段，还没有真正投入商业化.

　　根据郑州科技信息研究院的报告，截至2018年，北京有242家人工智能公司，上海有112家人工智能公司，在深圳有93家公司，在杭州有36家. 此外，每个人工智能都需要训练数据，有些公司还需要多种类型的训练数据. 在这方面，龙猫数据确实抓住了行业的痛点. 从长远来看，人工智能应该是一个可持续发展领域，这也意味着钦奇利亚数据具有与其对应的长期可持续盈利能力.

　　但是，龙猫数据和传统数据提供商的众包形式是否更强大？传统数据提供者的数据采集形式是用数据采集设备雇用大量人员进行手工采集，然后将原创资料上载到企业云中，然后派遣企业员工对数据进行标记. 据赞之介绍，这种方法的成本比众包平台贵，并且采集周期相对较长. 毕竟，必须动员许多人. Totoro数据的众包形式允许公司在接收到数据采集任务之后采集数据. 采集工作在两天内开始.

　　实际上，一些缺乏培训数据并且袖手旁观的人工智能公司会选择直接动员整个公司来采集数据，这种行为在新兴的人工智能公司中并不罕见. 对于Totoro Data来说，这些公司也是很好的目标客户.

　　2017年12月14日，工业和信息化部发布了《促进新一代人工智能产业发展的三年行动计划（2018-2020年）》，其中提到``建设行业培训资源，标准测试和工业公共支持系统，例如知识产权服务平台，智能网络基础设施和网络安全保证，将改善人工智能的开发环境. ”当前，我国人工智能发展的痛点之一是缺乏有效的行业资源培训库. 业界普遍报告说，它已经影响了人工智能技术的发展及其在该行业中的应用. 前面提到的行业资源培训裤子是Totoro Data长期致力于开发和服务的人工智能数据采集和标记领域. an智认为，人工智能的发展离不开数据数量和质量的不断提高. 一方面是政策支持，另一方面是数据服务公司对技术和资源的持续投资. 两管齐下的做法将形成有效的指导，并不断改善产业发展环境.

　　但是有话要说，龙猫数据的众包数据采集最终是模型创新，需要技术团队的支持. 这也意味着Totoro Data需要更大比例的技术来提高行业门槛，以保持竞争力. 赞智说，Totoro Data接下来要做的就是进一步扩大技术人员.

　　“使用非脱敏数据，他绝对不会用于训练”

　　通常来说，人工智能的训练数据是不敏感的，也就是说，它不收录任何个人隐私信息，即使医学领域的人工智能的训练数据也不例外. 这也是训练数据与大数据之间的差异之一. 在大数据领域，特别是大数据的应用层中，有一个技术特征称为“应用需求驱动特性”，这意味着大数据处理应与行业应用的实际情况和需求相结合.

　　因此，在大数据处理过程中，您会遇到很多个人隐私数据，例如出生日期，*敏*感*词*号等. “使用非脱敏数据，那么他的目的绝对不是训练人工智能. ”赞志告诉DT先生: “我们不会与这些人合作. ”

　　赞智有自己的原则，龙猫的资料也一样. 这也是非脱敏数据的业务利润实际上高于通常的训练数据. 对于平台的长期考虑，Zanzhi没有选择这样做. 但是，Totoro Data不会选择客户. “但是那些以前没有解决过这个项目的人仍会仔细考虑它！”赞志添加了. 同时，公司将与客户讨论数据对于客户的培训平台是否真的有意义.

　　如上所述，Totoro Data的最初业务称为Lightning Brush. 该业务已获得天使轮融资300万元，A轮融资500万元. 在进行*敏*感*词*业务调整后，Zan Zhi在2016年拥有了当前的Totoro数据. 根据该公司的融资消息，截至2017年底，该公司完成了3370万元的融资.

　　此笔资金用于扩大团队，从早期的33人团队发展到今天的68人团队. Zanzhi表示，未来Totoro Data将建立自己的云存储功能，这对于客户和他们自己都将更加安全.

　　在数据采集领域，近年来共有850个创业项目，但是43.18％的相关公司是在2012年之前成立的. 在这些公司中，无资金投资的公司占47.4％，只有28.1％％的公司在A轮之后. 从龙猫数据的发展状况来看，该公司目前正处于融资阶段，赞之的计划是融资约1亿元，以支持上述企业的发展.

　　这种融资规模实际上对于数据采集行业而言是相对普遍的. 在2018年4月和2018年5月，该领域发生了爆炸式增长. 四月份有40笔融资，五月份有46笔融资. 这两个月，数据采集领域的融资总额超过2017年第四季度和2018年第一季度的总和.2018年5月的融资总额达到了35亿元的峰值. 没有什么比这更能促进该领域的从业人员了.

　　在DT先生看来，这种情况的原因可能是人工智能领域即将推出“革命性产品”. 自从提到了人工智能的概念以来，一直处于人才缺口的这项技术实际上并没有提出具有最终目的的真正好产品，无论是消费者还是企业.

　　2018年很可能将迎来一场人工智能的关键战役，这将使位于人工智能供应链末端的数据采集公司获得大量收入，龙猫数据也将从人工智能行业中受益

0

2020-08-07

一是人工采集,二是智能采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

这家人工智能行业供应商的新游戏单价为每月1000万元

0 个评论

发起人