数据采集注释: 人工智能行业的“至强”支持
优采云 发布时间: 2020-08-07 14:46来源/ ToB行业头条新闻(ID: wwwqifu)
作者/李晓松·编辑/珍妮
在过去的两年中,人工智能变得越来越流行.
飞机场,优采云车站,超市和街道等大型人脸识别设备;像我们的移动APP的各种算法一样小,以及Siri,Xiaodu和Xiaoai等语音助手都与人工智能有关.
尽管人工智能应用程序变得越来越流行,但我们仍然经常遇到不正确的APP推送,语音助手像“傻瓜”一样,面部识别系统经常出现的问题.
乌龙闹剧: 董明珠“闯红灯”. 实际上,公交车上贴着董明珠的头,碰巧是用相机拍摄的. 人工智能系统错误地认为是董明珠闯红灯.
我们想象的人工智能是可以在科幻电影中“思考我的想法”的人工智能. 但是,我们面临的人工智能是经常犯错误甚至难以实现的人工智能.
那么,我们如何解决这些问题?我们必须做些什么才能使人工智能更准确?
01
制约人工智能发展的因素
一些朋友总是认为,由于训练数据不正确,人工智能是不准确的. 实际上,这种观点是对的,但不是全部.
数据确实是限制人工智能发展的重要组成部分. 制约人工智能发展的因素不仅是数据,算法和计算能力也是极其重要的因素.
如果使用汽车的类比,则算法是汽车的设计概念,计算能力更像是汽车的引擎,数据是驱动自行车的燃料.
仅靠燃料,没有好的发动机和设计,汽车自然就不会快速运转. 同样,没有发动机,没有燃料,汽车也无法行驶.
三位一体的协调发展无疑是最好的. 但是,人工智能公司的现状是,许多公司已经拥有先进的算法和高质量的硬件,其产品的降落确实是一个燃料问题.
Testin总经理贾玉航在接受ToB行业标题(ID: wwwqifu)的采访时说:
“在人工智能时代到来之后,越来越多的产品,应用程序和硬件已成为实现人工智能的载体. 在人工智能的实施过程中,许多公司面临数据问题,并且在产品迭代和升级过程中遇到了更大的阻力. ”
关于人工智能公司面临的数据问题,贾宇航强调了两个:
那么,人工智能公司应如何应对这些问题?有什么方法可以帮助人工智能公司解决当前的数据问题?
02
如何采集和使用数据?
实际上,自人工智能出现之日起,数据采集和标签之类的问题就受到了许多制造商的关注.
早在2005年,亚马逊就建立了Mechanical Turk论坛,希望通过众包解决人工智能公司的数据处理需求.
但是,随着人工智能的逐步发展,人工智能的实施已成为行业发展的重要阶段,相应的数据服务也进入了情景和细化的时代.
贾宇航说,Testin目前专注于自动驾驶,银行,保险和安全领域,提供定制的数据采集和标签服务,并完全支持处理各种类型的数据,例如文本,语音,图像和视频.
“例如,自动驾驶制造商需要采集驾驶员的疲劳程度,但是很难将设备安装在路边的汽车上. 因为以这种方式采集的数据不仅是非标准的,而且涉及驾驶员和乘客的隐私.
但是,Testin可以根据客户需求在数据采集中心构建模拟方案,并通过使用专业人员和软硬件设备来采集大量的样本信息,以满足客户的各种需求. “
Testin有许多定制的采集场景*敏*感*词*
Testin作为AI数据服务行业的领先品牌,拥有自建的数据库系统,所有标签管理统一,生产标准化,可以在确保数据有效的同时确保标签操作的信息流准确性.
Testin还开发了一个自行开发的标签平台,该平台支持标签类型的自定义开发,使标签类型更加全面,并确保标准化业务可以高效运行.
Testin数字标记平台的*敏*感*词*
目前,许多国内数据标签公司仍是典型的劳动密集型企业. 为了节省人工成本,这些公司仍在使用临时工人,这些工人在经过半天的培训后即可被雇用,而他们的工作是数据标签行业中最简单的事情.
但是Testin很久以前就已经看到了传统模型的缺点. 通过建立馆藏基地,建立标签平台和进行为期60天的职前高质量培训,它已经摆脱了标签行业的低端同质竞争. 技能密集型公司的转型.
贾宇航始终坚信: “劳动密集型数据服务过于依赖劳动力,企业的上限更加明显. 这类企业对数据平台的建设没有足够的重视,培训时间不长. 员工短,数据注释的质量中等. ”
也许腰部公司会出于成本和其他原因而选择此类公司的服务,但总公司肯定会选择高质量的数据标签供应商. 因为只有高质量的数据才能产生高质量的人工智能,所以这是行业发展的基本规律. “
03
高质量和准确的数据
这是行业的未来
一个行业的成熟与该行业中成熟公司的发展离不开. 如果人工智能公司想要快速发展,那么他们一定不能没有数据采集和标签行业的整体进步.
许多年前,我们经常看到知名的人工智能公司将数据采集和标签服务外包给非洲公司. 一些媒体甚至在访问了非洲的数据标签工厂后叹了口气: “硅谷为赚钱而从事人工智能工作的穷人. ”
实际上,为了获得廉价劳动力,在非洲等不发达地区建立了数据标签工厂. 因此,数据服务也被外界视为人工智能金字塔上的最低级别的工作.
尽管金字塔的底部不如尖塔那么刺眼,但底部的体积最大,也是支撑金字塔的坚实基础.
在人工智能公司蓬勃发展的阶段,基础薄弱的公司仍然可以利用自己的实力来发展. 但是,随着公司的发展越来越快,公司建立的数字化尖塔越来越高. 基础是否牢固直接决定了公司发展的上限.
这也是Testin从一开始就非常重视标签人员培训,标签中心建立和数据采集平台开发的重要原因.
因为贾宇航始终认为高质量和准确的数据是行业的未来. “当通用数据公司仍在为实地的“六便士”而战时,Testin已经赶上了空中的“月球”. ”
目前,Testin在华东,华北和华南设有数个数据交付中心以及数据采集和标记基地,并已成功为数百家公司提供了AI数据服务.
相反,国内相关研究报告的结论也在不断完善,数据标签行业也在稳步增长.
根据艾瑞咨询的最新报告,2018年中国人工智能基础数据服务市场规模为25.86亿元,其中数据资源定制服务占86.2%,行业复合年增长率为23.5%. 预计到2025年,市场规模将超过110亿元.
这种蓬勃发展的势头不仅是由于人工智能公司的快速发展带来的巨大需求,而且也离不开Testin安静工作的数据服务提供商,后者继续为人工智能行业提供动力.
确实,当前的人工智能仍然“不准确”,但是我们可以看到几年前,Alpha Dog在Go领域完全爆炸了. 就在过去的几个月中,已经被20多年的发展而未为公众所理解的RPA突然变得很流行.
为什么Alpha Dog会击败人类?为什么RPA突然爆炸?这必将与人工智能算法的更新和发展密不可分. 但是,在技术成熟之后,提供数据采集和标记服务的诸如Testin之类的供应商也必不可少.
正是数据采集和注释的成熟度和准确性可以训练Alpha Dog的精确算法. 数据行业的不断积累使OCR,NLP和其他人工智能技术在今年变得成熟,从而推动了长期沉默的RPA.