解决方案:GAIE 2021现场 | “智能”基石:人工智能数据标注与训练

优采云 发布时间: 2022-11-26 16:19

  解决方案:GAIE 2021现场 | “智能”基石:人工智能数据标注与训练

  APPEN×CSDN

  阿彭大咖说

  近日,澳鹏凭借备受认可的“人工智能辅助数据标注平台”荣获2021年第二届深圳(国际)人工智能展“优秀产品奖”。活动现场,澳鹏(中国)高级研发总监姜梦洁接受了CSDN记者的专访。以下为采访内容。

  2021年5月20日至23日,在深圳市科学技术协会、深圳市商务局、深圳市福田区人民政府的共同指导下,由深圳市科技发展交流中心和深圳市联合主办的2021年第二届2021年大会人工智能产业协会 深圳国际人工智能展览会开幕式暨智能制造创新高峰论坛在深圳会展中心(福田)成功举办。

  深圳市科协主席江宇阳在大会致辞中指出:“人工智能不仅是引领未来的战略技术,更是新一轮产业变革的核心驱动力。” 诚然,在当今社会的发展中,人工智能技术所占据的地位已经非常重要。

  #01

  人工智能“聪明不聪明”?

  就像蒸汽时代的蒸汽机、电气时代的发电机、信息时代的计算机、互联网一样,人工智能正在成为推动人类进入智能时代的决定性力量。

  然而,回顾过去,我们会发现,人工智能技术等热点话题在发展过程中未必“星光熠熠”。人工智能发展史上出现过“三个高潮”:

  1. 50 年代:神经网络浪潮

  2. 80年代:BP(Back Propagation)算法被提出用于多层神经网络的参数计算,解决非线性分类和学习问题等研究成果

  三、本世纪2010年代:深度学习的兴起

  1950年代到80年代,由于许多应用问题无法解决,基础研究知识难以突破,没有取得预期的成果和进展。从起步-应用-低迷-稳中求进-蓬勃发展,人工智能之路充满未知探索,曲折不断。

  今天,我们正处于信息时代向智能时代的过渡时期。人工智能是主要驱动因素,让全球产业充分认识到人工智能技术引领新一轮产业变革、转型发展的重大意义。“新基建”的提出和疫情的影响,让2020年成为人工智能发展史上的一个重要拐点。如果说人工智能技术在2020年之前还在探索应用场景,那么从2020年开始,人工智能已经加速进入人们的生活。

  然而,在人工智能飞速发展的今天,人们的需求也在不断攀升。对于人工智能企业或者转型企业来说,如何与时俱进是首要考虑的问题。但当它落入大众、衣食住行之时,人工智能是否“智能”就成了人们关注的焦点。

  企业要想真正落地AI技术/产品,真正做出“好的人工智能”,首先不能让AI技术/产品停留在实验或原型阶段,A模型的高质量训练才是重中之重.

  那么,AI模型如何才能训练出高质量呢?在AI项目部署的生命周期中,哪些可以优化?数据在这个过程中扮演什么关键角色?企业在转型之路上应该如何选择数据平台/相关服务商?带着这些疑问,CSDN记者采访了知名人工智能数据服务商Appen的高级研发总监姜梦洁。

  值得一提的是,澳鹏在2021年第二届深圳国际人工智能展览会暨智能制造创新高峰论坛开幕式上荣获“优秀产品奖”,同时入围德勤高科技成长企业50强(澳大利亚)连续六年获得维科杯OFweek2020人工智能行业优秀产品应用奖(澳鹏人工智能辅助数据标注平台)、CIAI 2020中国人工智能行业“十佳创新企业奖”等奖项。

  GAIE2021第二届深圳国际人工智能展览会“优秀产品奖”

  这样一家专注于人工智能数据标注的行业领先服务商,是如何利用数据来推广人工智能技术和产品的?且听蒋梦婕感悟。

  #02

  “用人工智能服务人工智能”

  加入澳鹏之前,蒋梦洁曾就职于国际知名电子商务公司eBay,主要专注于搜索引擎搜索算法领域。大约在11年前,也就是2010年,互联网蓬勃发展的时候,我们和Appen合作,用人工审核产品和搜索关键词的相关性,做相关算法和离线算法评估平台。丰富的经验和思考。

  蒋梦洁于2019年3月加入澳鹏后,负责中国区技术团队的研发和全球部分模块的研发。他带领的团队致力于打造全流程的数据平台,包括数据采集、数据标注和数据管理。此外,针对成熟复杂的场景开发更高效的标注工具,如自动驾驶、人脸关键点、长语音转录等。

  蒋梦洁(左二)与部分队员

  

" />

  蒋梦洁表示,越来越多的企业在走向AI,同时对训练数据的要求也更高。AI模型若要真正落地,需要大量高质量、安全且无偏见的数据。澳鹏的目标是帮助企业落地AI技术/产品,而不是仅仅停留在实验或原型阶段,通过标准流程整合。

  澳鹏深耕行业 20 多年。在数据采集和数据标注的过程中,澳鹏积累了大量的行业经验和案例。服务人工智能”的概念。

  Appen 现在拥有一支数据科学家团队。一方面,他们在为企业服务之前,会了解场景,如何设计如何采集

/标注数据,才能真正帮助企业成功训练模型,以结果为导向。另一方面,AI技术也应用到整个服务流程中。使用AI模型做以下事情:

  1.自动筛选合格的众包标注者。Appen拥有超过一百万的众包资源。有项目的时候,如何从这个pool中找到最合适的标注者?这种“适合性”包括成本、质量和交货时间等因素之间的权衡。澳鹏自有的匹配算法可以结合标注者的历史标注技能和他们提供的信息,快速自动匹配项目的需求。

  2.辅助标注。帮助贴标签者提高效率。数据标注领域存在大量的人工标注,甚至可以说传统的数据标注几乎100%都是人工标注。澳鹏拥有专门的数据科学家团队,专门研究人机交互以及如何使用人工智能算法辅助数据标注,帮助客户降低成本并提高人工智能模型的迭代速度。在自动语音转录、OCR、自动驾驶等领域发布的辅助标注算法,实现了50%以上到数倍不等的效率提升。

  3、*敏*感*词*质量检测。就像工厂的生产线一样,标注的数据需要进行质量检测。甚至可能会有多轮质量检查。如果将大量标注不好的数据提交质检,会无意义地浪费质检员的时间。引入*敏*感*词*质检后,可以配置大量的检测规则,比如数据之间的逻辑检测比如车要小于5米,纵横比不能太高等等。此外,质检算法还可以通过一些测量指标来辅助质检。

  #03

  技术不能闭门造车

  在人工智能数据标注领域,单纯的自动化标注是不现实的,逻辑上站不住脚。“你用算法产生的数据去训练另一个算法,在最完美的情况下,你可以训练出一个和之前一模一样的算法。” 蒋梦婕说道。但是你不能只做纯手工标注。传统的数据标注是一项纯粹的人力密集型工作。对于技术从业者来说是一个非常有吸引力的领域,因为一点点的技术引进就可以为企业降本增效。.

  对于平台的设计理念和系统架构,蒋梦婕有自己的思考。在业务设计之初,引入了AI中台的概念。围绕AI中台赋能业务,引入了Apache Pulsar作为数据湖。围绕这个核心组件,设计了灵活的标签任务分配和工作流管理。因为业务数据存储在Pulsar中,借助Pulsar的高吞吐量,可以重复高效地消费数据,实现快速松耦合的业务扩展,比如结合Flink进行实时进度/工作负载/质量报表计算。对于项目管理,还可以对标注者进行画像,实时反欺诈监控。此外,

  Appen 在全球市场积累了超过 25 年的行业经验。进入中国市场后,澳鹏借鉴国外平台做法,在国内自主打造了适合国内行业特点的高精度人工智能数据服务平台。那么,中国如何在技术和产品上与其他地区保持同步呢?迭代过程呢?

  蒋梦洁认为,产品迭代必须与业务发展同步。在平台设计和技术架构构建的初期阶段,提前完成技术的整体架构设计,并在此基础上制定未来的发展规划。同时,要确保团队成员的目标一致,然后定期讨论调整优先级。一开始每次迭代只能完成MVP,非核心功能会提供功能兼容支持。在实际使用过程中,这些没有产品化的功能用起来还是挺痛苦的,比如招人的时候。,初始版本专注于标签业务本身。如果需要添加,

  让记者意外的是,澳鹏的技术团队并没有闭门造车,自行解决问题。他们还有一个项目支持工程师团队。对于当前平台无法满足的所有功能,团队将准备一次性的脚本和工具进行处理。随后,平台逐渐将人工按照优先级处理的任务商业化。平台发布一个版本后,及时得到反馈,在下一个版本中进一步完善。因此,在产品开发团队、项目管理团队、业务团队的紧密配合下,技术/产品迭代速度相当快。

  #04

  人工智能数据和质量决定上层建筑

  如果说优秀的技术架构和高效的迭代是决定一个人工智能数据服务商能否站稳脚跟的关键,那么真正决定它能否走得更远的,则在于产品本身解决问题的能力有多强。

  在这个问题上,蒋梦婕提出了一个重点:“AI项目部署生命周期”。

  一般AI项目部署的生命周期会包括:数据采集、数据标注、数据探索、模型开发、模型发布、定期监控。

  那么,数据在这个生命周期中扮演什么角色呢?澳鹏解决了哪些问题?蒋梦婕在描述数据的重要性时,引用了Andrew Ng(吴恩达,全球人工智能和机器学习领域最权威的学者之一)的话:80%成功的AI部署是数据准备(包括数据清洗) /数据标签等),20% 用于模型开发。而澳鹏帮助客户解决模型全生命周期的数据采集、数据标注、发布后监控等问题。

  此外,数据的可用性和质量也是澳鹏服务的核心。蒋梦婕打了个比喻:“AI模型就像一个孩子,你教他什么,他就学什么。如果数据质量差,那么AI模型也会学这些错误。” 因此,澳鹏有一整套解决方案来保护数据质量:

  1.多人标记同一条数据进行投票打分

  2.数据挖掘

  3、机器学习辅助质检

  4、多轮人工质检

  蒋梦洁认为,项目管理是一门艺术,尤其是在人工参与的场景下,整个过程的任何一个环节都可能发生变化。澳鹏的优势在于对每个企业的业务进行深度打磨,融入自身高效的项目管理方式和标签细节的优化。

  1. 使整个项目管理流程更易于定制和适应变化。Appen 有一个模板引擎,可以定制独特的标签要求。质量检查拒绝后会有多轮质量检查和可配置行为。澳鹏根据贴标机质量调整质检抽样率控制机制

  

" />

  2、仔细打磨贴标工具。Appen 会测量常见标注任务的时间和鼠标点击次数。目标是与人类合作,以AI的形式为AI服务。一方面,Appen 将改善人机交互,并拥有专门的 HCI 工程师。另一方面,它会使用AI模型进行辅助,从而提高人走一步,机器帮助前进几步的效率。人类和机器各自做自己擅长的事情。

  #05

  拨开迷雾

  CSDN:听说澳鹏正在密切关注自动驾驶领域,那么目前自动驾驶领域在数据方面有哪些挑战?澳鹏提出了哪些解决方案?

  蒋梦婕:这个问题可以分为五个部分。

  1. 需要同时使用多个感知传感器相互补充,比如*敏*感*词*、激光雷达。如果使用一个以上的传感器,则需要一个以上的标签。如何连接多个传感器进行贴标是个大问题。澳鹏提供多传感器融合标注方式,在提供标注能力的同时,大大节省了标注成本。例如,在3D激光点云上标记3D帧后,我们可以自动将2D帧转换投影到图片上,同时保证同一物体在不同传感器的数据上具有相同的ID和物体属性。该工具还设计用于适应不同的传感器类型和数量。

  2、Perception有多种细分场景,如目标识别、车道线识别、可行驶区域识别、路标识别等。澳鹏提供全套标注工具,可根据场景灵活配置和调整标注方式。

  3. 需要大量的标注数据——成本高。我们将使用预标注模型进行高效的辅助标注,例如一键3D画框、微调3D车道线、自动逐帧标注等。

  4. 需要大量标记数据——难以管理。数据量小的时候,很多公司甚至可以用一个Excel来管理,但是当数据量大的时候,数据传输就会成为一个问题。我们提供数据全流程生命周期的管理,可自由定义数据生产流程。

  5. 2D/3D数据难以分析/查看。无论是在客户验收还是算法开发过程中,2D/3D标注数据都没有文字标注或语音标注结果直观。2D/3D结果是一些坐标信息,客户需要做一些开发工作才能得到标注结果。查看标记结果。澳鹏提供了一个视觉验收工具,带有标注结果统计,比如标注数据中包括了多少辆车和多少人。一共多少分等等。

  CSDN:每个企业的技术架构和实力都不一样。对于初创企业、大中型企业,如何选择合适的数据标注平台/相关服务商?有什么不同吗?

  蒋梦洁:创业场景变化很快,标签的需求一般不是很大。并且公司没有精力或资源来开发或维护数据注释平台。我们推荐纯SaaS的模式,可以让初创企业快速开始贴标,通过试错快速调整方向。

  中型企业已经拥有相对成熟的商业模式和自有系统,也具备开发或维护数据标签平台的资源。他们会更关心是否有系统集成和二次开发的开放API,功能是否全面。对于这样的企业,我们会推荐混合云部署模式或者私有化部署模式,结合我们的Managed Service进行数据标注。

  一般大型互联网公司较早使用AI技术,自己开发了一些标注平台。在选择服务商时,我们会特别关注“服务商是否有能力快速招募大量优质标注人员,标注工具水平是否会比公司更高效,数据安全性是否有保障”等。对于这样的企业,我们也会推荐混合云部署模式或者私有化部署模式,结合我们的Managed Service进行数据标注。

  CSDN:您认为未来人工智能数据标注领域或该领域的服务商会有怎样的发展趋势?

  蒋梦洁:现阶段标签领域鱼龙混杂,价格竞争激烈。他们中的许多人已经进入了这个领域,拥有大量传统的人类服务提供商。随着行业的洗牌,具备快速招人能力、拥有丰富项目管理经验、拥有自身平台研发能力的供应商将逐渐脱颖而出。

  标注平台将沿着采集标注一体化的方向发展。对于很多人工智能公司来说,数据采集和标注往往是同时进行的。比如刚才的例子,采集日常的通讯语音,采集完成后需要将语音进行转录。如果将采集

和贴标签分成两个独立的阶段,那么前置时间会很长。另外,如果厂牌认为采集的声音根本听不到,也很难及时回拨给采集人员重新录制。

  另一方面,未来可能会向AI数据中心发展。不仅是非结构化数据的管理,还慢慢延伸到结构化数据的管理。数据标注不会在整个生命周期中独立存在。如果多个系统拆分,数据科学家将浪费大量时间在移动数据上,效率不高,也会影响创新。如果基于集成的AI数据中心,数据科学家可以开发算法和数据注释,相互迭代改进。比如在标注的同时实时训练模型,当效果无法再次提升时就停止标注。这在业界被称为主动学习。

  原创

出处 | CSDN

  记者 | 卡罗尔邓小娟

  关于澳鹏

  Appen Limited (ASX: APX) 是全球领先的图像、文本、语音、音频和视频等人工智能训练数据服务提供商。拥有业界最先进的AI辅助数据标注平台和集成的AI数据和资源管理平台以及全球超过100万的技能众包资源,支持235+种语言和方言。Appen 的解决方案为技术、汽车、金融服务、零售、制造和政府​​等行业的全球领导者提供高质量、安全和高效的服务。Appen 成立于 1996 年,在世界各地拥有客户和办事处。点击这里了解更多。

  4.5.

  (扫描二维码免费下载电子版)

  解决方案:WhatsApp营销高效开发客户,效果翻倍!

  作为全球最大的即时聊天通讯软件,WhatsApp是国外最受欢迎的通信软件,其受欢迎程度不亚于微信在中国。据统计,其用户总数已达25亿,月活跃人数达16亿,覆盖90多个国家和地区。

  在疫情肆虐,展会无法找到客户之际,越来越多的外贸公司开始使用WhatsApp进行客户开发和推广。

  它有一个

  用户基数大,免费发送消息,不通过好友验证即可与目标对象发起对话,消息打开率达98%,可直接开发推广。由于WhatsApp绑定了手机号码,可以直接掌握客户的号码,不用担心客户流失。

  但是,在WhatsApp上,我们无法直接搜索客户,一般只能通过两种方式:一种是在各大平台发布客户号码后被客户搜索添加,另一种是获取不同渠道的客户编号,然后搜索添加客户。

  透過 WhatsApp 群組連結加入群組

  OR邀请是开发客户的最佳方式之一,但有效的客户很难通过人工搜索批量获取群链接,耗时费力。

  俗话说,“工人要做好,首先要提高工具的质量”。有效的营销工具不仅可以减少人工和时间成本的浪费,还可以提高客户质量。那么外贸商如何快速大量获得潜在客户数量呢?

  对此,万丹阁梳理出4大强大的WhatsApp营销功能,通过群发中的数据采集、群挖、数据过滤,帮助外贸企业提高WhatsApp开发客户的营销效率,帮助企业成长增效,布局海外。

  1. WhatsApp数据采集

  数据量:全球200多个国家,包括10M +潜在WhatsApp帐户

  搜索维度:区号+平台+关键词

  

" />

  通过区号+平台+关键词搜索,快速匹配目标市场中目标客户的WhatsApp号码,掌握潜在客户的信息。如果我们点击选择区号“+1美国”,平台“谷歌”,关键词“床垫”,点击“提交任务”,我们可以采集

大量数据,知道相应国家相应关键词客户的WhatsApp号码和来源,点击“导出数据”完成数据采集

  2. 微信群组采集

  数据量:24个采集渠道,多个海外社交平台,日活跃量上亿

  搜索维度:关键词+平台

  通过在关键词+平台上提交任务,可以快速挖掘来自多个渠道的群组数据,包括谷歌、黄页、Yelp、Facebook、Youtube、Instagram等社交平台,采集

和挖掘目标客户的WhatsApp数量,并接触到大量客户。如果要获取YELP数据,点击选择坐标“遗产湖”,关键词“台球”,点击“提交任务”,快速获取海量业务资源。单击“导出数据”以完成组集合。

  3. 微信数据过滤数据

  量:来自24个采集通道的聚合数据,裂变数据

  滤镜维度:头像、签名、性别、年龄、是否激活

  通过以上24个采集通道汇总数据形成的数据库,在【云信裂变】中,点击“导入总追逐器”导入汇总数据,“智能追逐者”可以裂变WhatsApp号码,100个号码可以裂变数万个号码。点击“导出数据”,在【云信过滤器】中,点击“导入号码”,可以通过检查头像、签名、性别、年龄过滤器,批量验证过滤无效的WhatsApp号码,过滤出准确有效的WhatsApp账号。最后,单击“导出有效号码”以导出数据。您还可以通过“导入组链接”提取组成员以获取WhatsApp号码。

  4. 微信批量群组发送

  申请BM和发件人渠道

  

" />

  葛万丹全程帮助客户申请WhatsApp群发绑定的BM和Sender渠道。

  ·接口批量发送

  万丹兄弟外贸营销系统不需要注册大量小号,不需要维护号码,不会屏蔽号码,秒级交付;无代码连接,无需VPN,对IP无要求,极大地帮助外贸企业提高效率,安全链接200多个国家。导入WhatsApp帐户,选择一个消息模板以批量发送。

  防止封禁

  为了防止因操作不当而被封禁,消息模板的内容必须符合WhatsApp的官方要求,否则会影响消息发送的效果。符合要求的内容可以分组发送,可以降低封禁风险,有效提高账号安全性和账号权重。

  高级批量发送模板

  群发消息一般采取标题+主要内容的形式,编辑适合群发的内容信息可以提高潜在客户的满意度。此外,万丹阁外贸营销系统支持图片、视频、PDF、*敏*感*词*等方式进行群发,产品和服务的多样化展示,也可以直接排入私域池。

  智能客服系统

  群发消息后,在海外私域客服系统中,我们可以查看目标客户回复的消息并与之交谈,并根据Sender客服将客服转换为个人WS,可以完美规避风险,形成有效的闭环。

  传统的WhatsApp开发客户模式每天发送的数量有限,容易被封禁。万丹阁基于外贸AI营销SaaS系统,随时随地为外贸商和外贸企业提供一站式外贸海外营销服务,成本低,获客量大。

  万当阁外贸营销系统可以很好地支撑“品质发”和“数量开发”,采集

海量数据,准确筛选出目标客户并发送批量组,大大提高了时间利用效率。

  通过漏斗原理,可以帮助外贸企业精准触达,高效转化客户,筛选出有价值的商业信息:快速找到潜在客户,精准挖掘潜在客户,沉淀客户私域池,节省外贸企业的时间成本。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线