解读：一文了解 AI 商品模型训练平台

优采云发布时间: 2020-09-04 06:59

　　了解AI产品模型训练平台的文章

　　AI平台的初衷始终是提高开发效率并加快算法迭代周期。通过产品化的AI技术，运营商可以更接近技术，更好地指导和授权业务场景，并为客户带来更好的技术体验和产品体验。

　　本文是2020年的第一篇官方文章。它介绍了有关人工智能领域的深度学习平台的相关信息，包括：AI平台的基本介绍，系统架构，实现困难和相关功能。

　　接下来，围绕作者自己建立产品模型培训平台的案例，分享相关的设计经验，包括：业务场景，培训平台系统架构规划，数据和模型中心，生产率问题和相关摘要。

　　一、关于AI平台1. 1 AI平台简介

　　基于不同核心模块和应用场景的AI模型训练平台，也可以称为深度学习平台，机器学习平台，人工智能平台（以下统称为AI平台）。

　　AI平台提供企业到产品，数据到模型，端到端的在线人工智能应用解决方案。

　　用户可以使用不同的深度学习框架在AI平台上进行*敏*感*词*培训，管理和迭代数据集和模型，并通过API和本地部署访问特定的业务场景。

　　简单理解，AI平台= AI SAAS +（PAAS）+（IAAS）。

　　以下是腾讯DI-X和Ali PAI平台的介绍：

　　DI-X（数据智能X）是基于腾讯云强大计算能力的一站式深度学习平台。它通过可视化的拖放布局将各种数据源，组件，算法，模型和评估模块组合在一起，从而使算法工程师和数据科学家可以在其之上方便地执行模型训练，评估和预测。

　　阿里云人工智能机器学习平台PAI提供一站式服务，从数据处理，模型训练，服务部署到传统机器学习和深度学习的预测。

　　使用AI平台可以简化开发人员在数据预处理和管理，模型训练和部署方面的繁琐代码操作，加快算法开发效率并缩短产品迭代周期;并且通过AI平台可以集成计算资源和数据资源，模型资源，用户可以重用和调度不同的资源。

　　打开AI平台后，也可以有效地进行商业化，这对企业所在地的AI商业生态环境有一定的促进和反馈。

　　*敏*感*词*相关的AI平台包括：

　　国内：

　　海外：

　　1. 2 AI平台系统架构

　　基于企业的整体系统架构，AI平台可视为企业的技术支持中间站之一（与数据中间站平行），起着将以前的与下一步（开展业务并连接基础技术）。

　　如果企业当前有数据中心，则可以将数据中心用作AI中心的数据输入和数据输出系统对象，并将AI中心用作模型和算法提供平台用于商务前台。如果业务前台有AI要求（例如图像识别，语义识别，产品推荐等），则算法运算团队将通过在AI平台上进行迭代训练来支持它。

　　根据企业的规模，资源和业务场景的不同，其AI平台将具有不同的定位。

　　例如，AI和数据可以是同一中间站，可以将AI平台视为业务中间站的一部分，并将AI平台集成到技术中间站或后台等中。资源有限的小型公司通常选择使用第三方AI平台为其业务提供服务，而不是构建自己的AI平台。

　　企业架构示例：以AI平台作为AI中间站

　　至于AI平台本身的架构设计，所有第三方平台都是相似的，主要是由于技术架构的差异。目前没有必要进行进一步的研究。

　　以京东新铸造神竹项目的系统架构为例，我们来探讨一两个：

　　NeuFoundry平台架构图

　　NeuFoundry的基础结构层使用Docker容器来池化计算资源，并使用Kubernetes进行整体资源管理，资源分配，任务操作，状态监视等。该平台集成了多个中间件服务，例如MySQL，Redis和MQ。，通过数据注释，模型训练，模型发布，生成自定义AI功能，以及为各行各业的业务服务提供强大的支持。

　　1. 3实施AI平台的困难

　　1）大数据处理问题

　　在当前阶段，人工智能的基本技术原理决定了“有多少数据，模型有多好”。同时，公司将继续在日常业务运营中生成新数据。

　　当数据需求和客观数据量都很大时，大数据的管理和处理能力是AI平台的最基本能力。开发人员需要根据AI模型训练任务制定合理的数据调度计划，并同时对数据进行生命周期管理（例如定期删除冗余数据，不规则数据）。

　　2）分布式计算

　　大数据处理和模型训练会消耗资源。如果业务场景复杂，模型训练时间长或样本量大且超过了单个服务器的容量，则需要支持分布式训练。

　　微博深度学习培训集群的解决方案是：

　　以TensorFlow分布式操作模式为例，如图5所示。

　　TensorFlow分布式程序对应于一个抽象集群。集群由一个工作器和一个参数服务器组成。工人节点（工人）承担特定的计算任务，例如矩阵乘法和向量加法，计算相应的参数（权重和偏差），并将参数汇总到参数服务器；参数服务器汇总并计算从多个工作节点采集的参数，并将其传递给相应的工作节点，然后工作节点执行下一轮计算，依此类推。

　　3） AI平台实施的最大瓶颈

　　这取决于公司在AI平台的生产比率（最高，中层和执行层对AI平台的价值感知）之间的权衡，

　　1. 4个AI平台相关功能

　　AI平台不仅需要提供AI开发流程所需的基本技能，而且还需要针对不同的用户（产品经理，操作人员，算法工程师...）和不同的客户（大型企业，中小型企业，传统企业，技术型企业）...）提供所需的相应服务。

　　我将AI平台功能分为以下五类：

　　华为ModelArts平台技能

　　二、人工智能产品模型培训平台设计经验分享2. 1个业务场景

　　在日常操作过程中，每个新产品都需要添加数据采集并进行批注，然后将数据扔到相应的模型文件中进行培训，这涉及很多重复且繁琐的工作问题。

　　处理数据采集以进行模型训练和部署的过程可以实现平台化，从而可以大大提高开发效率，并使操作员和算法人员可以更好地分别管理场景和模型。

　　此外，数据和模型（可在线获得）是企业的核心技术资源，但它们在初始阶段就处于黑匣子状态，只有算法人员才能访问和查看它们。因此，当业务发展到一定阶段时，需要对其进行有效管理。

　　本文中的AI平台主要服务于零售行业中商品模型训练的业务场景，因此被称为AI商品模型训练平台。

　　2. 2系统架构

　　考虑到资源，方案，服务效率，商业化等方面的全面性，作者设计的产品模型培训平台主要由两个核心子系统组成：数据中心和模型中心。一方面，可以用最少的开发资源来实现。它涵盖了当前业务所需的核心流程和个性化流程。另一方面，它也有利于平台的后续容量扩展和商业化。

　　AI产品模型培训平台

　　数据中心主要满足三个数据管理业务需求：数据获取，数据处理和数据评估。涉及的功能包括数据集获取，数据集管理，数据增强，增强的策略配置，数据标记，标记任务系统，*敏*感*词*标记等。

　　模型中心主要满足三点模型管理业务需求：模型培训和验证，模型管理和模型部署。涉及的功能包括模型训练，参数配置，训练任务管理，训练状态可视化，模型文件管理，模型版本管理，模型状态管理，模型操作，模型处理，模型处理策略管理，模型部署，部署业务管理等。

　　接下来，我们将逐一解释针对核心业务需求的解决方案。

　　2. 3数据中心

　　2. 3. 1数据采集

　　AI模型训练的第一步是获取数据（这里的数据都是图像数据）。

　　可以通过构建相应业务场景采集所需的环境，或者通过平台中的现有数据（在线数据，旧数据），第三方数据（通过开源，付费购买，以多种方式爬网和爬网）。

　　由于数据集都是图像数据，并且该模型是基于深度学习技术构建的，因此暂时不需要涉及数据ETL，特征工程等的某些处理。后续操作可以基于业务场景和应用程序技术的扩展，在技术架构和平台架构上补充相应的功能。

　　获取数据集后，可以根据不同类型存储数据，并通过数据集管理页面进行管理。

　　可以根据不同的维度来区分数据类型：

　　1）区分标准产品和非标准产品

　　2）按数据源通道区分

　　3）以数据格式区分

　　图片，视频和其他格式（2d，3d）。

　　4）以数据可用性着称

　　基本数据集，训练数据集（包括注释），验证数据集，异常数据集，自定义数据集。

　　数据集应具有生命周期管理和注释信息，以避免经过一段时间的操作后出现混乱和冗余的数据。

　　2. 3. 2数据处理

　　在对某些场景进行模型训练之前，需要对数据进行不同程度和方案的增强。操作员或算法人员可以在数据增强页面上选择相应的数据集和数据增强策略以增强数据。增强的数据集将以原创数据的子文件的形式进行同步，并以数据集管理的“增强型数据集”类型显示。

　　同时，为了适应各种业务场景并提高数据增强实验的效率，可以使用已实现的数据增强技术来配置多个数据增强程序。如：

　　完成数据集资源管理集成后，可以在平台上标记数据。操作员可以注释平台上的现有数据集，或导入新的数据集文件以进行注释。

　　通常标记的任务包括：

　　注释基本数据集（未标记）或半注释（*敏*感*词*注释：自动注释由少量数据集生成的模型，从而减少了手工注释的工作量）；重新标准化异常数据集；自定义用于注释的数据集。

　　注释方法支持图像分类注释，方形框架注释，圆形框架注释，多边形注释，语义分割注释和3d注释。标记的内容包括标准产品和非标准产品，以及其他需要标记的内容信息，例如手和脸。

　　2. 3. 3数据评估

　　数据评估的工作贯穿从数据采集到数据处理的整个过程。操作的质量和过程的严格性直接决定数据的质量，并间接决定模型的性能。

　　在获取数据和增强数据时，操作员应根据一般规则和经验评估数据是否可用，如有疑问，请寻求算法。但是，用于定义不确定数据的通用数据规则是根据多种因素确定的，例如商品，当前模型，当前需求，算法认知度和经验。不确定性相对较大。实际上，“个人经验”仍然是标准。在这一部分中，随着相关员工的经验和认知的增加，必须有相对较大的优化空间。

　　需要对现有数据集进行每日检查和定量检查，并且必须对数据质量和标签质量进行一定程度的回归验证。同样，标注任务的过程（包括标注任务分配，标注任务完成情况的多次审查，标注人员的任务完成程度，错误数据统计以及相应的奖惩机制）也是数据质量保证的重要部分。

　　2. 4模型中心

　　2. 4. 1模型训练和验证

　　确保数据到位后，操作员或算法人员可以在模型训练页面上选择模型，选择相应的数据集和相应的训练参数（例如AI算法和网络深度，训练步骤）以开始增量或完整的模型训练。

　　如果涉及诸如GPU服务器计算之类的注意事项，您还可以选择相应地训练GPU服务器。在训练过程中直观显示训练状态，可以帮助操作员了解当前训练任务的进度，从而中止或取消不符合预期的模型训练任务，例如损失或其他异常，并解放算法人员生产力。

　　TensorBoard界面

　　模型训练完成后，可以获取训练集的数据以获得模型MAP，准确率，召回率等指标，以评价模型的效果和质量；您还可以选择未标记的验证数据集以与模型进行标识，从而验证模型的质量。

　　2. 4. 2模型管理

　　初始模型资源可以通过外部文件导入，也可以通过添加训练任务直接生成。

　　一般来说，模型大部分时间处于“已使用”状态（在线使用和更新使用），因此模型的管理主要针对模型的版本和模型的各种状态（服务状态，训练状态），模型的运行记录，模型的详细参数以及其他四个方面。

　　在优化更新，替换，异常等情况下，可以通过“模型管理”来操作模型，例如暂停服务，复制模型，启动模型和删除模型。

　　某些模型可能需要在相对特殊的业务场景中运行（例如边缘端，有限的硬件资源，高网络延迟），因此对于这种情况，还需要设计模型的压缩和调整，傻瓜式一键处理解决方案，目的还在于减少繁琐项目中的开发工作量。

　　2. 4. 3模型部署

　　完成模型训练以生成模型并验证模型后，可以在“模型部署”中部署和启动模型。部署过程通常从灰色部署过渡到完整部署。

　　在边缘应用程序场景中，您还可以定期通过边缘请求最新的模型文件，或通过边缘节点实施边缘部署。

　　2. 5个AI平台生产比率权衡

　　如上所述，实现AI平台的最大瓶颈实际上是企业与平台生产率之间的权衡。

　　在作者团队进行了许多沟通和考虑之后，作者专注于回答以下三个问题，并最终决定进行平台1. 0的初步开发（主要是首先验证实用程序）。

　　AI平台真的支持业务吗？整体效率（开发效率，业务效率）可以提高多少？实施后是否存在潜在的未知成本（例如，算法人员需要花费大量时间来教育操作员使用某些模型训练功能）？数字可以用来量化价值吗？即使通电，还会有额外的开发和通讯成本吗？

　　现有的第三方AI平台已支持大多数业务。可以使用第三方AI平台首先孵化业务链吗？可以通过开发手动处理个性化数据处理和培训服务吗？

　　AI平台的商业价值能否在短期内兑现（因为其他公司由于数据安全性问题不会轻易使用它，并且它们也严重依赖于公司的声誉）？如果不能在短期内反映出来，那么在什么阶段可以反映出来？

　　对于价值衡量因素，没有标准化的答案。每个公司都会综合考虑自己的资源，业务和其他因素。有关决策者和高管对AI平台的看法也不同，因此主要原因是在看了不同公司最终讨论过的最优生产比例是否大于AI之后决定是否开发AI平台。输入费用。

　　摘要

　　无论对于任何业务场景，AI平台的初衷始终是提高开发效率并加快算法迭代周期。通过产品化的AI技术，运营商可以更接近技术，更好地指导和授权业务场景，并为客户带来更好的技术体验和产品体验。

　　不仅如此，公司开始从内部服务来改善AI平台，逐步开放平台并使平台商业化，并为没有足够资源和资金来利用AI技术的外部客户提供服务，这也促进了互联网AI生态系统的发展作用。

　　AI平台的开发和使用也是AI技术应用程序开发中的重要节点。它代表着AI技术产品化的开始，更多的登陆和更接近业务层，也代表着企业拥有一种更高效的AI技术使用方式。

0

2020-09-04

原创智能优化,原创度检查,一键采集,文章组合

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

解读：一文了解 AI 商品模型训练平台

0 个评论

发起人