官方发布:数据中台到底包括什么内容?一文详解架构设计与组成
优采云 发布时间: 2022-10-20 06:21官方发布:数据中台到底包括什么内容?一文详解架构设计与组成
01数据中心功能架构
数据中心的建设是一项宏大的工程,涉及总体规划、组织建设、中心的实施和运营等。本节重点介绍如何从物理形态上构建企业的数据中心。一般来说,企业的数据中心在物理形态上分为三层:工具平台层、数据资产层、数据应用层(见图4-2)。
▲图4-2 数据中台功能架构
1.工具平台层
工具平台层是数据中心的载体,包括大数据处理的基础能力和技术,如集数据采集、数据存储、数据计算、数据安全于一体的大数据平台;它还包括数据中心的建设。离线或实时数据开发工具、数据连接工具、标签计算工具、算法平台工具、数据服务工具、自助分析工具等一系列工具。
以上工具集基本涵盖了数据中心的数据处理流程。
1) 数据开发平台
大数据[1]的4V特性决定了数据处理是一个复杂的工程。数据中心的建设需要数据中心建设的基础设施工具的建设。它必须满足采集,各种结构化和非结构化数据的存储和处理的要求。将数据处理任务串联起来,保证数据的运行能够赋能业务端。
[1] 大数据的4V是指Volume(数据量大)、Variety(种类多)、Velocity(速度快、效率高)、Value(价值密度低)。
因此,首先构建大数据能力平台非常必要。当然,可以根据企业的实际情况来决定是购买还是自建平台。
2) 数据资产管理
数据中心建设的成功与否直接关系到数据资产的有序管理。如上所述,数据中心需要继续运行。随着时间的推移,数据继续流入数据中心。如果没有有序的数据资产平台进行管理,后果不堪设想。
数据资产管理工具不仅可以帮助企业合理评估、规范和管理信息资产,还可以充分发挥数据资产的价值,促进数据资产的持续增值。对于数据资产管理,我们不推荐事后管理,但应与数据开发过程挂钩。也就是说,当数据经过数据开发平台处理的环节时,数据资产管理平台已经默默介入。
数据资产管理的首要任务是管理进入数据中心的元数据。这里的元数据包括数据源,构建的各种模型,通过模型拆解的指标和标签,以及调度作业。有序管理这些数据资产的元数据是前提。只有做到这一步,我们才能继续追踪数据流向,管理指标和标签系统的生命周期,确定指标使用频率,决定是否下线。.
3) 标签厂
标签工厂又称标签平台,是数据中心系统中的明星工具产品。标签建设是数据中心成为数据业务的关键步骤。因此,强大的标签工厂是数据中心价值的有力保障。
严格来说,标签工厂也是数据开发平台的一部分。我们为什么要把它分开?这是因为标签的使用场景丰富,标签与业务紧密结合;同时,标签数据的存储与分析数据的存储也存在一定的差异。
标签工厂致力于屏蔽底层复杂的大数据框架,为普通开发者、数据分析师、运营商提供友好的界面交互配置,完成标签的全生命周期管理;同时为上层业务系统提供自己的API能力,每个业务系统形成数据闭环。
标签工厂按其功能一般分为两部分:下层标签计算引擎和上层标签配置管理入口。标签计算引擎一般采用MapReduce、Spark、Flink等大数据计算框架,计算出的标签存储可以使用Elasticsearch或HBase。这种存储的优点是易于快速检索。
标签配置管理门户支持标签规则的配置并提交给标签计算引擎,可以定时计算出需要的标签。标签配置和管理门户还提供标准标签服务请求和调用。通过标签工厂,数据中心团队可以减少大量的数据开发工作。
4) ID-映射
ID-Mapping,也称为ID访问工具,是数据中心建设的可选选项。可选并不意味着不重要。在一些多渠道、多点触控的新零售企业,如果没有这个工具,数据质量会大打折扣。
例如。一位消费者在购物时看到了剃须刀,扫描了店内的二维码,正准备下单,却被朋友的电话打断了。回到家打开抖音,看到这款剃须刀的广告,立马打开链接下单。
这样的场景在生活中比比皆是,其中隐藏着很多消费者信息。如果我们不打通ID,我们至少可以把同一个用户当成四个用户。其实可以组合多条信息,比如扫二维码记录的OpenID,抖音注册留下的微信账号,下单时提供的下单手机号和注册账号, 判断是否为同一人。这样,给该消费者贴标签或推荐产品会更加准确。
ID-Mapping函数的构建一般使用强大的图计算功能,通过两者之间的关系实现互操作,自动高效地将关联的身份映射到同一个身份,即唯一的ID数据工具。可以大大降低处理成本,提高效率,挖掘更多用户信息,形成更完整的画像,对数字营销的推广大有裨益。
此外,ID-Mapping 工具还可用于*敏*感*词*数据治理。
5)机器学习平台
模型训练的代码开发只是整个机器学习工作流程的一部分。此外,数据准备、数据清洗、数据标注、特征提取、超参数选择与优化、训练任务监控、模型发布与集成、日志回收等都是流程中不可缺少的部分。
机器学习平台支持高质量的采集训练数据和高效标注,内置预训练模型,封装机器学习算法,通过视觉拖拽实现模型训练。它支持从数据处理、模型训练和模型部署的在线预测服务。以RESTful API的形式与业务应用集成,实现预测,打通机器学习的全链路,帮助企业更好地完成传统机器学习和深度学习的落地。
6)统一数据服务
统一数据服务旨在为企业构建统一的数据服务门户,帮助企业提升数据资产价值,同时保证数据的可靠性、安全性和有效性。
统一数据服务支持通过接口配置构建API和数据服务接口,满足不同的数据使用场景,同时降低数据开发门槛,帮助企业实现数据应用价值的最大化。
作为唯一的数据服务出口,统一数据服务实现了数据的统一市场化管理,有效降低了数据开放的门槛,保障了数据开放的安全性。
2. 数据资产层
数据资产层是数据中台的核心层。它依赖于工具平台层。那么这一层的内容是什么呢?答案是根据企业的业务和行业而有所不同,但总的来说可以分为主题区模型区、标签模型区和算法模型区。
1)主题域模型
主题域模型是指业务流程或维度的面向业务分析的抽象的集合。业务流程可以概括为不可分割的行为事件,如订单、合同、营销等。
为了保证整个系统的生命力,主题域,即数据域,需要长期抽象、维护和更新,但不能轻易改变。在划分数据域时,要覆盖当前所有服务的需求,并保证新的服务可以收录在已有的数据域中,而不影响或轻易扩展新的数据域。
数据域划分首先需要对业务系统进行全面考察。业务流程划分到哪个数据域没有绝对的对错,但会影响报表开发者定位数据的效率。因此,有必要从开发商的定位效率角度进行综合划分。
2) 标签模型
标签模型的设计与主题域模型的方法类似,也需要结合业务流程进行设计,需要对业务流程有充分的了解。标签一般涉及业务流程中的实体对象,如会员、商品、店铺、经销商等,这些主体一般穿插在各种业务流程中。比如会员一般穿插在关注、注册、浏览、订购、评价、服务等环节。
那么,在设计标签的时候,就需要充分了解这些业务流程,发现流程中标签的应用点,结合这些应用点来构建企业的标签体系。
标注模型根据计算方式一般分为客观标注和主观标注。客观标签是可以量化的,而主观标签是不可量化的。根据实现方式,标签可以分为事实标签、模型标签、算法标签等,标签也可以根据业务场景分为基本信息标签、偏好标签、价值标签等。
设计标签模型时一个非常关键的元素是标签模型必须是可扩展的。毕竟,标签等数据资产需要持续运营,具有生命周期,运营过程中随时可能添加新的标签。
3) 算法模型
算法模型更贴近业务场景。在设计算法模型时,需要反复推演算法模型使用的场景,包括模型的冷启动等问题。整个模型构建过程包括设置场景、数据源准备、特征工程、模型设计、模型训练、正式上线、参数调整七个环节。
以新零售企业为例,常用的机器学习算法包括决策树、神经网络、关联规则、聚类、贝叶斯、支持向量机等,这些算法已经非常成熟,可以用来实现新零售场景的算法模型如产品个性化推荐、销量预测、客户流失预测、产品分组优化等。
3.数据应用层
严格来说,数据应用层不属于数据中心的范畴,但数据中心的使命是为业务赋能。几乎所有企业在建设数据中心的同时,都规划了数据应用。根据数据使用场景,数据应用可分为以下使用领域。
1)分析决策应用
分析决策应用主要面向企业领导者和运营者的角色。根据企业业务背景和数据分析需求,针对获客、老客户运营、销售能力评估等分析场景,采用主题领域模型、标签模型和算法。Model,为企业提供可视化分析主题。
在分析决策应用中,用户可以快速了解企业的现状和问题,同时可以对数据进行钻取分析,深入分析企业的问题和原因,从而辅助企业在管理和决策中,实现精准管理和智能决策。
在分析专题设计的过程中,首先,根据不同的业务分析场景,需要采用不同的分析方法进行数据分析的初步规划,建立清晰的数据分析框架。例如,在用户行为分析、营销活动等场景中,5W2H分析方法和4P营销理论;在对回购客户下降、客单价下降等问题进行诊断分析时,需要考虑哪些因素与问题有关,采用逻辑树分析法。
数据分析框架构建完成后,结合用户分析目的,采用不同的分析思路和呈现方式,包括趋势分析、多维分解、漏斗分析、A/B测试、对比分析、交叉分析等。
2) 标签应用
标签的目的是挖掘实物(如客户、商品等)的特征,将数据转化为真正对业务有价值的产品,对外提供标签数据服务。多用于客户圈选、精准营销、个性化推荐等场景。以实现资产变现,不断扩大资产价值。
标签系统的设计基于标签的使用场景。不同的使用场景有不同的标签要求。例如,在客户个性化推荐场景中,需要客户性别、近期关注的产品类型、消费能力、消费习惯等标签。
因此,在设计标签系统之前,需要根据业务需求分析标签的使用场景,然后详细设计标签系统和规则。在标签使用过程中,可以通过A/B测试等数据分析方法,不断分析标签使用效果,优化标签体系和规则。
3) 智能应用
智能应用是数字智能的典型外在表现。比如在营销领域,不仅可以实现千人千人的个性化推荐,比如猜你的喜好、添加购买推荐等,还可以利用智能营销工具精准触达用户,促进第一次购买和第二次购买的转换。促销,损失保留等
在供应链领域,数据中心可以整合用户数据、销售数据、采购数据等,优化库存,实现自动补货、自动定价。除了传统的统计分析和机器学习,还可以结合深度学习,实现图片搜索,与商场对接,实现即时购买;实现房地产行业*敏*感*词*风控人脸识别;集成自然语言处理,实现智能客服问答机器人等。
总之,以上各层是数据中心的核心内容。需要指出的是,在工具平台层,企业不需要完全独立搭建,可以考虑采用向中国和台湾建筑厂商采购成熟产品的原则,而数据资产层和数据应用层是企业数据中台和台湾组织需要密切相关。担心的。
02 数据中台技术架构
随着大数据和人工智能技术的不断迭代以及商用大数据工具和产品的推出,数据中心的架构设计不需要从头开始,而是可以采购一站式研发平台产品,或者组装基于关于一些开源产品。企业可以根据自身情况进行取舍,但无论采用哪种方案,数据中心的架构设计都是基于当前数据处理的全场景。
以开源技术为例,数据中心平台的技术架构如图4-3所示。一般来说,它一般包括以下功能:data采集、数据计算、数据存储和数据服务;维和公共服务包括离线开发、实时开发、数据资产、任务调度、数据安全、集群管理等。
▲图4-3 数据中台技术架构
1.数据采集层
根据数据的实时性,数据采集分为离线采集和实时采集。离线采集使用DataX和Sqoop,实时采集使用Kafka Connect、Flume、Kafka。
在离线数据采集中,建议使用DataX和Sqoop的组合。DataX适用于数据量较小且使用非关系型数据库的场景,部署方式非常简单。Sqoop 适用于数据量大、关系型数据库的场景。
实时数据采集,对于数据库变化数据,如MySQL的binlog,Oracle的OGG,实时数据使用Kafka Connect采集。对于其他数据,先将数据实时写入文件,然后使用Flume对文件内容进行实时采集。将实时的采集数据推送到Kafka,由Flink进行数据处理。
2.数据计算层
数据计算使用 YARN 作为 MapReduce、Spark、Spark SQL、Flink、Spark MLlib 等各种计算框架部署的执行调度平台。
MapReduce 是最早的开源大数据计算框架。虽然现在它的性能比较差,但是它的资源占用比较少,尤其是在内存方面。因此,在一些数据量过大,而其他计算框架由于硬件资源限制(主要是内存限制)无法执行的场景下,可以使用 MapReduce 作为替代框架。
Spark和Spark SQL是成熟的技术方案,在批处理方面性能卓越,适用于大部分离线处理场景。尤其是离线数据建模,推荐使用Spark SQL进行数据处理,既能保证易用性,又能保证处理性能。Flink 是实时数据处理的首选,在处理时效性、性能、易用性等方*敏*感*词*有很大优势。
机器学习一般使用 Spark 家族的 Spark MLlib 作为技术基础。Spark MLlib 内置大量常规算法包,如随机森林、逻辑回归、决策树等,可以满足大部分数据智能应用场景。
同时,数据中心不断演进,逐步融入AI能力。比如人脸识别、图片搜索、智能客服等能力的实现,就需要一个AI平台。目前比较成熟的AI平台是TensorFlow和PyTorch。为了实现物体检测和识别,可以使用SSD、YOLO、ResNet等深度学习模型,而MTCNN、RetinaNet和ResNet主要用于人脸检测和识别。费斯框架。
3.数据存储层
数据存储层的所有存储引擎均基于Hadoop的HDFS分布式存储,实现多数据冗余,充分利用物理层多块磁盘的I/O性能。Hive 和 HBase 作为存储数据库构建在 HDFS 之上,Impala、Phoenix 和 Presto 引擎都是在这两个数据库的基础上构建的。
Hive 是一个广泛用于大数据的离线数据存储平台。它用于存储数据中心中的全量数据。在建模阶段,可以使用 Hive SQL 和 Spark SQL 进行数据处理和建模。
HBase是主流的大数据NoSQL,适用于数据的快速实时读写。在实时数据处理过程中,可以将数据实时保存到HBase中,同时可以从HBase中实时读取数据,满足数据的时效性。
Impala可以对Hive、HBase等大数据数据库进行准实时的数据分析,可以满足对分析结果速度的一定要求。
Phoenix 是一个构建在 HBase 之上的 SQL 层,它允许我们使用标准的 JDBC API 而不是 HBase 客户端 API 来创建表、插入数据和查询 HBase 数据。
Presto 是一个开源的分布式 SQL 查询引擎,适用于交互式分析查询。Presto 支持 Hive、HBase、MySQL 等各种关系型和大数据数据库的查询,并支持连接表。对于对接自助分析和统一数据服务的场景,可以使用Presto统一访问具体的存储数据库,从而实现统一语法、统一数据源。
4.数据服务层
数据服务层使用的技术类似于业务应用程序。主要基于开源的Spring Cloud、Spring Boot等,使用统一的服务网关。
作者简介: 陈新宇,云熙科技联合创始人兼首席架构师,中国软件行业协会应用软件产品云服务分会“数字企业中台应用专家顾问团”副主任专家,博士。香港中文大学计算机科学与工程专业,主导云迁移技术数字中台系统的规划、建设和实施,并赋能企业实施。罗家英,云熙科技副总裁,上海交通大学学士,中山大学MBA。四年来,一直致力于阿里众泰赋能数字商业的研究与宣讲。拥有20年的企业咨询和服务经验,曾主导数十家大型企业的数字化转型咨询解决方案。云熙科技地产事业部总经理姜伟,带领众泰在地产的建设与落地。长期从事阿里众泰赋能房地产行业的研究与宣讲,具有丰富的房地产项目实施经验。云熙科技汽车事业部总经理邓彤,香港中文大学信息工程硕士,专注于汽车行业数字营销研究。引领众泰在房地产领域的建设与落地。长期从事阿里众泰赋能房地产行业的研究与宣讲,具有丰富的房地产项目实施经验。云熙科技汽车事业部总经理邓彤,香港中文大学信息工程硕士,专注于汽车行业数字营销研究。引领众泰在房地产领域的建设与落地。长期从事阿里众泰赋能房地产行业的研究与宣讲,具有丰富的房地产项目实施经验。云熙科技汽车事业部总经理邓彤,香港中文大学信息工程硕士,专注于汽车行业数字营销研究。
本文节选自《中台实践:数字化转型方法与解决方案》,经出版社授权出版。
官方发布:写锤子检讨书官方版
锤子复习书正式版是一款适用于各种复习书模板的软件。用户可以在这个软件上更快的面对书评的写作,而且使用起来也很简单,功能也很强大。,是一款非常好用的复习书助手软件。如果你有写评论书的需求,那么相信你会喜欢这款软件的,赶快下载吧。
基本说明
Hammer Review Book是一款为用户提供非常专业的写作功能的软件。使用这个软件可以让用户在写评论的时候更有效率,而且所有的文章都是原创,不会造成任何的超级和重复,还可以替换和修改单词来制作文章更华丽。
特征
1.这些文字信息很好。是一款为更多情侣撰写评论文章的在线参考软件;
2.会有多种不同的素材供大家参考和使用,男生版和女生版的内容都会收录在内;
3.在手机上直接自动书写也很方便,大家使用的时候会有特别好的感觉;
强调
为大家提供超全的素材,一键在线生成!
安装此软件后,可在线生成各种复习书。
在几分钟内生成您想要的评论。
大量的换词,这也是文章的一个创意技巧。
软件功能非常强大,可以随时在线使用。
特征
1. 文章100% is 伪原创:每次刷新都会给你一个新的伪原创文章。
2.无聊生活必备神器:文章虽然看起来很废话,但也很有观赏性,可以让人发笑。
3、关键词同义词替换:从文章*敏*感*词*中可以看到大量的单词替换,这也是文章的一种创造性方法。