秘密:一文读懂数据仓库、数据平台、数据中台、数据湖的概念和区别
优采云 发布时间: 2022-10-28 08:34秘密:一文读懂数据仓库、数据平台、数据中台、数据湖的概念和区别
在数据仓库、数据平台、数据中台、数据湖的相关概念中,都与数据相关,但它们之间有什么区别呢?本文介绍了它们的概念、架构和使用场景。让我们来看看。
我们经常听到人们谈论数据仓库、数据平台、数据中心和数据湖的概念。它们都与数据有关,但它们之间有什么区别?下面我们将重点介绍数据仓库、数据平台和数据湖。介绍数据中心的概念、架构和使用场景。
一、数据仓库 一、数据仓库概念
数据仓库由 Bill Inmon(数据仓库之父)于 1990 年提出,其主要功能是存储大量数据,这些数据是企业系统中在线事务处理(OLTP)的长期障碍,并支持数据仓库理论所持有的数据存储。结构,做系统的分析和整理。
随着企业的发展,业务系统的数据不断激增,存储在企业业务数据库(即关系型数据库Oracle、Microsoft SQL Server、MySQL等)中的数据会越来越多时间,这会使业务数据库有一定的负载,导致业务系统运行效率低下,而这个数据很大一部分是冷数据,而我们的业务系统一般会调用我们最近的数据,也就是热数据数据,更频繁,冷数据被更频繁地调用。减少使用频率。
同时,随着企业数据驱动业务理念的兴起,企业需要提取各业务部门的业务数据进行数据分析挖掘,辅助高层分析决策。数据查询脚本和接口的访问降低了业务数据库的稳定性。
为了避免冷数据和历史数据的积压对我们业务数据库性能的影响,企业需要定期从业务数据库中调出冷数据,并存放在专门用于存储历史数据的仓库中。各部门可根据自身业务特点提供统一的对外服务。数据服务,这个仓库就是数据仓库。
2. 数据仓库功能
数据仓库(Data Warehoese)的特点:面向主题、集成化、稳定、反映历史数据变化。
3.OLTP和OLAP
1) OLTP 和 OLAP 概念
数据处理大致可以分为两类:在线事务处理OLTP(on-line transaction processing),在线分析处理OLAP(On-Line Analytical Processing)。
OLTP 是传统关系型数据库的主要应用,主要用于基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,注重决策支持,提供直观易懂的查询结果。
2)OLTP和OLAP的区别
OLTP系统强调数据库内存效率,强调内存、绑定变量、并发操作等各项指标的指挥率。OLAP 系统强调数据分析、SQL 执行市场、磁盘 I/O、分区等。
3)OLAP与数据仓库的连接
OLAP与数据仓库的关系依赖于互补性,一般以数据仓库为基础,即从数据仓库中提取详细数据的子集,通过必要的聚合存储在OLAP存储中,供数据分析工具读取。
4.数据仓库的作用
数据仓库聚合来自不同来源的结构化数据,以便在商业智能领域进行比较和分析。数据仓库是一个收录各种数据并且高度建模的存储库。
如下图所示: 各个系统的元数据通过ETL同步到运营数据仓库ODS,ODS数据进行面向主题、面向领域的建模,形成DW(数据仓库)。DM就是为某个业务领域建立模型。决策层)查看DM生成的报告。
什么是 ETL?(提取-转换-加载提取-转换-加载)
传统的数据仓库集成处理架构是ETL,利用ETL平台的能力,E=从源数据库提取数据,L=清洗数据(不符合规则的数据),转换(表受根据业务需求不同维度、不同粒度)程度,计算不同的业务规则进行统计),T = 将处理后的表以增量、全量、不同时间加载到数据仓库中。
什么是 ELT?(提取-加载-变换提取-加载-变换)
大数据背景下的架构体系是ELT结构,根据上层的应用需求,随时从数据中心提取出需要的原创数据进行建模分析。
ELT利用数据库的处理能力,E=从源数据库中提取数据,L=将数据加载到目标数据库的临时表中,T=对临时表中的数据进行变换,然后加载到目标表中的目标数据库。
ELT 相对于 ETL 的优势:
数据仓库系统的作用可以实现跨业务线、跨系统的数据集成,为管理分析和业务决策提供统一的数据支持。数据仓库可以从根本上帮助您将公司的运营数据转换为高价值的可访问信息(或知识),并在正确的时间以正确的方式将正确的信息传递给正确的人。下图是一个例子:
数据仓库的作用主要体现在企业决策、分析、规划和响应的以下几个方面:
数据仓库在实时数据处理和非结构化数据处理方面较弱,在预警和预测在业务中的应用有一定的局限性。
二、数据平台 1、数据平台的概念
在大数据时代,数据平台一般被称为大数据平台。
狭义的数据平台:是解决数据仓库无法处理非结构化数据,报表开发周期长的问题。因此,我们首先抛开业务需求,将企业的所有数据提取出来,放在一起,形成一个大数据集。有结构化数据,非结构化数据等等。当业务方有需求时,将需要的几个小数据集分别抽取出来,以数据集的形式提供给数据应用。
广义大数据平台:广义大数据平台通常被赋予更多的任务来处理海量数据存储、不间断流数据的计算和实时计算、离线计算、智能推荐、交互查询、数据湖建设等场景。一套为主的基础设施。典型的包括建立在 Hadoop 生态系统上的大数据平台。提供Hive、Spark、HBase、Flink、StarRocks、Iceberg、Alluxio等开源大数据计算和存储引擎,易于部署和管理。
狭义数据平台与传统数据平台(数据仓库)功能相同,唯一不同的是技术架构和数据容量。
广义的大数据平台是数据湖的基础。提供易于部署和管理泛Hadoop生态系统等存储计算引擎的PaaS平台,帮助企业构建企业级数据湖技术架构。
提示:本文比较的是狭义的数据平台,并没有对狭义的数据平台进行过多的概述。
三、数据中台 1、数据中台的概念
数据中心的由来:2015年年中,马云带领阿里巴巴集团高管走访芬兰小游戏公司Supercell。这家员工不到 200 人的小型游戏公司每年产生 15 亿美元的税前利润!Supercell之所以能够支持多个团队快速敏捷地推出优质游戏作品,是因为其强大的中期能力。
因此,在参观了Supercell之后,马云决定对阿里巴巴的组织体系架构进行整体调整,以阿里巴巴的产品技术和数据能力建立强大的中台,打造“大中台、小前台”的组织和业务。系统 。
数据中心的主要目的是解决企业发展过程中因数据激增和业务扩展而导致的统计口径不一致、重复开发、指标开发需求响应慢、数据质量低、数据成本高的问题。通过一系列数据工具(元数据中心、数据指标中心、数据仓库模型中心、数据资产中心-资产质量/治理/安全、数据服务中心等),规范数据供应链的各个环节。
2.数据中心的特点
数据中心特点:支持前端数据标准化、安全、可靠、统一、共享、解耦、服务化的应用。
3.数据中心的作用
(阿里巴巴数据中台逻辑架构图)
(数据中心产品能力图)
数据中心通过对企业内外多源异构数据的构建、管理、分析和应用,优化内部数据管理提升业务价值,对外开展数据协同释放业务价值,使其成为企业数据资产管理中心。数据中心建成后,将形成数据API服务,为企业和客户提供高效、多样的数据服务。
数据中心在企业数字化转型和可持续发展中发挥着至关重要的作用。数据中心为解耦而生。企业建设数据中心的最大意义在于实现应用与数据的解耦,让企业可以不受限制地构建满足业务需求的数据应用。
构建了开放、灵活、可扩展的企业级统一数据管理和分析平台,可按需链接内外部数据,打破数据的系统边界。
利用大数据智能分析、数据可视化等技术,实现数据共享、日报表自动生成、快速智能分析,满足企业各部门数据分析应用需求。
深度挖掘数据价值,助力企业实现数字化转型。实现数据目录、模型、标准、问责、安全、可视化、共享的管理,实现数据集中存储、处理、分类和管理,建立大数据分析工具库、算法服务库,实现报表生成自动化、数据分析敏捷,数据挖掘可视化,实现数据质量评估、落地管理流程。
4. 数据湖 1. 数据湖概念
数据湖的起源:数据湖的起源应该追溯到2010年10月,由Pentaho的创始人兼CTO James Dixon提出。他的目的是根据当时的历史背景,推广自己的产品 Pentaho。当时要解决的核心问题是传统数仓报表分析面临的两个问题:
我们现在讨论的数据湖已经远远超过了James Dixon一开始定义的数据湖,各个厂商对数据湖的定义也比较不同。
1)AWS
数据湖是一个集中式存储库,可让您以任意规模存储所有结构化和非结构化数据。您可以按原样存储数据,而无需首先构建数据,并运行不同类型的分析——从仪表板和可视化到大数据处理、实时分析和机器学习,以指导更好的决策。
“数据湖是一个集中式存储库,可让您以任何规模存储所有结构化和非结构化数据。您可以按原样存储数据(无需先对其进行结构化)并运行不同类型的分析——从仪表板和可视化到大数据处理、实时分析和机器学习,以指导更好的决策。”
2) 微软
Azure Data Lake 收录使开发人员、数据科学家和分析师能够轻松存储任何大小、形状和速度的数据以及跨平台和语言进行所有类型的处理和分析所需的所有功能。它消除了摄取和存储所有数据的复杂性,同时通过批处理、流式处理和交互式分析更快地启动和运行。
“Azure 的数据湖包括所有使开发人员、数据科学家和分析师更容易存储和处理数据的功能,这些功能允许用户存储任何大小、类型和速度的数据,并且可以跨平台、做所有类型跨语言分析处理。数据湖可以帮助用户加速应用数据,消除数据采集和存储的复杂性,还支持批处理、流计算、交互分析等。
3)阿里云
“数据湖是一个统一的存储池,可以对接多种数据输入方式,可以存储任意规模的结构化、半结构化、非结构化数据。数据湖可以无缝对接各种计算和分析平台,根据业务场景,可以选择相应的计算引擎对存储在数据湖中的数据进行处理和分析,从而打破孤岛,挖掘业务价值。”
2. 数据湖内容
数据湖包括结构化数据(行和列)、半结构化数据(如CSV、日志、XML、JSON)、非结构化数据(如电子邮件、文档、PDF等)和来自关系数据库的二进制数据数据(例如图像、音频、视频)。
3. 数据湖的特点 4. 数据湖可以解决的问题
1)数据湖整体架构
最底层是分布式文件系统;
第二层是数据加速层。数据湖架构是存储和计算完全分离的架构。如果所有数据访问都远程读取文件系统上的数据,那么性能和成本开销将是巨大的。如果可以在计算节点本地缓存一些经常访问的热点数据,那么实现冷热分离是很自然的。一方面可以获得良好的本地读取性能,另一方面可以节省远程访问的带宽。
第三层是Table格式层,主要将一批数据文件封装成具有业务意义的表,提供ACID、snapshot、schema、partition等表级语义。
最上层是针对不同计算场景的计算引擎。开源一般包括Spark、Flink、Hive、Presto、Hive MR等,这批计算引擎可以同时访问同一个数据湖中的表。
2)数据湖能解决什么样的问题?
数据分散,存储分散,形成数据孤岛,无法将数据组合起来发现更多价值。
在这方面,数据湖其实是和数据仓库类似的问题,但不同的是,它的定义支持半结构化和非结构化数据的管理。传统数据仓库只能解决结构化数据的统一管理。
在这个万物互联的时代,数据的来源多种多样。随着应用场景的不同,输出的数据格式也越来越丰富,不再局限于结构化数据。如何统一存储这些数据是一个亟待解决的问题。
3) 存储成本
数据库或数据仓库的存储受限于实现原理和硬件条件,导致海量数据存储成本高。为了解决这些问题,有HDFS/对象存储等技术方案。在数据湖场景下,如果采用这种低成本的存储技术架构,将为企业大大节省成本。结合生命周期管理的能力,湖中的数据可以更好的分层(冷热存储在不同的存储介质:HDD、SSD、MEM),不用担心数据是保留还是删除数据以节省成本。
4)SQL已经不能满足的分析需求
越来越多的数据类型意味着越来越多的分析方法。传统的 SQL 方法已经不能满足分析的需要。如何通过各种语言定制贴近业务的代码?如何通过机器学习挖掘更多?数据价值。
5)存储/计算可扩展性不足
在传统数据库等海量数据的情况下,比如规模到PB级别,由于技术架构的原因,已经不能满足扩容需求或者扩容成本极高。这种情况下,通过数据湖架构下的技术能力扩展,实现成本为0,硬件成本也是可控的。商业模式不确定,无法提前建模。
传统的数据库和数据仓库都是 Schema-on-Write 模式,需要提前定义模式信息。在数据湖场景中,可以先保存数据,以后分析的时候发现Schema,即Schema-on-Read。
五、对比一、数据仓库VS数据中心VS数据湖
2. 数据仓库 vs 数据平台
因为狭义的数据平台是由于数据仓库的历史特性,其存储的数据多为结构化数据,而数据平台的出现解决了数据仓库无法处理非结构化数据和报表的问题开发周期长。数据仓库和数据平台(狭义)是分开比较的。
本质区别:技术架构和数据容量的差异。
通过上面的讨论,我们发现数据平台和数据湖之间似乎有很多相似之处。两者的区别应该从个人的角度来分析。数据处理的角度是不同的。数据湖更侧重于原创数据的存储。,而数据平台和数据仓库一样,需要对原创数据进行清洗和转换,并在数据处理后按照统一的标准规范进行存储。
6.总结
根据以上对数据平台、数据仓库、数据湖、数据中台的概念讨论和对比,我们做如下总结:
数据中心、数据仓库和数据湖之间没有直接关系;数据中心、数据平台、数据仓库和数据湖在一定维度上对业务产生价值的形式侧重点不同;数据仓库是数据驱动业务的逻辑概念,用于支持管理决策分析,为业务提供服务的主要方式是报表;数据中心是企业级的逻辑概念,体现了企业数据转化为业务价值的能力,为业务提供服务的主要方式是数据API;数据湖是企业级的技术逻辑概念,体现了企业级数据湖架构加速数据转化为商业价值的能力。为业务提供服务的主要方式是原创数据;数据中心和数据湖更贴近业务,可以更快 数据中心可以建立在数据仓库和数据平台之上,是加速企业从数据到业务价值过程的中间层;
本文由@Mr.Z 发表 聊产品原创人人都是产品经理。未经许可禁止复制
标题图片来自 Unsplash,基于 CC0 协议。
本文观点仅代表作者本人,大家都是产品经理。平台仅提供信息存储空间服务。
奖励作者,鼓励TA抓紧创作!
欣赏
横空出世:百家号热文采集工具-百家号爆文采集助手1.0 免费版
百家号爆文采集Assistant是专门为百家号开发的一款小工具,你可以轻松使用本软件来采集流行文章,简单好用,需要的朋友可以过来下载!
百家号爆文采集知识兔助手如何使用
1.设置采集时间
2.输入需要采集的链接,如果需要批量,可以设置为txt文档
3.点击分析采集文章信息
百家号介绍知识兔
百家号是百度为内容创作者共享的内容发布、内容变现和粉丝管理平台。百家号于2016年6月上线并正式测试。9月,账号系统、分销策略升级、广告系统正式上线。9月28日,正式向所有作者开放。
目前,百家号支持内容创作者轻松发布文章、图片、视频作品,未来将支持H5、VR、直播、*敏*感*词*等内容形式。内容一经提交,将通过手机百度、百度搜索、百度浏览器等多种渠道进行分发。
点击下载
下载体验
点击下载