数据湖如何帮助企业长期以来，企业一直试图找到一个能力

优采云发布时间: 2021-08-10 02:13

　　01 什么是数据湖

　　如果需要给数据湖下个定义，可以这样定义：数据湖是存储企业各种原创数据的大型仓库，可以对数据进行访问、处理、分析和分析。传送。

　　数据湖从企业的多个数据源获取原创数据，出于不同的目的，同一原创数据也可能有多个满足特定内部模型格式的数据副本。因此，数据湖中处理的数据可能是任何类型的信息，从结构化数据到完全非结构化数据。

　　企业对数据湖寄予厚望，希望它能帮助用户快速获取有用的信息，并将这些信息用于数据分析和机器学习算法，从而获得与企业运营相关的洞察。

　　数据湖与企业的关系

　　数据湖可以为企业带来多种能力。例如，它可以实现数据的集中管理。除此之外，企业还可以挖掘出很多以前不具备的能力。

　　此外，数据湖结合先进的数据科学和机器学习技术，可以帮助企业构建更加优化的运营模式，还可以为企业提供其他能力，如预测分析、推荐模型等，可以激发公司产能的后续增长。

　　企业数据中隐藏着许多能力。但是，在具有业务数据洞察力的人可以使用重要数据之前，人们无法使用它们来提高企业的业务绩效。

　　02 数据湖如何帮助企业

　　长期以来，公司一直在努力寻找一个统一的模型来代表公司中的所有实体。由于多种原因，这项任务极具挑战性，其中一些原因如下：

　　一个实体在一个企业中可能有多个表示，因此可能没有一个完整的模型来统一表示该实体。不同的企业应用程序可能会根据特定的业务目标来处理实体，这意味着在处理实体时会采用或排除某些业务流程。不同的应用可能对每个实体采用不同的访问方式和存储结构。

　　这些问题多年来一直困扰着公司，阻碍了业务处理、服务定义和术语的标准化。

　　从数据湖的角度来看，我们正在以另一种方式看待这个问题。使用数据湖，隐式实现更好的统一数据模型，无需担心对业务流程产生实质性影响。这些业务程序是解决特定业务问题的“专家”。根据从与实体所有者相关的所有系统捕获的全部数据，数据湖将实体表示为“尽可能完整”。

　　因为在物理表现上更好、更完整，数据湖确实为企业数据处理和管理带来了巨大的帮助，让企业对企业成长有更多的洞察，帮助企业实现业务目标。

　　值得一提的是，Martin Fowler 写了一个非常有趣的文章。在这个文章中，他简要解释了企业数据湖的一些关键方面。您可以参考以下链接：

　　数据湖的优势

　　企业将在其多个业务系统中生成大量数据。随着企业规模的扩大，企业也需要更智能地跨多个系统处理这些数据。

　　最基本的策略之一是使用单独的域模型，它可以准确地描述数据并代表整个业务中最有价值的部分。这些数据是指上述公司数据。

　　当然，拥有明确定义的企业数据的公司也有一些管理数据的方法。因此，更改企业数据定义可以保持一致性，企业也非常清楚系统如何共享这些信息。

　　在这种情况下，系统分为数据所有者和数据消费者。对于企业数据，需要有一个对应的拥有者。所有者定义其他消费者系统如何获取数据，消费者系统扮演消费者的角色。

　　一旦企业对数据和系统有了明确的定义，就可以通过这种机制来使用大量的企业信息。该机制的一个常见实现策略是通过构建企业级数据湖来提供统一的企业数据模型。在这种机制中，数据湖负责为消费者系统捕获数据、处理数据、分析数据并提供数据服务。

　　数据湖可以从以下几个方面帮助企业：

　　实现数据治理和数据沿袭。通过机器学习和人工智能技术的应用，实现商业智能。预测分析，例如特定领域的推荐引擎。信息跟踪和一致性保证。根据历史分析生成新的数据维度。拥有一个可以存储所有企业数据的集中式数据中心，有利于实现数据传输优化的数据服务。帮助组织或公司就企业发展做出更灵活的决策。

　　在本节中，我们将讨论数据湖应具备的功能。后续将讨论和评论数据湖的工作原理以及如何理解其工作机制。

　　03 数据湖是如何工作的

　　为了准确了解数据湖能为企业带来哪些好处，了解数据湖的工作机制以及构建功能齐全的数据湖需要哪些组件尤为重要。在深入研究数据湖架构的细节之前，让我们首先了解数据湖上下文中的数据生命周期。

　　从更高的层面来看，数据湖中的数据生命周期如图 2-1 所示。

　　▲图2-1 数据湖的生命周期

　　上述生命周期也可以称为数据湖中数据的不同阶段。每个阶段所需的数据和分析方法也不同。数据处理和分析可以以批处理模式或近实时模式进行处理。

　　数据湖的实现需要同时支持这两种处理方式，因为不同的处理方式服务于不同的场景。处理方式的选择（批处理或近实时处理）还取决于数据处理或分析任务的计算量，因为许多复杂的计算无法在近实时处理模式下完成，在某些情况下，需要更长的时间处理不能接受周期。

　　同样，存储系统的选择也取决于数据访问要求。例如，如果要存储数据以方便通过SQL查询访问数据，则选择的存储系统必须支持SQL接口。

　　如果数据访问需要数据视图，则涉及到以相应的形式存储数据，即可以将数据作为视图对外提供，方便管理和访问。

　　最近一个越来越重要的趋势是通过服务提供数据，这涉及在轻量级服务层上向外界公开数据。每一项公共服务都必须准确描述服务功能，并向外界提供数据。该模型还支持基于服务的数据集成，以便其他系统可以使用数据服务提供的数据。

　　当数据从采集点流入数据湖时，其元数据会根据其生命周期中的数据敏感性，从数据溯源、数据沿袭和数据安全等方面进行捕获和管理。

　　数据沿袭被定义为数据的生命周期，包括数据的来源以及数据如何随时间移动。它描述了在各个流程中数据发生了哪些变化，有助于提供对数据分析管道的可见性，并简化错误可追溯性。

　　可追溯性是通过识别记录验证数据项的历史、位置或应用的能力。

　　--维基百科

　　04 数据湖和数据仓库的区别

　　很多时候，数据湖被认为等同于数据仓库。事实上，数据湖和数据仓库代表了公司想要实现的不同目标。两者的主要区别如表2-1所示。

　　数据湖

　　数据仓库

　　可以处理所有类型的数据，如结构化数据、非结构化数据、半结构化数据等。数据类型取决于数据源系统的原创数据格式。

　　只能对结构化数据进行处理，并且这些数据必须与数据仓库预先定义的模型一致。

　　有足够的计算能力来处理和分析所有类型的数据，分析后的数据将被存储起来供用户使用。

　　处理结构化数据，将其转化为多维数据或报表，以满足后续高级报表和数据分析的需要。

　　数据湖通常收录更多的相关信息，被访问的概率很高，可以为企业挖掘新的运营需求。

　　数据仓库通常用于存储和维护长期数据，因此可以按需访问数据。

　　▲表 2-1 数据湖和数据仓库的主要区别

　　从表 2-1 可以看出，数据湖和数据仓库的区别很明显。但是，两者在企业中的作用是互补的，不应考虑数据湖的出现来取代数据仓库。毕竟两人的角色完全不同。

　　05 如何构建数据湖

　　不同的组织有不同的偏好，因此他们以不同的方式构建数据湖。构建方法与业务、处理流程和现有系统等因素有关。

　　一个简单的数据湖实现几乎等同于定义一个中央数据源，所有系统都可以使用这个中央数据源来满足所有数据需求。虽然这种方法可能简单且具有成本效益，但由于以下原因，它可能不是一种非常实用的方法：

　　只有当这些组织重新开始构建其信息系统时，这种方法才可行。这种方法不能解决与现有系统相关的问题。即使组织决定使用这种方法来构建数据湖，也缺乏明确的责任和关注点分离。此类系统通常会尝试一次性完成所有工作，但最终会随着数据交易、分析和处理需求的增加而分崩离析。

　　构建数据湖的更好策略是将企业及其信息系统视为一个整体，对数据所有权关系进行分类，并定义统一的企业模型。

　　虽然这种方法可能存在与流程相关的挑战，并且可能需要更多的努力来定义系统元素，但它仍然提供了所需的灵活性、控制和清晰的数据定义以及企业系统实体之间关注点分离的差异。

　　这样的数据湖还可以有独立的机制来捕获、处理和分析数据，并为消费者应用程序提供数据服务。

　　作者简介：Tomcy John 是企业级 Java 技术专家，拥有工程学*敏*感*词*和超过 14 年的行业开发经验。

　　Pankaj Misra 是一名技术传播者，拥有工程学学*敏*感*词*，在多个业务领域拥有超过 16 年的技术经验。

　　本文摘自《企业数据湖》，经发布者授权发布。

0

2021-08-10

一键采集上传常见的细节问题

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

数据湖如何帮助企业长期以来，企业一直试图找到一个能力

0 个评论

发起人

AI时代内容工厂

数据湖如何帮助企业长期以来，企业一直试图找到一个能力

0 个评论

发起人

相关问题