解决方案:数据资产管理:数据目录怎么搞?
优采云 发布时间: 2022-10-30 21:53解决方案:数据资产管理:数据目录怎么搞?
通过数据资产清单,企业最终知道他们拥有哪些数据、如何使用数据、是否安全以及数据位于何处。但据笔者观察,目前行业内的数据资产盘点工作大多是人工进行,使用Excel工具进行记录。
请不要小看这种方法。Excel之所以人工统计数据资产是主流,证明了其易用性、方便灵活、协作敏捷等特点被广泛认可。这里提醒各位数据产品经理:如果能拿出一个比Excel更灵活、更易用的数据盘点工具,一定会大受欢迎!
有人可能会问,数据再好,库存再清楚,输出的只是一堆Excel,对企业没有价值吗?
是的。这时候就需要“数据资产目录”来发挥它的作用了!
01 什么是数据资产目录?
我经常将一本书的目录与数据目录进行比较。当你打开一本书的目录时,它会告诉你这本书是关于什么的,内容结构,作者的写作思路等,如果你对某一章感兴趣,通过目录可以快速找到内容你想看。书目起到提纲提纲的作用。
数据资产目录也是如此。它还具有“字典”的功能,可以帮助企业相关业务和技术人员快速定位数据、解读数据、查找数据,从中提取业务价值。
一、数据资产目录的本质
数据资产目录本质上是一个元数据存储库,它提供特定范围内所有数据资产的清单,无论其位置或来源如何。数据目录包括有关数据资产的关键属性信息,例如:名称、业务含义、类型、大小、模式和其他相关属性。
数据资产目录支持数据治理,包括:数据的分类分级、数据权限管理、冗余和不一致数据的识别,为数据沿袭分析和影响分析奠定基础。
2.数据资产目录和数据目录
数据资产目录和数据目录本质上是一样的,都是元数据管理。
在项目实践中,数据目录也称为数据资源目录,一般指相关数据源(业务系统数据库、数据仓库、数据湖等)数据目录的采集元数据。由于直接采集基本都是技术元数据如数据库表结构、数据流向、ETL脚本、数据库操作日志等,所以数据目录必须有一定的技术基础才能理解,其定位是提供技术工作人员观看。
数据资产目录是数据目录的子集。更多的是从业务的角度,针对利益相关者的数据需求,对期望给企业带来价值的数据进行分类和分级。标签、授权等请参考:《数据资产管理:如何分配企业的数据资产?》
02 为什么数据资产目录如此重要?
数据驱动是企业数字化转型的重要手段,而这一目标要求业务人员快速定位、充分理解和有效利用数据。随着企业数据量的不断增加和数据结构的复杂性增加,数据资产目录将在企业数字化转型过程中发挥越来越重要的作用。
1. 数据资产目录对业务人员至关重要
通常,当涉及到管理数据、准备数据、分析数据时,一切都与 IT 有关,而业务用户对 IT 的技术语言和工具感到困惑。但是,只有业务人员可以随时发现和理解数据,才能将其转化为有用的信息和有价值的业务洞察力,以指导业务实施改进。如果跨部门的关键业务决策者不能信任数据,如果他们无法理解数据,如果他们找不到数据,那么他们就无法使用数据来发现他们的业务问题并优化他们的业务。
数据资产目录是一个有组织的数据资产列表。它不仅包括IT人员擅长的数据库表、数据结构、数据流等技术元数据,还包括数据定义、同义词、用法、存储位置、数据等。关键业务属性,如所有者、数据管家、数据可用性等。数据资产目录为业务人员提供了理解数据、集中定位数据、快速访问和评估数据的入口点,从而更快、更高效地获得数据洞察和分析。
数据资产目录通过识别数据所有者、经理和主题专家来实现跨部门协作,因此业务人员在遇到紧急数据问题时知道去哪里寻找。数据资产目录屏蔽了底层技术的复杂性,提供了数据血缘的查询能力,让业务用户在不知道或不知道底层数据的情况下,了解自己的数据来源以及数据流动和处理的全链路采集 ,处理算法和进程。借助数据资产目录,业务用户可以轻松地进行交流,并确保他们使用正确的数据在正确的时间以正确的方式获得最大的结果。
2. 数据资产目录不仅仅针对业务人员
除业务人员外,数据资产目录用户还包括数据分析师、数据工程师、数据科学家、数据管理员和 CDO,他们都希望轻松访问可靠数据。
数据分析师可以通过数据资产目录了解和分析现有数据,例如:数据结构、数据安全和数据质量,极大地增强了数据分析和建模能力。
数据科学家可以通过数据资产目录探索相关数据,通过利用不同的数据集以及构建和评估更复杂的数据模型和算法,从数据中获得更多见解。
数据工程师可以通过数据资产目录检查数据链路中的相关问题,判断某个数据的变化对整个系统的影响,分析不同数据集的数据结构,建立业务元数据与物理数据库表字段的映射关系, ETC。 。
数据管理员可以通过数据资产目录实时查看数据状态,监控数据质量,控制数据访问权限,为关键数据定义数据标准,监控符合标准。
对于数据所有者、CDO 等角色,数据资产目录可以帮助提高运营效率并降低成本。
最后,数据资产目录为每个用户提供授权和访问控制机制,使每个人都可以更轻松地在整个企业中以可访问级别查找和发现数据。
03 数据资产目录有哪些功能?
数据资产目录不是一个单独的系统。它是数据资产管理的重要组成部分。数据资产目录需要与其他数据管理工具配合使用,才能发挥其重要价值。根据笔者的实践和观察,优秀的数据资产目录可能与数据管理组件有关。
1.元数据采集
数据资产目录支持连接多个数据源,从不同结构的数据源中提取元数据,包括:本地部署的数据源、云端数据源、物联网数据源、非结构化数据源等。自动化元数据采集 可以帮助用户了解整个企业的数据结构和关系,使企业能够自动分析和发现不易找到但收录有价值数据的数据。
2.元数据管理
数据资产目录应支持分类分级、关联映射、标注、自定义标注、敏感字段识别等,并管理采集的元数据,方便用户理解和查找数据。这里的元数据包括技术元数据和业务元数据。技术元数据描述了数据的详细存储位置和结构,例如数据库、字段和列信息,使 IT 人员能够了解数据的物理存储位置。业务元数据为用户提供清晰的业务上下文,包括数据定义、同义词和业务属性,帮助用户了解数据与其他数据集的关系,发现数据流和依赖关系。
3.数据血脉
数据沿袭与数据在整个企业中端到端流动的方式相反,作为数据资产目录的一部分,它在整个数据生命周期中提供跟踪和跟踪,以了解数据的来源、转换方式以及谁正在使用它。通常,数据沿袭是元数据管理的重要功能之一。它记录和显示系统、表、视图、字段等之间的关系,并使用DAG(有向无环图)模式进行可视化。简而言之,它是对这些数据的来源以及它经历了哪些过程和阶段的直观展示。
4. 数据标准
要将数据从数据资源转化为数据资产,必须对其进行标准化和定义,典型的做法是“业务词汇表”。通过数据资产目录建立数据标准与技术元数据的关联映射,是实施数据标准的重要手段。
5. 数据发现
数据资产目录支持自助服务,使用户无需依赖 IT 支持即可轻松访问和理解他们的数据。通过自动化的数据标记、分类和关系映射,用户可以使用关键字、过滤器、查询条件等进行数据搜索,以定位、访问和查询数据。数据发现还提供对数据当前状态的实时可见性,例如数据是如何采集、集成和使用的,无论是最新的还是过时的。
6. 资料申请/审批
数据资产目录为用户提供基于元数据的数据资产清单,但并非所有用户都拥有此清单的全局权限。每个数据资产只有在权责确定后才能被纳入数据资产目录,并且只有在权限范围内的用户才能访问相关数据。数据资产目录支持申请/审批功能,为用户提供访问更多数据的机会,提高数据资产的利用率。
7.数据API服务
用户可以通过数据资产目录找到自己需要的数据。数据资产目录不仅告诉你数据是什么(定义),它在哪里(位置),以及如何访问它(所有者),而且一般还提供一个基于数据的目录生成数据服务API的功能帮助用户实现数据的集成共享。
8、数据资产监控
提供数据资产监控功能,以热图的形式展示哪些数据具有较高的应用价值,通过使用次数、使用对象、使用效果评价等指标对数据资产的应用情况进行评估。根据数据资产使用情况,重组数据资产目录,最大限度释放数据资产价值。
04 数据资产目录的构建步骤
第 1 步:数据资产清单
数据资产盘点是利用科学的数据盘点方法,以“摸清家庭底线”为目标,对企业的数据资源进行统筹规划和综合梳理。一方面,从业务角度梳理和规划数据资源,包括:机构文件解读、流程表格整理、关键数据识别等,明确数据分类体系和数据资产业务属性. 另一方面,从技术角度对系统数据进行检查,包括:数据关系、数据结构、数据库存、数据增量、存储方式等,梳理数据资产的技术属性。
数据资产盘点的方法和步骤在《数据资产管理:如何盘点企业的数据资产?》中有详细的描述,这里不再赘述。
第 2 步:数据资产注册
根据数据盘点结果,完成数据资产汇总信息在数据资产目录中的登记。数据资产登记主要包括三方面的信息:一是业务方面,如:数据资产名称、所属数据域、数据分类、数据资产描述等;二、技术方面,数据资产位置(哪个系统,哪个表),数据资产类型(结构化数据/非结构化数据),数据资产方式(数据库/文件/API接口)等;第三,在管理方面,数据资产所有者(归口单位)、数据资产管理者、数据资产上市时间、数据资产共享条件等。
数据资产注册可以通过人工方式(据笔者观察,目前大多采用这种方式)或基于AI的数据资产识别。
第三步:采集元数据
注册好数据资产的基本信息后,接下来的关键步骤是采集数据资产的元数据。数据资产目录使用元数据来识别数据表、文件和数据库。元数据采集爬取公司的数据库并将元数据(不是实际数据)带入数据资产目录。由于数据资产分布在不同的位置,元数据采集的范围包括:
第 4 步:标记数据关系
标记关系是管理数据资产的重要步骤,允许用户跨多个数据库发现相关数据。例如,分析师可能需要整合的客户信息。通过数据资产目录,可以在五个不同的系统中找到*敏*感*词*。在数据目录的帮助下,可以建立一个实验区,所有数据都可以连接、清洗,然后通过组合的*敏*感*词*用于实现业务目标。
为表“帐户”标记的关系示例如下:
第五步:建立血缘关系
标记关系后,数据目录将构建沿袭。数据沿袭的可视化表示有助于跟踪从源到目标的数据,它解释了数据流中涉及的不同过程。数据分析师可以根据数据沿袭追溯分析中错误的根本原因。通常,ETL(提取、传输、加载)工具用于从源数据库中提取数据、转换和清理数据并将其加载到目标数据库中。
一些可以解析血缘关系的ETL工具包括:SQL解析、Alteryx、Informatica、Talend等。
第 6 步:数据资产组织
采集元数据以技术格式排列,缺少表格和列的中文注释,不利于业务人员对数据的理解。这时就需要在这些技术元数据的基础上构建语义层,并将相关的数据表和列用中文标注,以便业务人员发现、访问和理解。
写在最后:数据治理和数据资产目录
数据治理定义了数据管理的总体战略,明确了数据管理的组织、制度和流程,明确了数据的所有权,明确了数据标准,为数据资产管理指明了方向。数据资产目录是数据治理策略的具体实现,以业务友好的方式呈现企业的数据资产和位置,帮助用户更好地查找、理解和使用他们的数据。
数据资产目录的构建是数据治理的重要组成部分。创建可访问的数据资产目录,使非技术人员能够定位和利用整个企业的数据,并自动发现企业系统中的数据源,包括业务、技术和流程数据。数据沿袭提供完整的数据透明性,因此用户可以了解数据的来源、流程和依赖关系,以及数据从源到完成和消费的流向。因此,用户可以快速发现数据的影响,使其适应企业业务流程并做出更明智的数据决策。
数据资产目录的构建是实现自助数据准备和自助数据分析的前提。基于数据资产目录,业务数据分析师可以知道企业中有哪些数据资源或更新的数据资产,知道数据所有者是谁,这些数据资产在哪里,以及如何处理。最重要的是,数据资产目录可以提高定位和查询数据的速度和效率,从而推动数据使用,从数据中获得洞察力,增强企业竞争力。
参考:
汇总:【数据治理工具】--元数据系统
1 概述
如果要构建元数据系统,就需要了解元数据系统的相关概念,如数据、数据模型、元数据、元模型、ETL、数据沿袭等。
首先要明确数据的定义和数据模型的定义。数据通常是对客观事物的抽象描述。在数据库维度中,数据是数据记录的简称,如个人基本信息、产品信息等。数据模型是对数据特征的抽象。它在抽象层次上描述了系统的静态特征、动态行为和约束,为数据库系统的信息表示和操作提供了一个抽象的框架。数据模型描述的内容有数据结构、数据操作和数据约束三部分。
数据结构:数据模型中的数据结构主要描述了数据的类型、内容、性质以及数据之间的联系。数据结构是数据模型的基础,数据操作和约束建立在数据结构之上。不同的数据结构有不同的操作和约束。
数据操作:数据模型中的数据操作主要描述了对相应数据结构的操作类型和操作方法。
数据约束:数据模型中的数据约束主要描述了数据结构中数据之间的语法、词法连接、约束和依赖关系,以及动态数据变化的规则,以保证数据的正确性、有效性和兼容性。
第二,元数据和元模型。元数据是数据的数据。这句话太抽象了,难以理解。结合数据模型的定义,我们丰富了这句话,将其替换为“元数据是数据记录的数据模型”。元模型是关于模型的模型。同样,它是抽象的、晦涩的、难以理解的。如果把这句话换成“元模型是元数据的数据模型”,你会瞬间明白吗?
需要注意的是,这两个转换只是为了方便初学者理解和阅读以下大部分内容。随着时间的推移,个人对元数据的理解加深了,请舍弃这两个转换,因为这两个句子的描述是用狭义的定义来描述元数据和元模型,会禁锢你对元数据和元模型的理解-模型。
图1 元数据、元模型和数据关系
然后,ETL,数据沿袭。ETL是英文Extract-Transform-Load的缩写,用来描述数据从源端到目的端的抽取、转换、加载的过程。ETL是一种数据仓库技术,常用于数据湖、数据仓库、数据中台等项目的建设,但其对象并不局限于数据仓库。
数据沿袭是数据溯源过程中发现的相关数据之间的联系,是一个逻辑概念。基于数据血缘关系,还需要了解血缘关系分析、影响分析,以及整个数据链路。
沿袭分析一般采用图形化的方式展示其之前的一个元数据节点相关的所有元数据,反映数据的来源和处理过程,利用沿袭分析分析数据来源、标准实现关系、数据质量问题的可追溯性等。
一般来说,影响分析用于以图形方式显示与某个元数据相关的所有元数据作为起始节点,反映数据的流动和处理过程。使用影响分析,元数据更改可用于分析下游数据处理。,数据关联定位。
数据全链路分析,又称数据全链路图,简称数据全链路,是谱系分析和影响分析的总和。以当前元数据为节点,向上理解数据流向和处理过程,如血脉分析。影响分析是为了了解下面的数据流和处理环节。通常,所有元数据节点的数据处理和关联节点都以图形方式显示。
图2 ETL与数据全链路分析的关系
图3 数据全链路分析、沿袭分析与影响分析的关系
最后根据实际情况理解其他相关概念,丰富元数据的理解。没有元数据,就无法理解数据的真正含义。元数据看似是一堆晦涩无意义的文字和数字,但它可以为企业中的各类数据提供上下文,让企业更好地理解、使用和管理数据,进而体现数据的价值。
二、建设意义
如果要梳理企业数据资产、了解企业数据处理逻辑、发现企业数据质量隐患、整理企业数据标准、建设数据中心、开展数据治理等,你会发现方方面面或多或少与元数据相关。有着千丝万缕的联系。因为元数据是数据的数据,所以它是所有工作的入口点。例如,如果您想了解数据资产,元数据可以为您提供描述数据资产的定义;如果要查看和申请数据资产,可以基于元数据进行控制。查看范围、申请流程。
简单来说,元数据系统作为元数据管理系统,可以统一管理各种复杂的信息,方便企业在数据层面了解数据定义,进而进行数据的构建中间平台和数据治理。工作建设、数据质量工作建设、数据资产相关工作建设。
3、透视分析
元数据是描述数据的数据,定义了数据的业务意义、技术意义和处理过程,是数据管控的基本对象。企业想知道自己拥有哪些数据,数据在哪里,数据的当前归属,数据的生命周期是怎样的,哪些数据需要数据安全保护,如何发展数据质量,这一切都离不开元数据的管理。因此,可以说元数据系统为用户更好地理解数据、分析数据、挖掘数据提供了强大的工具。它是用户数据从沉默到可用、从资源到资产的基石。
图 1 元数据系统透视分析 4. 建设内容
元数据系统建设的范围非常广泛。目前市场上各个厂商的元数据系统各不相同,各有特点。最早的元数据系统建设可以追溯到十多年前。当时元数据的概念和今天有些不同,比如采集元数据的方法和范围。
下图元数据系统建设内容参考了市场上主流的元数据系统,《信息通信研究院元数据评价要求》,以及我自己对元数据的理解,结合自己的产品经验, 实施经验和咨询经验来组织如下常用功能。
制度建设的内容其实并不重要。重要的是在咨询过程和实施过程中解决客户的问题。这部分内容这里不再赘述,将在后面的数据治理咨询和数据治理实施章节中介绍。
图2 元数据系统建设范围*敏*感*词*
下面介绍一些关键的系统功能逻辑。
3.1 元模型管理
元模型定义了各种元数据的结构和元数据之间的关系,是元数据管理的基础。因此,在构建元模型时,需要考虑元模型需要遵守的规范、元模型构建的范围、元模型对元数据的影响以及元模型是否可以被用户自定义。
构建元模型的难点在于整理元模型的属性信息以及属性信息存放在哪里。技术元模型需要对相关的数据库和接口有深入的了解。深入了解后,整理元模型的属性信息,以及如何查询。元模型属性:业务元模型不同于技术元模型。研究对象需要与业务人员就属性的口径和属性关系进行沟通,并根据沟通的内容对元模型的属性进行梳理。需要调查对方的业务系统,确定采集的方法。
可见,元模型的范围非常重要。如果只是构建元数据系统,建议先从关系型数据库入手,然后随着产品交付和项目实施逐步完善其他技术元模型和业务元模型的构建。.
一般情况下,构建元模型会参考CWM(Common Warehouse Metamodel)规范,元模型设计工作会按照CWM规范进行。不建议允许客户端添加或删除元模型。因为技术元模型一般对应于数据库层面,所以相关数据库底层的元数据是固定的,不会通过调整元数据的元模型来改变数据库的元数据信息。通常,需要根据具体的数据库设计不同的元模型。; 业务元模型是根据具体的业务场景对相关元模型进行分析和组织;管理元模型是基于业务需求的抽象管理属性,
元模型主要分为技术元模型、业务元模型和管理元模型。后续的采集管理、元数据管理、统计分析都是基于这个分类进行相关工作。这三种元模型的技术元模型在数据源系统一章中已有介绍,此处不再赘述。有很多业务元数据。后续数据标准体系的基础标准和指标标准,数据质量体系的检验规则,都是业务元数据。可以参考数据标准和数据质量体系的相关章节。管理元模型的核心是管理元模型的属性。属性包括管理部门、分类、分类等。这些属性信息用于扩展技术元模型和业务元模型的属性。支持工作。从数据治理的源头来看,总管部门也会在源头系统做出统一的要求,这样当元数据采集时,相关的管理属性就存在了,不需要分类排序又出来了。
3.2 采集管理
元数据采集管理,简称采集管理,是通过技术手段自动或*敏*感*词*地从目标库、文件、接口中的元数据中获取特定内容。采集管理的核心内容是采集引擎、任务调度、采集日志、消息通知。
采集engine是metadata采集engine的缩写,用于对数据源执行metadata采集。由于元模型和元模型的多样性定义了 采集 的范围,并且元模型需要与 采集 引擎一一对应,因此 采集 引擎收录各种元数据采集 引擎的集合。采集该引擎是为了解决自动或*敏*感*词*获取元数据的需求。自动化一般是根据分析出来的元模型,结合数据源系统提供的目标地址,获取元数据信息;*敏*感*词*仪器基于分析的元模型,并导出需要 采集 的元模型标题样式。元数据通过离线采集组织,最后,
任务调度,简而言之,就是定时任务,是指根据给定的时间点、给定的时间间隔或给定的执行次数,自动执行任务。通过任务调度,可以按照调度顺序启动元数据采集工作,从而解决自动化采集元数据的问题。还需要考虑与第三方调度平台对接,将任务调度管理到客户的整体任务调度系统中。
采集日志是采集采集引擎工作时采集的信息,如开始和结束时间、相关元数据量等。用户可以看到通过采集日志判断本次任务调度的成败,通过分析采集日志了解当前采集引擎的性能。
消息通知是在采集任务完成后对采集任务进行整理汇总,然后将采集任务结果推送到系统消息通知通道、短信、邮件、钉钉、微信等用户,实现对采集任务的实时了解。
消息通知主要有以下几种形式:任务失败和成功信息、采集元数据变化总结消息、元数据变化分析消息等。
采集管理是元数据管理的入口,元数据采集引擎是采集管理的核心。只有整理元数据采集的管理,才能更好的为后续的元数据版本、数据图等提供基础数据。
3.3 元数据管理
元数据管理是采集收到的元数据统一的后台管理终端。主要包括元数据改进、元数据版本、环境检查三个子功能。
完善的元数据
如果只是简单的元数据管理,不涉及数据资产相关的管理内容,或者在原有元数据中不添加任何管理元数据,没有相关元数据发布流程,则无法构建元数据改进功能. 元数据改进主要是指对采集中的元数据进行进一步处理,通过元数据改进的操作来丰富元数据管理属性并增加相关流程,以满足咨询组编制的《元数据*敏*感*词*》中提到的要求。 . 元数据管理流程。
一般情况下,元数据由采集任务根据调度任务以增量方式自动采集。> 修改元数据的任意内容,根据客户需求添加相关管理属性,如管理部门、元数据目录、安全级别等。通过元数据发布过程完成元数据从管理状态到发布状态,让元数据在下一个显示链接中输入元数据显示。如果元数据通过离线Excel排序,通过文件导入获得,除了自动采集操作外,还可以根据具体情况对导入的元数据进行优化调整。
在元数据改进过程中,改进的重点是元数据目录、管理部门、安全级别,甚至是访问元数据的应用程序。从另一个维度思考,这些改进信息是确定数据所有者、数据管理者和数据生产者。、数据使用者、数据使用过程、数据使用是脱敏要求,可以简单概括为四个字,数据确权,即确定数据的权利属性,包括数据权利主体和内容的确定的权利。这些实际上是确定数据资产所有权的问题。数据确权是数据资产化的基础,是数据交易和数据流通的前提,是保障数据安全的重要手段。
数据资产一般在使用层面使用,体现数据的价值。为什么在改进元数据时,说数据资产的所有权是确定的?因为元数据是展示数据资产或管理数据资产的承担者。例如,假设数据比作液体,元数据比作容器,偏差切片、蒸馏器、分离器等工具,糖和盐等各种试剂比作显示液体的工具,例如数据查询、商业智能、等等,然后,液体需要储存在各种容器中。用户在使用液体时,根据不同的需要对液体进行处理,如蒸馏得到纯净液体,加入试剂掩盖液体的真实颜色或味道等。
元数据目录也可以理解为资产目录。什么是资产目录?相关定义请参考理论知识章节。如果是构造的,会在后续的实现章节中详细介绍。以下是数据资产目录是什么的简要概述,并揭开它的神秘面纱。
首先,让我们谈谈数据资产通常收录哪些内容。如果说元数据是数据资产管理的起点,那么数据资产包括存储元数据和业务元数据。而这些元数据在采集的时候其实是有相关目录的,这些目录组合起来就形成了asset目录。元数据采集存储后,一般会根据技术、管理和业务标准挂载到相关目录,例如科技部、计划财政部、部门互联网金融。业务元数据中基础数据标准的主体和层次,质检规则中的规则目录,如唯一性、完整性、一致性等,都是目录。采集它们的是数据资产目录。
图3 基于库存目录构建数据资产目录(仅供参考)
当然,如果您的资金实力雄厚,相关业务人员充足,您也可以根据采集中的各种元数据,根据需要重新划分资产目录,例如按客户、业务、运营管理等需要注意的是,由于数据可以快速复制,同一个数据资产至少会出现在一个资产目录中,即同一个数据资产可以出现在多个资产目录中。
图4 重组数据资产目录(仅供参考)
如果只管理元数据就是管理数据资产,那么元数据改进功能还可以使用资产盘点、资产确认、资产问责等名称。
元数据版本
元数据版本管理解决了同一数据源、同一环境(开发、测试、生产)下,采集不同时期的元数据可以任意比较,基于版本比较功能,可以显示元数据各个维度之间的变化,如添加、修改、删除。
一般情况下,元数据采集采用增量方式获取元数据,元数据版本会收录采集的所有增量内容。只有这样才能完成元数据版本工作,即元数据改进功能是最新的元数据,元数据展示是添加了管理属性或允许发布的元数据。
环境检查
环境检查解决了元数据在不同环境下是否一致的问题。一般来说,环境检查主要针对数据库相关的技术元数据,是元数据版本管理特殊场景下的功能扩展,因为其他类型的元数据都可以通过元数据版本来解决。
做过开发的小伙伴都知道,理论上系统部署在开发环境、测试环境、生产环境,都是物理隔离的。开发伙伴根据产品经理组织的需求,在开发环境中开发相关功能。开发完成后,将代码和数据库脚本提供给测试伙伴。测试伙伴将发布的文件部署到测试环境,测试伙伴在测试环境中进行测试。通过这个,相关人员通过配置管理员准备在线文档(软件程序、配置文件、数据库脚本等),并根据文档发布到生产环境。
实际过程中,需求变动、人员变动、配置管理不规范,测试环境的库表字段与生产环境的库表字段会有较大差异。如何知道两种环境下库表字段的区别?这是一件非常费力的事情。环境检查是为了解决不同环境中元数据不一致的问题。
首先,通过从某个元数据环境下最新的采集元数据信息导出获取全量元数据信息(建议导出的元数据信息是加密的,只有元数据系统可以解析)。在另一个元数据系统环境的环境检查中导入导出的元数据信息,将元数据与最新的采集元数据进行对比,找出两个环境元数据的差异,形成差异分析报告。提供给原有业务系统,方便对原有业务系统进行整改。
3.4 元数据展示
元数据采集任务和元数据完善,元数据的相关属性信息相当丰富。此时元数据展示主要包括三个方面。数据资产展示)、基于采集的ETL相关脚本解析的元数据图(或数据图、资产图等)、基于搜索引擎的元数据搜索(或数据资产搜索)。
元数据展示
元数据展示主要基于元数据。添加数据分类、安全分类、管理属性等信息后,用户可以通过数据分类分层展示元数据,查看元数据详情。
元数据映射
有一种特殊的元数据,属于广义的技术元数据。在细粒度划分方面,它被归类为计算元数据。经计算分析引擎处理后,显示数据处理逻辑和数据引用关系。这是元数据映射。.
元数据图,或血脉图,通常显示数据库表字段的数据处理环节。根据字段或表,让用户知道哪些表和字段是数据处理的上游,哪些表和字段是数据的下游。从广义上讲,索引标准依赖的模型是什么,数据标准符合哪些表和字段,对这些表和字段进行质量规则检查,调度任务的优先级等等。也就是说,除了常见的数据库表字段的数据处理血环图,还有业务元数据所依赖的数据库表字段关系。通过整合这些关系,可以形成一个三维元数据关系图。
元数据搜索
元数据搜索,也称为数据地图,允许用户通过全文搜索找到目标元数据。但是,当用户点击元数据时,除了显示当前元数据的基本信息外,还需要显示元数据相关信息、血脉信息等。假设搜索某个数据标准,显示该数据标准的基本属性、业务属性、技术属性、管理属性等一般信息,同时也显示实现当前数据标准的数据库表字段,以及关联的数据库表字段数据沿袭处理 显示这些数据库表字段引用的数据校验规则、指标标准、标注规则、报表等信息的链接。
如果元数据搜索的结果允许用户申请资产访问,通过资产访问申请后,可以看到当前与之关联的部分或全部具体的元数据,被屏蔽或未屏蔽的数据记录信息,或者业务数据信息,那么,此时的元数据搜索或数据图应成为资产图,当前功能不能放在元数据系统中,而应放在数据门户或数据资产系统中。
3.5 监控管理*
元数据监控和管理是元数据系统的一项重要功能,但不一定是必要功能。
元数据系统实际上是一个管理股票元数据的工具。从另一个维度来说,它是一种事后管理元数据的工具。当元数据发生变化时,系统通过采集的方式感知元数据的变化,但是当系统发现元数据发生变化时,实际上已经影响了一些数据。例如,某个字段的变化会导致后续数据ETL开发进度的操作出现错误。在元数据监控和管理中,重点是元数据的事前监控和元数据的事后监控。
事后监控
元数据的事后监控主要在采集任务期间进行,但是当元数据发生变化时,会及时通知相关元数据负责人。> 数据源管理属性,系统可向受数据影响的相关人员发送短信、邮件、微信等信息。
预监测
元数据的预先监控是最重要的。这里对元数据的预监控主要是针对数据库层面的,比如数据库表、字段、函数、存储过程的变化。如果客户有系统在线管理系统,那么与元数据的接口可以更好地对元数据进行提前管理和控制。如果没有相关上线管理系统,上线前只能将相关上线脚本提前预制到系统中,并设置预警时间范围。与预先制作的在线脚本相比,当发现两种异常时,将及时通知在线人员和相关管理人员,并在最短的时间内提醒在线人员注意异常信息。
与在线管理系统相关的预监控关键点是打开在线管理系统启动时正在运行的数据库脚本,通过接口获取脚本信息,同时在线启动监控系统。
3.6 统计与分析
元数据统计分析 通过采集、汇总、计算统计元数据,利用统计信息对元数据本身在不同维度上的分布、变化趋势、系统、人员等特征进行定量和定性分析,可用于横向比较,还可以总结历史,算命。总体而言,反映了元数据的现状和发展规律,有助于企业进一步增强元数据管理意识,提高元数据管理水平,辅助企业管理者做出正确决策。
元数据统计解决了元数据汇总后的日常变化、分布等。常见的统计维度包括点数、元数据类型、元数据更新状态(增删改)、元数据来源,测量值主要有数量、比例等。
元数据分析解决元数据的影响分析、视图关系分析、关联分析等。影响分析解决元数据一定变化产生的影响环节,视图关系分析解决视图处理环节,关联分析是基于血缘关系,对相关度特别高的元数据进行排名。
元数据审计就是解决元数据质量问题。主要从元数据注解、元数据非同义名称、元数据命名规则等方面检查数据源的元数据质量。通过元数据审计功能发现元数据质量问题。
3.7 接口管理
元数据非常重要。许多系统都连接到元数据。元数据常用的外部接口包括:元数据列表、元数据明细、元数据血脉链接、元数据分析引擎等。
4. 咨询链接
通用的《元数据*敏*感*词*》需要借助元数据系统来实施。梳理与数据资产相关的数据库表字段、数据标准、指标标准、报表等,离不开元数据信息。
5. 链接到实施
原业务系统数据库需要根据数据库表字段的标注率和同名的不同含义进行整改。如果构建数据湖、数据仓库等,元数据是不可缺少的输入条件之一。没有元数据,可以说数据字典基本是空的,根本无法进行模型分析和数据建模。