详细数据:数据资产管理:数据目录怎么搞?
优采云 发布时间: 2022-10-07 06:12详细数据:数据资产管理:数据目录怎么搞?
通过数据资产清单,企业最终知道他们拥有哪些数据、如何使用数据、是否安全以及数据位于何处。但据笔者观察,目前行业内的数据资产盘点工作大多是人工进行,使用Excel工具进行记录。
请不要小看这种方法。Excel之所以人工统计数据资产是主流,证明了其易用性、方便灵活、协作敏捷等特点被广泛认可。这里提醒各位数据产品经理:如果能拿出一个比Excel更灵活、更易用的数据盘点工具,一定会大受欢迎!
有人可能会问,数据再好,库存再清楚,输出的只是一堆Excel,对企业没有价值吗?
是的。这时候就需要“数据资产目录”来发挥它的作用了!
01 什么是数据资产目录?
我经常将一本书的目录与数据目录进行比较。当你打开一本书的目录时,它会告诉你这本书是关于什么的,内容结构,作者的写作思路等,如果你对某一章感兴趣,通过目录可以快速找到内容你想看。书目起到提纲提纲的作用。
数据资产目录也是如此。它还具有“字典”的功能,可以帮助企业相关业务和技术人员快速定位数据、解读数据、查找数据,从中提取业务价值。
一、数据资产目录的本质
数据资产目录本质上是一个元数据存储库,它提供特定范围内所有数据资产的清单,无论其位置或来源如何。数据目录包括有关数据资产的关键属性信息,例如:名称、业务含义、类型、大小、模式和其他相关属性。
数据资产目录支持数据治理,包括:数据的分类分级、数据权限管理、冗余和不一致数据的识别,为数据沿袭分析和影响分析奠定基础。
2.数据资产目录和数据目录
数据资产目录和数据目录本质上是一样的,都是元数据管理。
在项目实践中,数据目录也称为数据资源目录,一般指相关数据源(业务系统数据库、数据仓库、数据湖等)数据目录的采集元数据。由于直接采集基本都是技术元数据如数据库表结构、数据流向、ETL脚本、数据库操作日志等,所以数据目录必须有一定的技术基础才能理解,其定位是提供技术工作人员观看。
数据资产目录是数据目录的子集。更多的是从业务的角度,针对利益相关者的数据需求,对期望给企业带来价值的数据进行分类和分级。标签、授权等请参考:《数据资产管理:如何分配企业的数据资产?》
02 为什么数据资产目录如此重要?
数据驱动是企业数字化转型的重要手段,而这一目标要求业务人员快速定位、充分理解和有效利用数据。随着企业数据量的不断增加和数据结构的复杂性增加,数据资产目录将在企业数字化转型过程中发挥越来越重要的作用。
1. 数据资产目录对业务人员至关重要
通常,当涉及到管理数据、准备数据、分析数据时,一切都与 IT 有关,而业务用户对 IT 的技术语言和工具感到困惑。但是,只有业务人员可以随时发现和理解数据,才能将其转化为有用的信息和有价值的业务洞察力,以指导业务实施改进。如果跨部门的关键业务决策者不能信任数据,如果他们无法理解数据,如果他们找不到数据,那么他们就无法使用数据来发现他们的业务问题并优化他们的业务。
数据资产目录是一个有组织的数据资产列表。它不仅包括IT人员擅长的数据库表、数据结构、数据流等技术元数据,还包括数据定义、同义词、用法、存储位置、数据等。关键业务属性,如所有者、数据管家、数据可用性等。数据资产目录为业务人员提供了理解数据、集中定位数据、快速访问和评估数据的入口点,从而更快、更高效地获得数据洞察和分析。
数据资产目录通过识别数据所有者、经理和主题专家来实现跨部门协作,因此业务人员在遇到紧急数据问题时知道去哪里寻找。数据资产目录屏蔽了底层技术的复杂性,提供了数据血缘的查询能力,让业务用户在不知道或不知道底层数据的情况下,了解自己的数据来源以及数据流动和处理的全链路采集 ,处理算法和进程。借助数据资产目录,业务用户可以轻松地进行交流,并确保他们使用正确的数据在正确的时间以正确的方式获得最大的结果。
2. 数据资产目录不仅仅针对业务人员
除业务人员外,数据资产目录用户还包括数据分析师、数据工程师、数据科学家、数据管理员和 CDO,他们都希望轻松访问可靠数据。
数据分析师可以通过数据资产目录了解和分析现有数据,例如:数据结构、数据安全和数据质量,极大地增强了数据分析和建模能力。
数据科学家可以通过数据资产目录探索相关数据,通过利用不同的数据集以及构建和评估更复杂的数据模型和算法,从数据中获得更多见解。
数据工程师可以通过数据资产目录检查数据链路中的相关问题,判断某个数据的变化对整个系统的影响,分析不同数据集的数据结构,建立业务元数据与物理数据库表字段的映射关系, ETC。 。
数据管理员可以通过数据资产目录实时查看数据状态,监控数据质量,控制数据访问权限,定义关键数据的数据标准,监控合规性。
对于数据所有者、CDO 等角色,数据资产目录可以帮助提高运营效率并降低成本。
最后,数据资产目录为每个用户提供授权和访问控制机制,使每个人都可以更轻松地在整个企业中以可访问级别查找和发现数据。
03 数据资产目录有哪些功能?
数据资产目录不是一个单独的系统。它是数据资产管理的重要组成部分。数据资产目录需要与其他数据管理工具配合使用,才能发挥其重要价值。根据笔者的实践和观察,优秀的数据资产目录可能与数据管理组件有关。
1.元数据采集
数据资产目录支持连接多个数据源,从不同结构的数据源中提取元数据,包括:本地部署的数据源、云端数据源、物联网数据源、非结构化数据源等。自动化元数据采集 可以帮助用户了解整个企业的数据结构和关系,使企业能够自动分析和发现不易找到但收录有价值数据的数据。
2.元数据管理
数据资产目录应支持分类分级、关联映射、标注、自定义标注、敏感字段识别等,并管理采集的元数据,方便用户理解和查找数据。这里的元数据包括技术元数据和业务元数据。技术元数据描述了数据的详细存储位置和结构,例如数据库、字段和列信息,使 IT 人员能够了解数据的物理存储位置。业务元数据为用户提供清晰的业务上下文,包括数据定义、同义词和业务属性,帮助用户了解数据与其他数据集的关系,发现数据流和依赖关系。
3.数据血脉
数据沿袭与数据在整个企业中端到端流动的方式相反,作为数据资产目录的一部分,它在整个数据生命周期中提供跟踪和跟踪,以了解数据的来源、转换方式以及谁正在使用它。通常,数据沿袭是元数据管理的重要功能之一。它记录和显示系统、表、视图、字段等之间的关系,并使用DAG(有向无环图)模式进行可视化。简而言之,它是对这些数据的来源以及它经历了哪些过程和阶段的直观展示。
4. 数据标准
要将数据从数据资源转化为数据资产,必须对其进行标准化和定义,典型的做法是“业务词汇表”。通过数据资产目录建立数据标准与技术元数据的关联映射,是实施数据标准的重要手段。
5. 数据发现
数据资产目录支持自助服务,使用户无需依赖 IT 支持即可轻松访问和理解他们的数据。通过自动化的数据标记、分类和关系映射,用户可以使用关键字、过滤器、查询条件等进行数据搜索,以定位、访问和查询数据。数据发现还提供对数据当前状态的实时可见性,例如数据是如何采集、集成和使用的,无论是最新的还是过时的。
6. 资料申请/审批
数据资产目录为用户提供基于元数据的数据资产清单,但并非所有用户都拥有此清单的全局权限。每个数据资产只有在权责确定后才能被纳入数据资产目录,并且只有在权限范围内的用户才能访问相关数据。数据资产目录支持申请/审批功能,为用户提供访问更多数据的机会,提高数据资产的利用率。
7.数据API服务
用户可以通过数据资产目录找到自己需要的数据。数据资产目录不仅告诉你数据是什么(定义),它在哪里(位置),以及如何访问它(所有者),而且一般还提供一个基于数据的目录生成数据服务API的功能帮助用户实现数据的集成共享。
8、数据资产监控
提供数据资产监控功能,以热图的形式展示哪些数据具有较高的应用价值,通过使用次数、使用对象、使用效果评价等指标对数据资产的应用情况进行评估。根据数据资产使用情况,重组数据资产目录,最大限度释放数据资产价值。
04 数据资产目录的构建步骤
第 1 步:数据资产清单
数据资产盘点是利用科学的数据盘点方法,以“摸清家庭底线”为目标,对企业的数据资源进行统筹规划和综合梳理。一方面,从业务角度梳理和规划数据资源,包括:机构文件解读、流程表格整理、关键数据识别等,明确数据分类体系和数据资产业务属性. 另一方面,从技术角度对系统数据进行检查,包括:数据关系、数据结构、数据库存、数据增量、存储方式等,梳理数据资产的技术属性。
数据资产盘点的方法和步骤在《数据资产管理:如何盘点企业的数据资产?》中有详细的描述,这里不再赘述。
第 2 步:数据资产注册
根据数据盘点结果,完成数据资产汇总信息在数据资产目录中的登记。数据资产登记主要包括三方面的信息:一是业务方面,如:数据资产名称、所属数据域、数据分类、数据资产描述等;二、技术方面,数据资产位置(哪个系统,哪个表),数据资产类型(结构化数据/非结构化数据),数据资产方式(数据库/文件/API接口)等;第三,在管理方面,数据资产所有者(归口单位)、数据资产管理者、数据资产上市时间、数据资产共享条件等。
数据资产注册可以通过人工方式(据笔者观察,目前大多采用这种方式)或基于AI的数据资产识别。
第三步:采集元数据
注册好数据资产的基本信息后,接下来的关键步骤是采集数据资产的元数据。数据资产目录使用元数据来识别数据表、文件和数据库。元数据采集爬取公司的数据库并将元数据(不是实际数据)带入数据资产目录。由于数据资产分布在不同的位置,元数据采集的范围包括:
第 4 步:标记数据关系
标记关系是管理数据资产的重要步骤,允许用户跨多个数据库发现相关数据。例如,分析师可能需要整合的客户信息。通过数据资产目录,可以在五个不同的系统中找到*敏*感*词*。在数据目录的帮助下,可以建立一个实验区,所有数据都可以连接、清洗,然后通过组合的*敏*感*词*用于实现业务目标。
为表“帐户”标记的关系示例如下:
第五步:建立血缘关系
标记关系后,数据目录将构建沿袭。数据沿袭的可视化表示有助于跟踪从源到目标的数据,它解释了数据流中涉及的不同过程。数据分析师可以根据数据沿袭追溯分析中错误的根本原因。通常,ETL(提取、传输、加载)工具用于从源数据库中提取数据、转换和清理数据并将其加载到目标数据库中。
一些可以解析血缘关系的ETL工具包括:SQL解析、Alteryx、Informatica、Talend等。
第 6 步:数据资产组织
采集元数据以技术格式排列,缺少表格和列的中文注释,不利于业务人员对数据的理解。这时就需要在这些技术元数据的基础上构建语义层,并将相关的数据表和列用中文标注,以便业务人员发现、访问和理解。
写在最后:数据治理和数据资产目录
数据治理定义了数据管理的总体战略,明确了数据管理的组织、制度和流程,明确了数据的所有权,明确了数据标准,为数据资产管理指明了方向。数据资产目录是数据治理策略的具体实现,以业务友好的方式呈现企业的数据资产和位置,帮助用户更好地查找、理解和使用他们的数据。
数据资产目录的构建是数据治理的重要组成部分。创建可访问的数据资产目录,使非技术人员能够定位和利用整个企业的数据,并自动发现企业系统中的数据源,包括业务、技术和流程数据。数据沿袭提供完整的数据透明性,因此用户可以了解数据的来源、流程和依赖关系,以及数据从源到完成和消费的流向。因此,用户可以快速发现数据的影响,使其适应企业业务流程并做出更明智的数据决策。
数据资产目录的构建是实现自助数据准备和自助数据分析的前提。基于数据资产目录,业务数据分析师可以知道企业中有哪些数据资源或更新的数据资产,知道数据所有者是谁,这些数据资产在哪里,以及如何处理。最重要的是,数据资产目录可以提高定位和查询数据的速度和效率,从而推动数据使用,从数据中获得洞察力,增强企业竞争力。
参考:
整套解决方案:API管理平台,RestCloud API接口管理
RestCloud API管理平台配合企业级API网关管理企业所有API资产、API开发者、API消费者,为企业搭建统一的接口管理平台,完成整个API的全生命周期管理. API 管理平台为每个开发者或访问者分配一个帐户。每个开发者只能查看和发布自己的 API 接口。对于没有调用权限的API开发者,可以通过应用程序调用API。审核通过后,开发者将获得API调用权限。
RestCloud API 管理平台
1.基于应用管理API接口
RestCloud API管理平台可以从多项目、多应用、多分类、多标签、类类等多个维度管理API接口,只从类类或分类管理接口比swagger ui好. 当接口数量较多时,RestCloud API 接口管理平台将表现出极大的优势。
2.API接口全局搜索
RestCloud API 管理平台支持全局模糊搜索和精确搜索。通过搜索,可以快速定位到API的来源和详细调用信息。供应商、合作伙伴、前后端开发人员可以一键搜索API并查看详细的API文档。,并且可以在线测试API,可以大大加快API访问和联调的效率。
3. API 由标签聚合管理
RestCloud API 管理平台允许对一个 API 打上多个标签,通过标签可以对 API 进行更多维度的管理和搜索。
4.API在线设计功能
RestCloud API管理平台允许用户根据业务需求直接通过Web界面设计API。设计无需程序员参与即可完成,包括:url格式、输入参数、输出参数、验证规则、错误提示等信息。接口设计好后,后端开发者可以根据自动生成的注解代码实现业务逻辑。
RestCloud API管理平台中的所有API文档均可输出为国际标准OpenAPI3.0标准文档,支持JSON和YAML格式,支持按类、按应用整体输出。