网站分析常用的指标之内容指标( 数据治理的核心内容如下:数据质量可分为监控管理、规则模块库和管理)
优采云 发布时间: 2022-04-15 00:22网站分析常用的指标之内容指标(
数据治理的核心内容如下:数据质量可分为监控管理、规则模块库和管理)
前言
我们已经初步介绍了数据中心的背景以及为什么要建设数据中心。同时,我们还介绍了政财云数据中心的实现以及指标库的背景和使用。那么今天,让我们再深入一点大数据的海洋,谈谈数据质量在数据治理中的内容,以及数据质量在当前政采云台中的实施和作用。
数据治理的背景
随着业务的发展,大数据中存储的数据量和在线操作量越来越大。在这些庞大的存储和元数据信息中,存在着大量的冗余数据,对于集群资源的维护和数据的开发都具有重要意义。这是对资源和管理的巨大浪费。同时,由于冗余和无效数据和作业的存在可能影响核心作业的运营产出,数据团队成立时间越长,数据治理越突出。重要性。
数据治理的核心内容如下:
本文重点介绍正财云数据中心平台IData中的数据质量以及数据质量的实现和使用。
数据质量的原因
数据质量的原因有很多,具体概括也可以分为以下四类:
数据质量的常见指标
作为数据治理的重要组成部分,数据质量包括多方面的内容。具体来说,数据质量的好坏可以通过以下五类指标来衡量:
政财云数据中心的数据质量也是基于以上指标设计和实现的。
IData 数据质量
从系统设计的角度来看,目前的IData数据质量可以细分为监控模块和报警模块。监控模块也可以看作是大数据元数据基本信息的采集和存储过程,用于监控大数据数据。数据的元数据信息,告警模块根据监控配置告警规则,判断是否需要数据质量告警,通知数据开发者处理有问题的作业和数据。
从功能模块上看,目前IData数据质量可分为监控管理、规则模块库和基线管理。下面从功能模块开始介绍。
数据质量 - 监控管理
下面是数据质量监控管理页面,支持对已经入库的表进行监控规则的配置和设置。
我们认为监控和警报应该分开而不是混合在一起。监测产生的数据质量指标应作为大数据数据的元数据信息。数据质量告警只是一个使用场景,但是这个数据质量指标不仅可以用于数据质量告警,还可以观察数据输出效率、数据输出规模变化、元数据相关信息变化等。
监控告警规则配置
监控报警日志
数据质量 - 规则模块库
规则模板库中用于数据质量监控告警的规则包括以往研究认为通用的监控告警规则和用户自定义规则。
根据规则配置产生的数据质量指标可分为完整性、准确性和有效性三类。我们认为数据质量的监控和告警规则都可以属于这三类。
内置规则
根据前人研究整理出9条内置规则,按指标类型分类如下:
正直
表行数波动:表级规则,配置规则时可以指定表行数的波动范围。当最新输出的数据行数与上一次数据输出的行数的波动范围不在规定范围内时,会触发告警。
表行数减少:表级规则,无需额外配置项。当最新输出的数据行数小于上一次数据输出的行数时,触发告警。
字段枚举值内容:字段级规则,配置规则时,需要指定该字段只能收录哪些枚举值。数据生成时,根据获取的字段枚举值内容和配置的枚举值范围,如果在未配置的枚举值范围内有枚举,则会触发告警。
字段枚举值个数:字段级规则,配置规则时需要指定该字段的枚举值个数。数据生成时,将得到的字段枚举值个数与配置规则时指定的枚举值个数进行比较。如果大于配置的数字,则触发警报。
表不为空:表级规则,无需其他配置项。如果最新**数据输出的行数为0**,则会触发报警。
准确性
唯一表主键:表级规则,主键是指表的逻辑主键,逻辑主键数据来自IData的数据仓库设计模块。在ETL过程中,会根据数据仓库设计中逻辑主键的配置规则对主键进行唯一性验证。如果**数据质量指标输出为假**,将触发警报。
字段数据取值范围:字段级规则,配置规则时可以指定字段的最大值和最小值。生成数据时,将得到的字段的最大值和最小值与配置的最大值和最小值进行比较。如果任何数据不在规则范围内,则会触发警报。
字段值不为空:字段级规则,可配置字段值为空阈值。在 ETL 过程中,会查询空字段(包括 null 和空字符串)的数量。如果获取的空字段数大于配置的阈值,则会触发告警。
时效性
表输出时间:表级规则,可以配置表的预期输出时间。在ETL过程中,调度系统调度的一些作业可能会卡住。如果核心作业卡住,会导致数据输出严重延迟。因此,数据质量模块会轮询查询配置该规则的表的输出时间。如果在配置的时间内没有获取到表格的输出时间,则会触发报警。
自定义规则
目前的IData数据质量模块支持自定义规则,即支持采集作业数据质量指标自定义数据质量执行sql,根据自定义sql配置监控报警规则。
数据质量 - 基线管理
当前IData数据质量基线管理的工作是对当前大数据核心基础表进行统一管理,并配置统一的基准规则,适用于基线中的所有表。
总结
数据治理是大数据系统的重要组成部分。随着公司的发展,数据量的增加和数据的海量使用必然会引发数据治理问题。作为数据治理的重要组成部分,数据质量在当前政采云数据中心中逐渐发挥了重要作用。但是,数据治理和数据质量不仅仅是数据团队需要关注和思考的问题。任何产生数据的部门,无论是团队还是团队,都要控制和保证数据的准确性和有效性,数据源的治理可以进一步保证数据治理的有效性。
目前,现有团队依靠数据中心IData的数据质量能力来检查数据源的准确性。后续数据平台团队将进一步拓展IData数据治理能力,包括但不限于数据安全、标准规范、研发效率和成本控制。等等,进一步提高数据中心的能力。