免规则采集器列表算法(数据质量监控平台整体框架构建美旅大质量监管平台建设方案)

优采云 发布时间: 2021-09-27 10:18

  免规则采集器列表算法(数据质量监控平台整体框架构建美旅大质量监管平台建设方案)

  背景

  数据已成为互联网企业高度依赖的新型重要资产。数据的质量直接关系到信息的准确性,也影响着企业的生存和竞争力。Michael Hammer(《Reengineering the Corporation》一书的作者)曾经说过,看似不起眼的数据质量问题实际上是业务流程瓦解的重要标志。数据质量管理是一套用于测量、改进和验证质量以及集成组织数据的处理指南。规模大、速度快、多样性等特点决定了大数据质量所需的处理方式,有别于传统的信息治理计划的质量管理方法。

  本文基于美团点评大数据平台,通过采集分析、规则引擎、评价反馈、数据流各阶段数据质量检测结果再监控的闭环管理流程过程,从面对挑战出发,构建思路,从技术方案、呈现效果和总结,介绍美团平台酒旅事业群(以下简称美团)数据质量监管平台DataMan的思路和建设实践。 )。

  挑战

  美国旅游数据中心每天处理的线下和实时操作高达数万。如何更合理高效地监控各类操作的运行状态,通过规则引擎,将原本分散孤立的监控日志信息集中共享、关联,处理;洞察关键信息,形成事前判断、事中监控、事后跟踪的闭环质量管理流程;沉淀故障问题,建立解决方案的知识库系统。在数据质量监管平台的规划建设中,面临以下挑战:

  DataMan质量监管平台的开发就是在此基础上进行的,以下是具体的建设方案。

  解决方案

  总体框架

  为美旅搭建大数据质量监控平台。从实际应用的角度,整合平台资源和技术流程核心关键点,重点建设平台支撑、技术控制、流程体系、知识体系形成,确保质量监控平台敏捷推进、落地可行性. 数据质量监控平台整体框架如图1所示:

  

  图1 质量监控平台总体框架图

  施工方法

  基于数据质量检测与管理的PDCA方法论,基于美团大数据平台,对数据质量需求和问题进行全质量生命周期管理,包括质量问题的定义、检查和监控、发现和发现。分析、跟踪反馈和知识库沉淀。数据质量PDCA流程图如图2所示:

  

  图2 数据质量PDCA流程图

  关键流程

  质量监管平台建设的实际应用和价值体现,离不开管理流程、技术实施和组织人员的紧密结合。主要包括以下8个主要工艺步骤:

  质量要求:发现数据问题;信息报告和采集要求;检验规则等要求;细化规则:梳理规则指标,确定有效指标,验证指标准确性和衡量标准;建立规则库:检查对象配置、调度配置、规则配置、检查范围确认、检查标准确定等;执行检查:调度配置、调度执行、检查代码;问题检查:检查问题展示、分类、质量分析、质量严重性分类等;分析报告:数据质量报告、质量问题趋势分析、影响分析、解决方案达成一致;实施与处理:计划实施、跟踪管理、方案审核、标准化提炼;

  质量检验标准

  大数据平台下的质检标准需要考虑大数据变化快、多维度、定制化、资源量大的特点,如数据仓库和应用BI系统的质量不合格等级划分、定义数据模型流行度标准、作业操作的耗时标准分类和数据仓库模型的逻辑分层和主题划分的组合如下图3所示。

  

  图3 质检标准图

  Mitra数字仓库分为客服、流量、运营、订单、门店、产品、参与者、风控、结算、公众使用等十大主题。按照base、Fact、Topic、App的逻辑分层,形成系统的物理模型。. 从数据价值量化、存储资源优化等指标评价,将物理模型分为热、温、冷、冰四种标准,具体标准范围结合应用定制,实现其灵活的配置。

  作业运行时间分为:优秀、良好、一般、关注、耗时等,为每一类耗时定义的标准范围既满足大数据的特点,又满足特定的分析需求,耗时操作与数据仓库主题和逻辑有关。层层深度融合,实现多角度质量洞察评估。

  对于数以万计的作业信息,从数据时效性、作业操作等级、服务目标范围等角度,将故障等级划分为S1:极严重;S2:高严重性;S3:中度严重;S4:严重性 四个低级标准中的每一个都对应一个具体的实施策略。整体数据质量的检测对象包括离线数据仓库和实时数据。

  监管核心要点

  

  图4 数据质量监管功能图

  数据质量功能模块设计的主要功能如上图4所示,包括:监控对象管理、检查指标管理、数据质量流程监控、问题跟踪管理、推荐优化管理、知识库管理、系统管理。过程监控包括离线数据监控和实时数据监控;问题跟踪处理是一个由问题发现(支持自动验证和人工录入)、问题上报、任务推送、故障分级、故障处理、知识库沉淀组成的闭环过程。

  管理流程

  流程管理是促进数据问题从发现、跟踪、解决到汇总和细化的合理有效的工具。质量管理流程包括:数据质量问题报告、数据质量问题分析、故障跟踪、解决方案验证、数据质量评估分析等主要步骤;从利益相关者的角度分析,包括数据质量经理、数据质量检查员、数据平台开发人员、业务和BI业务人员等,形成从流程步骤到经理的职责和角色矩阵。如图5所示:

  

  图5 数据质量流程图

  问题总结:数据质量报告、ETL处理和监控过程报告、数据质量检查点等来源。ETL 处理部分是自动报告程序以减少人为干预。

  问题分析:通过指定角色和岗位人员对总结的问题进行分析评价,统一公众号自动推送提醒消息给负责人。

  问题单:对采集的问题进行分析归类后,主要分为信息提示和故障问题两大类。信息提示不需要生成工单,会针对故障问题生成相应的工单然后推送到工单。处理程序。

  故障等级:确定生成的问题单的故障级别。级别分为四类:S1、S2、S3、S4(如图3所示),对于特别严重的故障,需要回顾机制并跟踪案例研究摘要。

  知识库体系:从数据问题、解决方案、典型案例等内容,形成规范完整的知识库体系,从质量问题中提取价值,形成标准,更有效地指导业务,规范业务,提高源数据质量提高商务服务水平。

  质量过程管理:

  技术解决方案

  整体架构

  DataMan系统建设总体规划基于美团的大数据技术平台。自下而上包括:检测数据采集、品质市场处理层;质量规则引擎模型存储层;系统功能层、系统应用展示层等。 整个数据质量检查点以技术和业务测试为基础,形成完整的数据质量报告和问题跟踪机制,创建质量知识库,确保数据的完整性、正确性、及时性。数据质量,一致性。

  整体架构图如图6所示:

  

  图6 DataMan质量监管总体架构图

  技术框架

  前后端技术

  

  图7 技术架构图

  DataMan应用系统前端框架(如上图7)基于Bootstrap开发,模板引擎为FreeMarker,Tomcat(开发环境)为默认web容器,连接到通过MVC实现应用服务层,Bootstrap的优点是基于jQuery,Rich CSS和JS组件,兼容多种浏览器,统一界面风格等;FreeMarker是一个基于模板生成输出文本的引擎。后端搭建基于开源框架Spring4、Spring Boot、Hibernate,集成了Druid、Apache系列和Zebra等数据库访问中间件等,为系统的功能开发带来更多的选择和便利。

  斑马中间件

  系统数据库连接使用中间件Zebra,是美团点评DBA团队推荐的官方数据源组件。是基于JDBC和API协议开发的高可用、高性能的数据库访问层解决方案;提供如动态配置、监控、读写分离、分库分表等功能。Zebra的整体架构如图8所示:

  

  图 8 Zebra 架构图

  Zebra 客户端会根据路由配置直接连接 MySQL 数据库进行读写分离和负载均衡。RDS是一站式数据库管理平台,提供对Zebra路由配置信息的维护;MHA组件和从库监控服务分别负责主库和从库的高可用。Zebra 支持丰富的底层连接池;统一的源数据配置管理;读写分离和分库分表;数据库的高可用性。

  数据模型

  整个质监平台的数据流向是美团平台上的数据质量元数据信息采集,包括数据仓库元数据信息、质检元数据、调度平台日志信息、监控日志、实时元数据信息,等,以及处理形式独立数据质量的市场模型支持应用层系统的数据需求。应用层系统数据库采用关系型数据库存储方式,主要收录规则配置管理信息、数据质量结果数据库等信息内容。数据流的层次关系图如下:

  

  图 9 数据流层次图

  数据平台层:基于美团大数据平台的数据质量元数据是质量分析和监管的源头,是整个系统最基本、最重要的资源信息。该数据主要包括:数据仓库元数据信息,如数据仓库模型表的基本信息、表存储空间资源信息、表分区信息、节点信息、数据库元信息、数据库资源信息等;运行作业调度日志信息,如基本作业信息、作业运行资源信息、作业调度状态信息、作业依赖信息、作业调度日志监控信息等;质检元数据信息主要来自SLA、DQC(美团内部系统)检测结果。实时元数据采集

  质量市场层:独立创建DM数据质量市场,以基础元数据信息为基础,根据质量监管平台配置的引擎规则,通过ETL处理形成。规则库引擎如数据仓库应用主题划分规则、数据仓库逻辑层次约束、数据库引擎分类、模型使用热度等级、模型存储空间分类、资源增长等级、历史周期分类、作业重要性等级、作业运行时间消耗等级、作业失败分类、数据质量标准化定义等。

  在管理方向上,例如模型或职位所属的业务线、组织结构和开发人员;在时效性上,分为线下监控数据、实时数据集市等,多维度交叉组合分析,形成模型、作业、监控日志、实时性,强力支撑上层应用层功能的数据需求。数据质量集市DM的主要模型如图10所示:

  

  图 10 数据质量集市模型图

  应用分析层:应用层系统数据存储在关系数据库(MySQL)中,主要包括规则配置管理信息、数据质量分析结果、API实时登陆数据、故障问题数据、知识库信息、流程管理和系统管理类等信息内容直接面向前端界面的显示和管理。

  系统显示

  数据质量DataMan监控系统第一阶段建设实现的主要功能包括:个人工作台、信息监控、推荐信息、信息上报、故障管理、配置管理和权限系统管理等。系统效果如图图 11:

  

  图 11 系统效果图

  个人工作台

  在系统中,个人问题和个人相关任务,如个人的关注、处理、优化、汇总等,形成统一的工作平台入口。通过公众号推送,第一时间提醒个人,并通知提交反馈的人。,担保问题可跟踪,进度可查询,责任到人的工作流程机制。

  离线监控

  系统可以定期执行模型监控、作业监控、平台日志监控等元数据质量规则引擎,对数据仓库主题模型、逻辑层操作、存储资源空间、作业进行详细深入的分析洞察。时间消耗、CPU 和内存资源;按照质量分析模型,构建时间、增长趋势、同环比、历史基准点等多维度、综合集成的统一监控平台。

  实时监控

  从应用角度,将作业划分为业务线、数据仓库层级、数据仓库主题、组织结构、人员等维度,结合作业基线信息,实时监控运行作业质量,并与工作基线对比参考,预警符合标准的指标信息将第一时间通知负责人。实时作业运行和基线对比的监控效果如图12所示:

  

  图12 实时作业运行监控图

  推荐信息

  通过规则引擎的设置和自动调度的执行,系统考虑存储资源配置、数据模型优化、作业优化、日志错误超时、预警通知等,基于既定的质量标准,自动检测评估,并总结问题。形成可靠的推荐和优化内容,达到阈值条件时主动推送消息,触发后续任务的开发。

  公众号

  通过“数据治理公众号”机器人发送消息模式,将预判的触发通知、任务分配、任务提醒、风险评估等信息第一时间通知到相应的负责人,并启动工作流程。

  故障处理

  支持自动上报和手动上报两种模式。工作在闭环工作流中进行,以确保问题和故障可以被跟踪、查询、分级、评估和量化。责任到个人,可行的处理方式是严格的。控制数据质量,从根本上提升数据质量,提升业务服务水平。

  DataMan质量监管系统投入运行,优化数据存储资源,提升运营绩效,减少任务耗时,推动管理工作规范化、精细化。信息推荐功能通过推送通知将待优化、风险、超时故障等信息尽快发送至个人工作台,并通过工作流机制进行推送;模型监控和作业监控功能用于数据存储、模型构建、耗时操作等,合理的场景控制资源,节约投资成本。

  问题上报和故障管理功能的有效结合,形成了一个由问题发现、报告、任务分配、处理完成、复习总结沉淀对个人和所问问题负责的闭环过程。随着系统的深入运行,将在数据实时监控、质量故障统计管理、数据质量评估机制、数据资产质量权威报告、知识库系统标准化、深化流程管理。

  总结

  数据质量是数据治理建设的重要组成部分,与元数据管理、数据标准化和数据服务管理共同构建数据治理的系统框架。构建完整的DataMan质量监管平台,将从监控、标准、流程体系等方面提升信息管理能力,优先解决面临的数据质量和数据服务问题,其效果体现在以下几个方面:

  数据质量是数据仓库建设、数据应用建设和决策支持的关键因素。可以完善组织架构和管理流程,加强部门间的联系和协调,严格按照标准或考核指标执行,确保数据质量。最大化商业价值,从而提升企业的核心竞争力,保持企业的可持续发展。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线