算法 自动采集列表(数据质量可以帮助您第一时间感知源端数据的变更与ETL)
优采云 发布时间: 2022-01-21 10:17算法 自动采集列表(数据质量可以帮助您第一时间感知源端数据的变更与ETL)
数据质量可以帮助您即时感知ETL(Extract Transformation Load)中产生的源数据和脏数据的变化,自动拦截问题任务,有效防止脏数据向下游扩散。避免因任务输出而导致数据不符合预期,导致时间成本增加、意外额外成本增加或影响数据的正常使用。
费用说明
运行数据质量规则的成本由两部分组成:
特征
解释数据质量有助于识别数据库频繁变化、业务变化频繁、数据定义不明确、业务系统数据脏、系统交互异常、数据修正不准确、数据仓库异常等质量问题。
数据质量监控流程如下图所示。
说明 数据质量主要监控EMR(E-MapReduce)、Hologres、AnalyticDB for PostgreSQL、MaxCompute、DataHub数据集的质量。因此,您需要先创建表并在表中写入数据,然后才能使用数据质量功能。
请参阅数据质量管理原则。
注意事项 规则配置和验证过程 数据质量通过表配置的分区表达式匹配节点每天产生的表分区。执行,包括自动调度的周期性实例、手动触发的补充数据实例和运行的测试实例),将触发数据质量规则验证。可以设置规则的强度来控制节点是否退出失败,避免脏数据的影响。扩展,支持通过告警配置在第一时间接收和处理告警信息。
创建数据质量规则
在数据质量监控规则页面,您可以选择特定引擎下需要保证数据输出质量的表,并配置该表需要配置哪些数据质量规则。在配置之前,可以先了解几件事:
配置表中需要验证的规则
支持针对波动性、数字或动态阈值的表级、字段级验证。规则类型 检查模式 报警模式
数字
数据分析结果与固定值进行比较。
规则告警模式通过定义规则的强度来控制。
*敏*感*词*
指定时间段内数据探索结果与数据采样结果的波动率比值支持上升幅度、下降幅度或波动幅度(绝对值)的比较,可根据波动幅度定义规则的强弱。
根据规则的强度触发警报
例如,橙色阈值填写为 5%,红色阈值填写为 10%。当波动率大于5%且小于等于10%时,会发出橙色警报。当波动率大于 10% 时,会出现红色警报。
动态阈值
基于智能算法,结合历史采样结果(模型样本参考量),自动确定合理阈值。动态阈值还支持强规则和弱规则。
注:模型样本参考量是指“动态阈值算法模型”生效的样本最小时间窗范围,在该时间窗内允许缺失10%以下的数据。未达到样本参考量不报警,缺失数据由算法自动补齐。
系统会根据智能算法自动确定合理的阈值;如果发现异常数据,将立即触发警报或封锁。
定义规则告警和告警接收方式:订阅管理
您可以在配置规则时定义规则的强度,从而控制规则的影响范围。您可以通过订阅管理在第一时间接收和处理告警信息。目前支持短信、邮件、钉钉群机器人报警。当调度节点产生的表数据不符合预期时:
定义规则的触发方式:关联调度
数据质量规则与生成表数据的调度节点的执行相关联(生成表数据的节点在运维中心的执行,包括自动调度周期实例、手动触发的补充数据实例、和测试实例运行),数据将被触发。对于质量规则校验,可以设置规则强度来控制节点是否退出失败,避免脏数据影响扩大。
检查规则配置是否正常:test run
规则创建完成后,您可以选择试运行功能来验证创建的数据质量规则是否可以进行数据质量验证。
数据质量规则触发
在运维中心的运维中心,与表关联的调度节点(产生表数据的节点,配置表质量规则时与该节点关联的节点)会运行,并会触发数据节点代码逻辑执行后的质量检查。验证(将在底部生成验证 sql 以执行。)。包括周期实例、补充数据实例和测试实例运行。
当节点操作触发异常数据质量检查时,平台会根据质量规则检查结果和数据质量规则强度判断任务是否失败退出,是否阻塞下游节点的执行以防止影响脏数据进一步扩大。
查看数据质量检查结果
您可以在运维中心的任务执行详情和数据质量任务查询页面查看数据质量验证结果。
查看运维中心节点的运行日志,
打开实例面板,查看执行详情,在如图所示位置查看任务触发的数据质量验证结果。详情请参阅。
这意味着如果验证失败,任务将无法退出并阻塞下游节点的执行。
实例状态失败时,也可能是代码运行成功但节点输出的表不符合预期,强数据质量规则检查失败,导致任务退出失败,阻塞下游实例跑步。实例状态为质量监控验证失败。如下所示。
通过数据质量任务查询界面查看。
任务查询界面可以通过表名和节点ID进行过滤。
查看历史验证详情:任务查询
在任务查询界面,可以通过表或节点查询表的历史验证记录和验证详情。