大数据时代的数据质量保障 -- 数据质量中心的设计与实现 yuwen.xm@taobao.com 阿里巴巴-CDO数据平台事业部 雨玟
主要内容 大数据时代的质量难题 数据质量中心架构设计 数据质量中心的实践
阿里的数据中心CDO
大数据时代的质量难题
质量难题 在数据处理流程中在那一部分数据出问题,不知道? 数据校验方法多样性难,平均值?方差?周期性?固定值? 字段汇总值 字段最大值 字段的唯一值个数 不同系统间数据流通,是否有损失? 字段最小值 字段平均值 表记录数据波动,与上期同比波动或与固定数据一致性比较是否正常? 字段重复值个数 离散值 字段空值个数 带业务过滤条件的数据波动,精确监控难
质量保证历程
数据质量中心架构设计
产品介绍 数据质量中心--Data Quality Center(DQC)
整体设计—核心内容 数据监控 数据清洗 数据度量
交互产品 DQC 离线计算平台 元数据 云调度 告警 数据 通道
整体设计—架构示图 数据质量DB 数据质量WEB服务 GATEWAYS… 离线处理 调度系统 数据传输通道/离线处理 平台 DQC EXECUTOR DQC 规则/模板配置 DQC项目级管理 DQC HOOK DQC 报告展现 任务及质量展现 数据质量服务 DQC ENGINE DQC规则中心 DQC质量校验中心 DQC 任务 POOL DQC报警模块 多级容错机制 数据质量DB DQC 规则同步工具 DQC样本对比工具 DQC告警对比工具
整体设计—报警分级 红色报警 Red 橙色报警 Orange
整体设计—规则分级 block Rule check alert weak ……
整体设计—阻塞逻辑 Red block 下游任务阻塞
应用之前 MR Shell Hive 多种数据库存储 HDFS 其他离线处理平台 多种数据传输通道
应用之后 MR Shell Hive DQC HDFS 多种数据库存储 其他离线处理平台 多种数据传输通道
DQC在数据生态链中的位置
整体设计—Y轴 DB1 实时传输 business OLAP 数据传输 DW DB2 business OLAP DB3 数据传输 report S1 S2 S3 S4
整体设计—X轴 DB1 数据传输 DW 时间 维度 DT:数据传输通道
数据质量中心的实践
示例举例1 某应用源数据s*表,发现“当日旺旺在线时长”有>24小时的情况 On_line_time>24h RULE Data Run Get ODPS Data Results Check
示例举例2 某应用订单交易明细表的订单总金额相比昨天波动-98.6% Check Sum(amount) Data Run Data Results RULE Get ODPS Data Historical samples
示例举例3 某日志统计r*表,发现存在 pv=0 而 uv>0 的数据 Count(*)>0 pv=0 uv>0 RULE Data Run Data Results Check 方法1:如举例1图 方法2:如举例3图
应用情况 DQC 淘宝 天猫 一淘 支付宝 ICBU 阿里 金融 阿里云 CBU CDO 聚划算
应用情况
应用优点 智能阈值算法体系 多级容错、缓存 校验规则与生产任务异步 模板规则灵活,可扩展 校验,预警分级别 ODPS紧密结合的数据采集器 独立计算,不耗生产slots
后续发展 一淘 聚划算 天猫 ICBU DQC 淘宝 阿里 金融 阿里云 支付宝 CDO CBU
后续发展 MR Shell Hive DQC HDFS 多种数据库存储 其他离线处理平台 多种数据传输通道
后续发展 智能阈值算法体系 可热插拔的规则与校验服务 默认监控 监控前移
Q and A Q and A?
Thanks !