阿里数据同步的前世今生 巴真 陈守元
阿里数据同步前世今生 背景 历程 展望
阿里数据同步前世今生 背景 历程 展望
简要讨论下大数据
背景 - 阿里数据开发流程 需求分析 业务建模 数据集成 数据开发 数据测试 线上部署 结果集成
背景 - 阿里数据开发流程 需求分析 业务建模 数据集成 业务异构数据集成到离线计算平台 数据开发 数据测试 线上部署 结果集成
背景 - 阿里数据开发流程 需求分析 业务建模 数据集成 数据开发 数据测试 线上部署 结果集成 计算结果数据导入在线业务平台
背景 – 数据同步本质 同构 异构 在线 离线
阿里数据同步前世今生 背景 历程 展望
2005年 史前时代 历程 – 数据平台的追溯 2005 年 2007 年 2009 年 2013 年 Oracle Rac Hadoop 2005年 史前时代 数据平台发展之初 计算平台单节点Oracle 调用系统? 同步/集成使用脚本封装 业务需求
2007年 发展之初 历程 – 数据平台的追溯 2005 年 2007 年 2009 年 2013 年 Oracle Rac Hadoop 2007年 发展之初 数据业务逐步快速发展 计算平台采用Rac,后扩充为20节点 调用系统使用crontab定时调用 同步/集成仍然采用脚本封装 数据开始为公司决策服务
2009年 黄金时期 历程 – 数据平台的追溯 2005 年 2007 年 2009 年 2013 年 Oracle Rac Hadoop 2009年 黄金时期 数据业务进入高速发展时期 计算平台开始使用Hadoop 调用系统使用天网调度系统 同步/集成使用定制化工具 数据开始为社会提供服务
2013年 云计算平台 历程 – 数据平台的追溯 2005 年 2007 年 2009 年 2013 年 Oracle Rac Hadoop 2013年 云计算平台 数据平台成为集团单独事业部门 计算平台为Hadoop/飞天 调度系统使用工作流+分布式资源框架 同步工具采用DataX/TT 数据平台将作为阿里云计算平台为社会提供服务
阿里集团前端服务 (淘宝/天猫/一淘/B2B/支付宝) 历程 – 数据流动的现状 数据流动 阿里集团前端服务 (淘宝/天猫/一淘/B2B/支付宝) 应用层 Mysql Oracle HBase OB TFS 源数据层 DataX TT 数据集成层 离线计算平台 实时计算平台 计算中心层 DataX 数据同步层 Mysql Oracle HBase OB TFS 宿数据层 数据产品 报表 展现应用 Adhoc 结果展现层
历程 – 数据流动的现状 工作流调度 对内数据支撑: 商业智能与决策支持 应用 数据同步总线 产品运营分析 非结构化数据源 系统运维 实时流式同步 实时计算 中间层 应用服务器 流式数据 计算框架 MySQL Cluster 数据产品 结构化数据 实时流式同步 结构化数据源 HBase 离线数据计算框架 中间件服务 结构化数据 离线同步 搜索引擎 应用 分布式资源池 数据中心
现状 – 同步的领域细分 非实时 实时 结构化 非结构化
现状 – 同步的领域细分 维度 DataX TT 系统目标 解决任意异构数据源的数据离线交换 解决异构数据实时传输的平台 实时性 低 高 数据结构化 结构化、半结构化 结构化、非结构化 (日志) 数据源支持 覆盖阿里几乎所有类型的数据存储、计算系统 较DataX少,数据源必须提供增量解析接口 服务形式 工具包、服务平台 服务平台 开源类似产品 Sqoop flume、chukwa、scribe
现状 – DataX 结构 DataX Service Service Cluster 管理、监控数据同步集群 DataX Master 管理、监控每个同步作业 DataX Slave Slave Slave Slave 管理、监控每个同步子任务 DataX Instance Instance Instance Instance 管理、监控每个同步示例/同步插件 DataX Plugin Reader Writer Transformer 负责数据的抽取、转换、装载
现状 – DataX 结构 M S M S M S S S S S S S S S S M S DataX 集群 Master Slave Launch FailOver M S M S M S S S S S S S S S S M S
现状 – TT 结构 Shrek Broker Broker HBase FileTailer Broker Broker DBSync ODPS Writer HBase FileTailer Broker Broker HDFS Writer DBSync
阿里数据同步前世今生 背景 历程 展望
展望 – 阿里大数据和云 阿里云服务平台 数据云服务 应用云 数据同步 计算中心 存储中心 工作流引擎 元数据服务 … 离线数据总线 实时数据总线 分布式资源管理框架 同步网关
Conversation