阿里数据同步的前世今生 巴真 陈守元.

Slides:



Advertisements
Similar presentations
课程介绍 (PPT版本号:2016年1月24日版本) 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 林子雨
Advertisements

第二章 中药药性理论的现代研究 掌握中药四性的现代研究 掌握中药五味的现代研究 掌握中药毒性的现代研究 了解中药归经的现代研究.
高等数学绪论 一、《高等数学》学什么? 二、《高等数学》培养学生那些能力? 三、如何考硕士研究生? 四、全国大学生数学建模竞赛是怎么回事?
勝過這世界 我能勝過這世界 因有耶穌在我心 黑暗權勢已破碎 因耶穌基督寶血. 勝過這世界 我能勝過這世界 因有耶穌在我心 黑暗權勢已破碎 因耶穌基督寶血.
淘宝海量数据产品技术架构 张轩丞(朋春) 淘宝网-数据平台与产品部.
淘宝数据应用开发平台 Weibo.com/apeks.
校務會議 業 務 報 告 教官室 主任教官: 廖世文 中校 99/06/25.
  中国技术交易信息服务平台 中国技术市场管理促进中心.
拯救书店计划 第二课挑战任务 一、探秘职业,获取知识 姓名:童彦佶 团队成员:童彦佶和妈妈 年龄:10岁 所在地区:上海
95課綱 歷史科第二冊(中國史) 第三單元(章) 近世發展(宋、元明、清) 第三主題(節) 士紳社會與庶民文化
資料庫系統 曾俊雄.
理 想 理想是大海的航标, 指引你前进的方向; 理想是闪闪的明灯, 照亮你前进的航程; 理想是生命的动力,帮助你战胜困难;
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
基于Hadoop/HBase的一淘搜索离线系统
高中生职业生涯规划 河南省淮滨高级中学 朱凯
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
《大数据技术原理与应用》 课程介绍 (2016春季学期)
淘宝核心系统资深专家 我为什么要选择RabbitMQ 淘宝核心系统资深专家
四年一班小組創作 黃琦智老師指導 (影片檔請見班級電視牆)
CHAINFIN 供应链金融服务平台 供应商 物流商 采购商 融资 签订合同,融资 提供上游企业资质评估 提供资质评估 风控体系
Canal开源产品介绍 taobao.
文档式数据库 在Hadoop集群中的应用 SequoiaDB – 王涛.
材料作文审题立意训练.
海量 数据分析架构.
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
基于解释性语言的手机跨平台架构 Sloan Yi. Qt MTK.
喜愛大自然的老師----段秋華.
麻风病 福建省疾病预防控制中心 武文斌 电话:
班級:電資一 組長:程英傑 組員:黃智駿、廖夢溪、李金霖 黃粵丞、蘇長益 指導老師:陳美美 老師
Hadoop与数据分析 淘宝数据平台及产品部基础研发组 周敏 日期:
本章涉及的主要问题: 汇票中的出票、背书、 票据种类 承兑、保证行为 票据行为 汇票中的付款和追索 票据权利及其内容 有关本票的制度
Information & Security System in China China North Eastern Air Traffic Control Bureau (CAAC) Customer Background Subsidiary of General Administration of.
基于R和pentaho的全套开源BI平台的实现
Alibaba 数据库高可用架构 Alibaba
快速学习环境搭建 安装前预备工作(Linux相关配置) 实操演示(hadoop、hbase为例) 总结&练习题(课后练练手)
Hadoop I/O By ShiChaojie.
MariaDB Spider分库分表引擎调研
面向高能所信息化系统的高可用数据库服务 王丽 计算中心 中科院高能所 第十八届全国科学计算与信息化会议.
瑞斯康达—MSG1500 产品类型:路由器 建议零售价格:198元 上市时间:2017 年 3月
CHAPTER 6 認識MapReduce.
Hadoop平台與應用規劃實作 報告者:劉育維.
从现在做起 彻底改变你自己 Sanjay Mirchandani EMC公司高级副总裁、首席信息官.
存储系统.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
基于OpenStack的散裂中子源计算环境概述 —CSNS私有云环境现状
华为—E8372h- 155 外观设计 产品类型:数据卡 建议零售价格:299元 上市时间:2017年6月7日 目标人群:大众
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
Visual Studio Team System 简介
晟元大数据云平台 食品安全云大数据云平台 2017年4月 北京晟元亿讯科技有限公司.
数据挖掘工具性能比较.
PaPaPa项目架构 By:Listen 我在这.
斯坦福大学调研 蒋达晟.
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
SOA – Experiment 2: Query Classification Web Service
新一代安全网上银行 小组成员:杨志明 王晶 任毅 刘建中 关昊 刘超.
Hadoop与数据分析 淘宝数据平台及产品部基础研发组 周敏 日期:
B2B -- 99/09/01 ~ 99/11/10異動項目 1.公告區 1-1 登入首頁連結到公告區,將原登入資訊加到公告區
新一代企业IT与OpenStack 贾琨 2014年7月.
商业分析平台-语义元数据 用友集团技术中心 边传猛 2013年 11月 06日.
密级: 亿赞普Hadoop应用浅析 IZP 肖燕京.
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
雲端導覽系統專題報告 指導老師:江茂綸 老師 報告者:涂凱翔 組長: 洪梓奇 組員: 林昭宏
异构数据源集成工具包及其在生物医学领域的应用
Google的云计算 分布式锁服务Chubby.
基于列存储的RDF数据管理 朱敏
针对石油石化、能源、矿业、汽车等广泛且严重依赖旋转生产设备的制造企业 典型的旋转设备包括:泵、发动机、电机、风机、传送设备、CNC等
第七章 消费者电子商务应用 编者:石妍 西安培华学院.
大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编.
SMC服务.
Presentation transcript:

阿里数据同步的前世今生 巴真 陈守元

阿里数据同步前世今生 背景 历程 展望

阿里数据同步前世今生 背景 历程 展望

简要讨论下大数据

背景 - 阿里数据开发流程 需求分析 业务建模 数据集成 数据开发 数据测试 线上部署 结果集成

背景 - 阿里数据开发流程 需求分析 业务建模 数据集成 业务异构数据集成到离线计算平台 数据开发 数据测试 线上部署 结果集成

背景 - 阿里数据开发流程 需求分析 业务建模 数据集成 数据开发 数据测试 线上部署 结果集成 计算结果数据导入在线业务平台

背景 – 数据同步本质 同构 异构 在线 离线

阿里数据同步前世今生 背景 历程 展望

2005年 史前时代 历程 – 数据平台的追溯 2005 年 2007 年 2009 年 2013 年 Oracle Rac Hadoop 2005年 史前时代 数据平台发展之初 计算平台单节点Oracle 调用系统? 同步/集成使用脚本封装 业务需求

2007年 发展之初 历程 – 数据平台的追溯 2005 年 2007 年 2009 年 2013 年 Oracle Rac Hadoop 2007年 发展之初 数据业务逐步快速发展 计算平台采用Rac,后扩充为20节点 调用系统使用crontab定时调用 同步/集成仍然采用脚本封装 数据开始为公司决策服务

2009年 黄金时期 历程 – 数据平台的追溯 2005 年 2007 年 2009 年 2013 年 Oracle Rac Hadoop 2009年 黄金时期 数据业务进入高速发展时期 计算平台开始使用Hadoop 调用系统使用天网调度系统 同步/集成使用定制化工具 数据开始为社会提供服务

2013年 云计算平台 历程 – 数据平台的追溯 2005 年 2007 年 2009 年 2013 年 Oracle Rac Hadoop 2013年 云计算平台 数据平台成为集团单独事业部门 计算平台为Hadoop/飞天 调度系统使用工作流+分布式资源框架 同步工具采用DataX/TT 数据平台将作为阿里云计算平台为社会提供服务

阿里集团前端服务 (淘宝/天猫/一淘/B2B/支付宝) 历程 – 数据流动的现状 数据流动 阿里集团前端服务 (淘宝/天猫/一淘/B2B/支付宝) 应用层 Mysql Oracle HBase OB TFS 源数据层 DataX TT 数据集成层 离线计算平台 实时计算平台 计算中心层 DataX 数据同步层 Mysql Oracle HBase OB TFS 宿数据层 数据产品 报表 展现应用 Adhoc 结果展现层

历程 – 数据流动的现状 工作流调度 对内数据支撑: 商业智能与决策支持 应用 数据同步总线 产品运营分析 非结构化数据源 系统运维 实时流式同步 实时计算 中间层 应用服务器 流式数据 计算框架 MySQL Cluster 数据产品 结构化数据 实时流式同步 结构化数据源 HBase 离线数据计算框架 中间件服务 结构化数据 离线同步 搜索引擎 应用 分布式资源池 数据中心

现状 – 同步的领域细分 非实时 实时 结构化 非结构化

现状 – 同步的领域细分 维度 DataX TT 系统目标 解决任意异构数据源的数据离线交换 解决异构数据实时传输的平台 实时性 低 高 数据结构化 结构化、半结构化 结构化、非结构化 (日志) 数据源支持 覆盖阿里几乎所有类型的数据存储、计算系统 较DataX少,数据源必须提供增量解析接口 服务形式 工具包、服务平台 服务平台 开源类似产品 Sqoop flume、chukwa、scribe

现状 – DataX 结构 DataX Service Service Cluster 管理、监控数据同步集群 DataX Master 管理、监控每个同步作业 DataX Slave Slave Slave Slave 管理、监控每个同步子任务 DataX Instance Instance Instance Instance 管理、监控每个同步示例/同步插件 DataX Plugin Reader Writer Transformer 负责数据的抽取、转换、装载

现状 – DataX 结构 M S M S M S S S S S S S S S S M S DataX 集群 Master Slave Launch FailOver M S M S M S S S S S S S S S S M S

现状 – TT 结构 Shrek Broker Broker HBase FileTailer Broker Broker DBSync ODPS Writer HBase FileTailer Broker Broker HDFS Writer DBSync

阿里数据同步前世今生 背景 历程 展望

展望 – 阿里大数据和云 阿里云服务平台 数据云服务 应用云 数据同步 计算中心 存储中心 工作流引擎 元数据服务 … 离线数据总线 实时数据总线 分布式资源管理框架 同步网关

Conversation