淘宝数据应用开发平台 泽远@数据平台与产品 Weibo.com/apeks.

Slides:



Advertisements
Similar presentations
南台資管同學進入職場應有的技能與心態
Advertisements

LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
Big Data Ecosystem – Hadoop Distribution
淘宝海量数据产品技术架构 张轩丞(朋春) 淘宝网-数据平台与产品部.
“大云”大数据平台及应用 中国移动通信研究院 郭磊涛 2013年11月.
E-Mapreduce培训系列 基本介绍.
資料庫系統 曾俊雄.
云计算业务应用-数据挖掘.
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
<<Oracle DBA工厂-Oracle从入门到精通>>全套视频教程(一)之 安装部署 讲师:黄利强 QQ:
海量 数据分析架构.
Kettle 培训 BI 数据部 Jim 2011年03月27日.
转正述职报告 乐恩公司 史航
基于解释性语言的手机跨平台架构 Sloan Yi. Qt MTK.
Hadoop与数据分析 淘宝数据平台及产品部基础研发组 周敏 日期:
Information & Security System in China China North Eastern Air Traffic Control Bureau (CAAC) Customer Background Subsidiary of General Administration of.
基于R和pentaho的全套开源BI平台的实现
LSF系统介绍 张焕杰 中国科学技术大学网络信息中心
K/3 Cloud云之家集成 K/3 Cloud 基础系统部.
Hadoop I/O By ShiChaojie.
基于Hadoop的数据仓库Hive.
Spark在智慧图书馆建设中的应用探索 2017年12月22日.
第二讲 搭建Java Web开发环境 主讲人:孙娜
Hadoop平台與應用規劃實作 報告者:劉育維.
从现在做起 彻底改变你自己 Sanjay Mirchandani EMC公司高级副总裁、首席信息官.
存储系统.
SOA – Experiment 3: Web Services Composition Challenge
SVN服务器的搭建(Windows) 柳峰
阿里数据同步的前世今生 巴真 陈守元.
Jul 2014 HEAT部署Hadoop集群
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
基于OpenStack的散裂中子源计算环境概述 —CSNS私有云环境现状
第11章:一些著名开源软件介绍 第12章:服务安装和配置 本章教学目标: 了解当前一些应用最广泛的开源软件项目 搭建一个网站服务器
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
Visual Studio Team System 简介
大数据时代的数据质量保障 -- 数据质量中心的设计与实现 阿里巴巴-CDO数据平台事业部 雨玟.
晟元大数据云平台 食品安全云大数据云平台 2017年4月 北京晟元亿讯科技有限公司.
第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库 数据库中数据的组织由低到高分为四级:字段、记录、表、数据库四种。
商业计划书模板 框架完整 内容实用 严谨专业 BUSINESS PLAN POWERPOINT TEMPLATE LOGO.
数据挖掘工具性能比较.
PaPaPa项目架构 By:Listen 我在这.
VSS使用简介 王树升
DevDays ’99 The aim of this mission is knowledge..
斯坦福大学调研 蒋达晟.
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
IDB-阿里集团数据库服务平台 叶正盛(斗佛)
程序设计工具实习 Software Program Tool
何勉 新浪微博: Scrum框架及其背后的原则 原始图片 何勉 新浪微博:
Hadoop与数据分析 淘宝数据平台及产品部基础研发组 周敏 日期:
解决变化问题的自底向上 流程建模方法 严志民 徐玮.
指導教授:徐濟世 博 士 專題組員: 吳秀娟 劉繡禎 趙玉堂 簡孟嬋
第一章 数 据 库 概 述 第一节 引言 第二节 数据库基本概念 第三节 数据库系统结构 第四节 数据模型 第五节 数据库管理系统
新一代企业IT与OpenStack 贾琨 2014年7月.
VisComposer 2019/4/17.
商业分析平台-语义元数据 用友集团技术中心 边传猛 2013年 11月 06日.
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
计算机网络与网页制作 Chapter 07:Dreamweaver CS5入门
201x 公司LOGO LOGO XX公司年终总结 201x/10/18 201x
JSP实用教程 清华大学出版社 第2章 JSP运行环境和开发环境 教学目标 教学重点 教学过程 2019年5月7日.
TurboDX架构、应用场景、比较优势 北京数贝软件科技有限公司
框架完整的 商业项目计划书 BUSINESS PLAN.
PROJECT NAME 项目名称 张三 安徽xx文化传播有限公司.
Visual Basic程序设计 第13章 访问数据库
研发技术体系梳理 陈玮
上海理工大学 光电信息与计算机工程学院 数据仓库与数据挖掘 张 艳 上海理工大学 光电信息与计算机工程学院.
基于列存储的RDF数据管理 朱敏
Chinese Virtual Observatory
SMC服务.
K/3CloudV6.1预算管理 陈琦琨 K/3Cloud预算与分析部.
DEV243 Visual Studio Team System 测试深入探讨
Presentation transcript:

淘宝数据应用开发平台 泽远@数据平台与产品 Weibo.com/apeks

大纲 背景——进入淘宝数据平台 数据规模 数据产品 总台架构 概览——数据应用开发架构 产品架构 技术架构 深入——关键服务介绍 知识库(元数据) 调度 数据集成 IDE 成本优化 生命周期 展望——数据创造未来

2000+服务器的云计算平台 总体数据规模 每日新增数据20T 累积数据14P 每天处理100,000+作业任务,包括100+新增作业任务

如何使用数据——传统数据仓库模式 … … 内部小二: 1 临时提取数据 运营 数据分析师 PD 内部用户 卖家 买家 外部用户 数据化运营 商业决策 产品设计 店铺经营 购买决策 行业分析 … … 商业智能团队 业务分析师/数据PD 数据产品PD 数据产品开发团队 理解业务 文档化业务和需求 BI产品设计 分析、挖掘用户需求 数据产品设计 数据开发团队 ETL开发工程师 模型架构师 内部小二: 1 临时提取数据 http://wf.taobao.org/app/biservice/Default/ProcessView?ProcInstId=277884&requestId=69df081a-b070-44c3-84f2-23541ef0c885&redirect=true 2 淘数据 http://dw.taobao.ali.com/main/index.htm 3 Business Preview http://bp.dev.taobao.net:7001/app/ 数据产品: 数据产品——数据魔方 http://data.taobao.com/datacube.html 数据产品——量子统计 http://www.linezing.com/ ETL作业设计, 实施,维护, 优化 数据模型建模 架构师 程序员 基础开发 & 开发架构 使用、建设 建设 数据平台 技术框架设计 平台与工具的实现

数据开放之路——人人都是数据专家 … … 运营 数据分析师 PD 内部用户 ISV 卖家 买家 外部用户 数据开发团队 数据化运营 商业决策 产品设计 店铺经营 购买决策 行业分析 培训,咨询,解决方案 … … 服务 ETL开发工程师 商业智能团队 业务分析师/数据PD 数据产品PD 数据产品开发团队 理解业务 文档化业务和需求 BI产品设计 分析、挖掘用户需求 数据产品设计 模型架构师 使用、建设 架构师 程序员 基础开发 & 开发架构 建设 技术框架设计 平台与工具的实现

数据平台——产品架构 数据应用 报表需求(淘数据) 即席查询(adhoc) 数据分析 数据挖掘 数据产品 数据开发平台 数据应用开发平台——数据工场 Data Integration Datax DB sync TT Hive Hbase 实时计算 底层平台 Hadoop Map Reduce Hadoop HDFS

数据开发平台——数据流向 数据产品 Adhoc 报表(淘数据,Business Preview) 回流主站应用 其它 数据流向 OLAP server 实时计算平台 开发平台 Oracle Mysql Hbase Other System Gateway Servers DataX Myfox Loader LzLoader Hadoop Hbase 流式计算 Map Reduce Java Jobs Streaming Jobs Hive Jobs Gateway Servers DataX DBSync TimeTunnel Oracle 备库 MySQL 备库 日志系统 Log Server 爬虫数据 主站服务(淘宝,B2B,广告,搜索,BOSS)

数据应用开发平台 愿景和目标 用户分类 需求分类 降低数据开发门槛,人人都可以方便加工和获取数据 提升数据项目开发效率 有效控制计算存储成本 沉淀最佳实践,打造数据应用开发的标准 用户分类 非技术背景用户 技术背景用户 需求分类 ADHOC需求? 类Excel查询工具 图形化拖拽 HIVE IDE 数据项目/数据产品? 数据应用开发平台

数据工场产品架构 技术服务 基础服务 项目实施流程 数据字典, 知识库, 问答 元数据center 需求分析 图形化辅助建模工具, 自动建模 业务建模 权限控制 数据集成 (DataX,DBSync,TT3) 数据集成 审计 IDE(web,RCP),代码优化器 支持HIVE, map-reduce,mahout 工作流编辑 数据开发&挖掘 日志 准入测试,持续集成, 性能测试 测试 搜索引擎 调度引擎 分析工具集 指标系统(Dashboard) 线上部署 运行 计算成本 成本优化 缓存 监控告警,数据质量, 生命和周期 运行时监控 数据质量监控 管理生命周期 … 数据集成,OLAP,图标引擎, 可视化引擎 结果数据导出 报表配置 数据可视化配置

数据工场关键服务——知识库(元数据管理) Hadoop MR Job/Task级别运行日志 MR级别运行日志 各个环节延迟 系统吞吐 Hadoop HDFS 文件Meta 目录Meta 文件,目录统计信息 权限属性 访问记录 HIVE 表Schema 分隔符,格式,压缩方式 记录数 权限信息 工作流调度 数据流定义,任务依赖 节点级运行日志 系统延迟 调度开销 Gateway集群负载,并发度 任务优先级,基线 代码库 代码 与用户的关联

数据工场关键服务——知识库(元数据) 元数据应用 其它服务 数据字典 指标库 知识库 数据质量监控 生命周期 监控告警 … … 自动建模/模型优化 SQL自动改写 血缘分析&影响分析 SQL优化 BUS 归一化存储 Metadata Service Sphinx Redis MySQL 捕获/解析/处理/归一化 RAC 收集器 收集器 收集器 收集器 解析器 收集器 … 生成 Hadoop MR Hadoop HDFS HIVE 调度系统 代码 J/HI/PY 需求系统 …

数据工场关键服务——知识库(元数据) 任务依赖关系/data pipeline 宏观数据 系统吞吐瓶颈 天网调度效率 Gateway并行度 微观数据 Jobtracker调度效率 系统优化 关键路径分析 集群计算效率 优先级 末端监控 运行趋势分析 比较 算法优化 运行时间 系统关键路径点 参数调优 数据源监控 重点节点 等待时间 事后评分 工具优化 同步时间 ETL元数据分析/血缘关系 计算模型优化

数据工场关键服务——调度 1.0 Crontab 完全为了解决定时启动的问题 应用自己解决依赖关系 无均衡负载问题 无优先级问题 全人工运维 基于工作流,自动管理以来关系 资源分配,并行度控制 容错机制:任务自动重跑、机器自动倒换 自动负载平衡 支持业务优先级 大部分场景支持自动运维,小部分半自动运维 独立的系统 3.0 调度服务(数据工场) 结合IDE 自动部署 全自动运维 自助监控,自助值班,100%监控覆盖 开放式服务 与系统其他部分集成,服务平台的一部分

数据工场关键服务——调度 其它服务 调度前台 定义 消息总线 调度服务 benefit fail over high-available 智能调度 dynamic LB high-usage 标准化配置 Lower maintenance cost per machine 统一包管理 批量管理工具 Standardized Gateway server cluster 标准化运维

调度服务3.0

调度服务3.0 智能调度

数据工场关键服务———调度

数据工场关键服务———调度 数据源监控 数据流1 数据流2 数据流3 数据流4 数据流5 a c d b f e a c d b f e a 关键路径分析 系统关键路径点监控 末端监控 末端监控 末端监控 末端监控 末端监控

数据工场关键服务——数据集成 数据源 增量实时同步 Hadoop集群 计算结果 Dbsync Mysql备库 Mysql 全量/非实时同步 oracle备库 TimeTunnel 2 HDFS DataX 全量/非实时同步 日志数据 oracle 爬虫数据 DataX

数据工场关键服务——IDE

数据工场关键服务——RCP

数据工场关键服务——IDE RCP JDBC Hive server Hive 元数据库 Web IDE Server(HS mode) HTTP JDBC JDBC Web HTTP IDE Server(HS mode) Hadoop Cluster PIPE CLI RPC CLI … CLI IDE Server(CLI mode) BUS 元数据 调度 优化引擎 生命周期 …

数据工场关键服务——成本优化 用户重写 用户提交的数据流 打散为表.列 归一化表达式 数据流rewrite 提交 匹配 规则引擎 字段仓库 数据仓库表 打散为表.列 归一化表达式 模型优化建议 进入 反馈 进入

数据工场关键服务——生命周期 … 对象( Object ): Hive table HDFS中的目录 动作( Action ): 规则( Rule ): 对象( Object ): Hive table HDFS中的目录 动作( Action ): 仅保留,不作操作 删除 合并/压缩 极限存储 HDFS Raid 移动到其它文件系统 其它操作(可增加) 动作可以级联 规则( Rule ): 指定管理对象,在指定时间后,执行指定操作策略。 每个管理对象可以配置多条管理规则。 保留 删除 合并 压缩 极限存储 HDFS RAID Move out …

数据工场关键服务——数据开发流程 编辑SQL代码 工程管理 调试 作业管理 生成生命周期配置选项 语句优化 配置调优 配置生命周期 版本控制 发布管理 配置多维分析 配置数据导出 调度计划 配置char /dashborad 运行监控 数据质量监控 End 监控告警

总结