11.3 国产大数据库技术 11.3.1 阿里巴巴OceanBase 11.3.2 云创存储数据立方（DataCube）

Slides:

Advertisements

Similar presentations

复习提问 1. 从物理角度来说说什么是噪声？从物理角度来说噪声是指发声体做无规则的振动时发出的声音。 2. 从环境保护角度来说说什么是噪声？从环境保护的角度看：凡是妨碍人正常休息，学习和工作的声音，以及对人们要听的声音起干扰作用的声音，都属噪声。

Advertisements

1. 一. 人口分布  全球約十分之九的人口集中在北半球。  三大人口稠密區：亞洲東南半壁、歐洲、北美洲東部  季風亞洲人口占全球一半。  人口稀少區太乾－北非撒哈拉沙漠太濕－亞馬孫、剛果雨林太冷－西伯利亞、南極崎嶇－東非、青藏高原 2 台灣人口分佈狀況 (04 ： 43) p.83.

EpiC elastic power-aware data intensive Cloud. LOGO epiC 大规模数据处理的难点 Page  2 如何查询处理海量数据？如何存储海量数据？如何降低硬件成本？如何取得一劳永逸的解决方案？

第五章话语的语用意义(上) 主讲人：周明强.

近年来，出现了一些制作粗糙、违背史实甚至常理的“抗战雷剧”，社会上也出现了一股“戏说”抗战剧的不良风气。

高三物理复习运动的图象、追及相遇问题（两课时）泉州六中苏碧贤.

人力资源管理师——招聘与配置实操　　　　　　　　　.

时间与我们的世界 Pb 段心蕊.

顧客交易紀錄分析實務概述 26.2 資料分析的過程 26.3 顧客交易紀錄分析說明 26.4 實作一、顧客活動剖析實務演練

厦门大学数据库实验室刘颖杰 2014年11月15日实习总结报告厦门大学数据库实验室刘颖杰 2014年11月15日.

数据库原理及应用《数据库原理及应用》课程组荆楚理工学院.

第一部分中考基础复习第一章声现象.

浪漫碰撞蜕变专题八 19世纪以来的文学艺术.

德国波恩明斯特广场修建的贝多芬铜像（ 1845年）

做好就业与自主创业的准备.

4.5 实时调度算法实时调度是为了完成实时处理任务而分配计算机处理器的调度方法。实时处理任务要求计算机在用户允许的时限范围内给出计算机的响应信号。实时处理任务可分为硬实时任务（hard real-time task）软实时任务（soft real-time task）。其中，前者要求计算机系统必须在用户给定的时限内完成，后者允许计算机系统在用户给定的时限左右处理完毕。

“大云”大数据平台及应用中国移动通信研究院郭磊涛 2013年11月.

穆公(朱金清微博：淘穆公阿里HBase业务设计实践穆公(朱金清微博：淘穆公

主办:泰兴市质量强市领导小组办公室承办：泰兴市市场监督管理局.

OceanBase 0.4：从API到SQL 日照

云计算学习报告报告人: 陈霁大规模数据处理软件Apache Hadoop.

第六章数据库和ADO.NET 褚龙现软件学院.

第二章项目一：企业厂区与车间平面设计 1.

第一章复习锦囊妙计多看书多看笔记善于梳理.

共产党员致力新疆油田信息化建设数据公司信息业务党支部 2013年6月.

国家“十一五”规划教材数据库原理与应用教程(第3版).

巨量資料平台： Hadoop的生態系.

中国文学王馨.

云梯的多namenode和跨机房之路

MySQL主从同步

数据采集与Hadoop框架报告人：黄文君导师：王华忠 BEA Confidential.

数据库应用技术天津大学计算机基础教学部 2013年9月.

基于hadoop的数据仓库技术.

网络游戏对大学生生活的影响英本1班鞠申镅汪晨茹沈秋云元文杰段祺琪.

翰林自然六年級上學期第二單元聲音與樂器.

一二三四五六七项目建设总体情况建设工作机制与举措项目建设进展建设经费投入与使用贡献与示范典型案例

《生活与哲学》第一轮复习第七课唯物辩证法的联系观.

Alibaba 数据库高可用架构 Alibaba

第2章大数据处理架构Hadoop （PPT版本号：2017年2月版本）

云计算之分布式计算.

Goolge的云计算分布式数据表BigTable.

二.資料庫系統建立與管理 Access 資料庫:windows下的單機資料庫 Access 操作 Mysql資料庫介紹.

面向高能所信息化系统的高可用数据库服务王丽计算中心中科院高能所第十八届全国科学计算与信息化会议.

GIS软件开发技术主讲：蔡忠亮武汉大学资源与环境科学学院.

CHAPTER 6 認識MapReduce.

Spark在智慧图书馆建设中的应用探索 2017年12月22日.

数据库实验指导(一)

第一篇数据仓库与OLAP 第一章数据仓库基本概念

Cloud Computing Google云计算原理.

大数据介绍及应用案例分享 2016年7月华信咨询设计研究院有限公司.

資料庫管理 Homework #4 楊立偉教授台灣大學工管系 2016.

斯坦福大学调研蒋达晟.

基于大数据平台数据管理研究何家乐 2013年7月中国科学院高能物理研究所.

認識資料庫 MySQL 資料庫新增 MySQL 資料表新增認識欄位資料表資料新增、刪除、修改、瀏灠資料表清空與刪除

認識資料庫 MySQL 資料庫新增 MySQL 資料表新增認識欄位資料表資料新增、刪除、修改、瀏灠資料表清空與刪除

第一章数据库概述第一节引言第二节数据库基本概念第三节数据库系统结构第四节数据模型第五节数据库管理系统

Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian

香港傳統的農村生活.

OceanBase 0.4：从API到SQL 日照

密级：亿赞普Hadoop应用浅析 IZP 肖燕京.

進度流程Demo.

ZooKeeper 分布式应用的协调器.

中国农业科学院博士后学术论坛博士后基金申请的经验及体会中国农业科学院生物技术研究所秦华博士

架构师成长感悟吴隆烽

創造不一樣的人生 -如何與身心障礙者接觸新竹教育大學薛明里.

PART 2 技術 Chapter 3 組織資料與資訊.

多姿多彩的世界.

資料庫應用與實作一到六章重點、習題.

Presentation transcript:

11.3 国产大数据库技术 11.3.1 阿里巴巴OceanBase 11.3.2 云创存储数据立方（DataCube）

11.3 国产大数据库技术阿里巴巴OceanBase 11.3 国产大数据库技术阿里巴巴OceanBase OceanBase主要是为了解决淘宝网的大规模数据而产生的，是一个支持海量数据的高性能分布式数据库系统，达到管理数千亿条记录的规模，支持在数百TB数据上跨行跨表事务并支持SQL操作。到目前为止， OceanBase支持了收藏夹、直通车报表、天猫评价等OLTP和OLAP在线业务，线上数据量已经超过千亿条记录。

11.3 国产大数据库技术阿里巴巴OceanBase 系统架构 PootServer/ PootServer/ UpdataServer 11.3 国产大数据库技术阿里巴巴OceanBase 系统架构 PootServer/ UpdataServer (主) PootServer/ UpdataServer (备) ChunkServer/ MergeServer ChunkServer/ MergeServer ChunkServer/ MergeServer ChunkServer/ MergeServer

11.3 国产大数据库技术阿里巴巴OceanBase 客户端 RootServer UpdateServer ChunkServer 11.3 国产大数据库技术阿里巴巴OceanBase 基于MySQL数据库开发的应用程序、工具能够直接迁移到OceanBase 客户端 RootServer 配置服务器，一般是单台服务器。记录commit log并通常采用双机热备 UpdateServer 存储OceanBase系统的增量更新数据。保存基准数据的服务器，通常是多台，同一份基准数据通常保存3份并存储在不同的ChunkServer上 ChunkServer 接收并解析用户的SQL请求经过词法分析、语法分析、查询优化等一系列操作后转发给相应的ChunkServer或者UpdateServer MergeServer

11.3 国产大数据库技术阿里巴巴OceanBase 数据查询流程 Mysql客户端，JDBC/ODBC等 SQL 请求读事务写事务 11.3 国产大数据库技术阿里巴巴OceanBase 数据查询流程 Mysql客户端，JDBC/ODBC等 MergsServer Mysql协议 MS-SQL ChunkServer CS-SQL UPS-SQL SQL 请求读事务写事务读取修改增量

11.3 国产大数据库技术阿里巴巴OceanBase 系统特点及优势主体数据在一段时间内保持相对稳定 11.3 国产大数据库技术阿里巴巴OceanBase 系统特点及优势主体数据在一段时间内保持相对稳定以内存保存增删改记录极大地提高了系统写事务的性能扩充UpdateServer内存即增加了内存中容纳的修改量动态数据服务器UpdateServer写commit log并采取双机（甚至多机）热备 OceanBase按主键的范围查询对应着连续的磁盘读

11.3 国产大数据库技术阿里巴巴OceanBase 11.3 国产大数据库技术阿里巴巴OceanBase UpdateServer 类似于DBMS中的DB角色，提供跨行跨表事务和很短的查询修改的响应时间以及良好的一致性 ChunkServer 具有数据多副本、中等规模数据粒度、自动负载平衡、宕机恢复、机器plug and play等特点，系统容量及性能随时扩展 MergeServer 结合ChunkServer和UpdateServer，获得最新数据，实现数据一致性 RootServer 类似于云计算中的主控机（如GFS master），进行机器故障检测、负载平衡计算、负载迁移调度等

11.3 国产大数据库技术阿里巴巴OceanBase 可靠性与可用性 11.3 国产大数据库技术阿里巴巴OceanBase 可靠性与可用性 OceanBase在ChunkServer中保存了基准数据的多个副本。 OceanBase在UpdateServer中保存了增量数据的多个副本。 ChunkServer的多个副本可以同时提供服务。 UpdateServer主备之间为热备，同一时刻只有一台机器为主UpdateServer提供写服务。 OceanBase存储多个副本并没有带来太多的成本。在OceanBase系统中，用户的读/写请求，即读/写事务，都发给MergeServer。

11.3 国产大数据库技术阿里巴巴OceanBase 1 2 3 4 只读事务执行流程如下： 11.3 国产大数据库技术阿里巴巴OceanBase 只读事务执行流程如下： MergeServer解析SQL语句，词法分析、语法分析、预处理，最后生成逻辑执行计划和物理执行计划。 1 MergeServer将请求拆分后同时发给多台ChunkServer并发执行，每台ChunkServer将读取的部分结果返回MergeServer 2 如果SQL请求涉及多张表格，MergeServer还需要执行联表、嵌套查询等操作。 3 MergeServer将最终结果返回给客户端。 4

11.3 国产大数据库技术 11.3.1 阿里巴巴OceanBase 11.3.2 云创存储数据立方（DataCube）

11.3 国产大数据库技术云创存储数据立方（DataCube） 11.3 国产大数据库技术云创存储数据立方（DataCube）数据立方（DataCube）的结构分为用户接口、索引、SQL解析器、作业生成器、元数据管理、并行计算架构、分布式文件系统等部分，如图所示。索引 SHELL JDBC SQL解析器 Job Builder Metadata 并行计算框架分布式文件系统

11.3 国产大数据库技术云创存储数据立方（DataCube） Zookeeper Master （备） NameNode （主） 11.3 国产大数据库技术云创存储数据立方（DataCube） Zookeeper Master （备） NameNode （主） Slave DataNode …… 日志心跳

11.3 国产大数据库技术云创存储数据立方（DataCube）实时性计算的数据本地性数据平衡性

11.3 国产大数据库技术云创存储数据立方（DataCube） Master Slave0 Slave1 …… SlaveN Job 11.3 国产大数据库技术云创存储数据立方（DataCube） Master Slave0 Slave1 …… SlaveN Job Task0 Task1 TaskN Intermediate Data Result Set0 Result Set1 Result SetN 并行计算架构上作业执行过程

11.3 国产大数据库技术云创存储数据立方（DataCube） 1 SlaveX Slave0 Slave1 …… SlaveN 2 11.3 国产大数据库技术云创存储数据立方（DataCube） 1 SlaveX Data Set Data Set Data Set Slave0 Slave1 …… SlaveN 2 SlaveX Data Subset 1 Data Subset 2 Data Subset N Slave0 Slave1 …… SlaveN 3 SlaveX Data Set Data Set Slave0 Slave1 …… SlaveN 并行计算架构的3种分发方式

11.3 国产大数据库技术云创存储数据立方（DataCube） Master Slave0 Slave1 …… SlaveN Job 11.3 国产大数据库技术云创存储数据立方（DataCube） Master Slave0 Slave1 …… SlaveN Job Task0 Task1 TaskN Small Table Result Set0 Result Set1 Result SetN 小表与大表的join实例

11.3 国产大数据库技术云创存储数据立方（DataCube）分布式索引 11.3 国产大数据库技术云创存储数据立方（DataCube）分布式索引 MapReduce对每个查询都是直接从分布式文件系统中读入原始数据文件，I/O代价远高于数据库，相对于MapReduce架构以及在其之上的SQL解析器Hive，数据立方引入了一种高效的分布式索引机制，不同于并行数据库的 Shared-nothing和Shared-disk架构，数据立方的数据文件与索引文件都存放在分布式文件系统之上。

11.3 国产大数据库技术云创存储数据立方（DataCube） B+树索引

11.3 国产大数据库技术云创存储数据立方（DataCube）数据立方大数据一体机处理海量数据的高效分布式软/硬件集合的云处理平台 11.3 国产大数据库技术云创存储数据立方（DataCube）数据立方大数据一体机处理海量数据的高效分布式软/硬件集合的云处理平台从TB乃至PB级的数据挖掘海量信息的快捷高效处理 100Gbps以上量级的数据流实时索引秒级响应客户请求秒级完成数据处理、查询和分析工作对入口数据进行实时索引对数据进行分析、清理、分割支持数据深度挖掘和商业智能分析