文档式数据库 在Hadoop集群中的应用 SequoiaDB – 王涛.

Slides:



Advertisements
Similar presentations
大数据基础技术和应用. 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用 我们处于数据爆炸的时代 数据库 文字记录 照片 线下数据信息化 网页数据 用户行为记录 数字图像 互联网 - 移动互联网 设备监控 智能家居 摄像头 传感器 地球上至今总共的数据量: 在 2006 年,个人用户才刚刚迈.
Advertisements

高级服务器设计和实现 1 —— 基础与进阶 余锋
课程介绍 (PPT版本号:2016年1月24日版本) 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 林子雨
Big Data Ecosystem – Hadoop Distribution
大數據的學習路線 目前做不到的:機率性太高的(博奕) 大數據的核心:預測 預測來自於:分析及樣本 樣本的產生及收集 樣本的儲存 樣本的處理
淘宝海量数据产品技术架构 张轩丞(朋春) 淘宝网-数据平台与产品部.
第八讲 基于Hadoop的数据仓库Hive (PPT版本号:2016年4月6日版本)
“大云”大数据平台及应用 中国移动通信研究院 郭磊涛 2013年11月.
E-Mapreduce培训系列 基本介绍.
PB级科研数据集的管理和应用 曙光信息产业(北京)有限公司.
云计算业务应用-数据挖掘.
怎样规划部署您的大数据应用系统 大数据厂商联盟 李 永 VoltDB基础 概念与架构 1.
巨量資料平台: Hadoop的生態系.
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
11.3 国产大数据库技术 阿里巴巴OceanBase 云创存储数据立方(DataCube)
《大数据技术原理与应用》 课程介绍 (2016春季学期)
为教师开展大数据课程教学提供全方位、一站式服务
海量 数据分析架构.
企业级云计算 A Enterprise Cloud Serivce
移动电子商务时代来临 即刻“升级”还是等待被淘汰 PayPal 中国区产品总监 赵祺 信行软件CEO 周翔.
J2EE与中间件技术 ——Lab.
北京移动(中国移动的子公司)是中国主要的无线运营商之一。中国移动做为无线市场的开拓者,拥有中国70%的无线通信市场,也是世界上第二大的无线提供商,北京移动拥有上亿的手机用户,支持60多个国家的漫游业务。 为北京移动创造的价值 … 优秀的性能,支持了庞大的用户群 标准化了系统接口 加强了系统的灵活性.
基于R和pentaho的全套开源BI平台的实现
课程名称 龙阳、高级工程师 广州巨杉软件开发有限公司
云计算之分布式计算.
Hadoop I/O By ShiChaojie.
基于Hadoop的数据仓库Hive.
SVN的基本概念 柳峰
第九讲 Hadoop架构再探讨 (2016春季学期)
Chinese Virtual Observatory
Qt Quick 4小时入门 安晓辉(foruok)
什么是Android 本讲大纲: 1、平台特性 2、平台架构 3、Android市场 支持网站:
Hadoop平台與應用規劃實作 報告者:劉育維.
从现在做起 彻底改变你自己 Sanjay Mirchandani EMC公司高级副总裁、首席信息官.
存储系统.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
华为—E8372h- 155 外观设计 产品类型:数据卡 建议零售价格:299元 上市时间:2017年6月7日 目标人群:大众
Qt网络编程实战之HTTP服务器 安晓辉(foruok)
大数据管理技术 --NoSQL数据库 HBase 陈 辉 大数据分析技术.
Visual Studio Team System 简介
晟元大数据云平台 食品安全云大数据云平台 2017年4月 北京晟元亿讯科技有限公司.
第十章 IDL访问数据库 10.1 数据库与数据库访问 1、数据库 数据库中数据的组织由低到高分为四级:字段、记录、表、数据库四种。
第17章 网站发布.
数据挖掘工具性能比较.
PaPaPa项目架构 By:Listen 我在这.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
供应商登录CJLR SRM系统入口 CJLR供应商仅可以在互联网上访问SRM系统,无法在CJLR内网登录SRM系统.
DevDays ’99 The aim of this mission is knowledge..
任务1-3 使用Dreamweaver创建ASP网页
实习前你需要知道的 PRESENTED BY Yisa.
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
程序设计工具实习 Software Program Tool
SOA – Experiment 2: Query Classification Web Service
内容摘要 ■ 课程概述 ■ 教学安排 ■ 什么是操作系统? ■ 为什么学习操作系统? ■ 如何学习操作系统? ■ 操作系统实例
A Big Data Framework for u-Healthcare Systems Utilizing Vital Signs
VisComposer 2019/4/17.
商业分析平台-语义元数据 用友集团技术中心 边传猛 2013年 11月 06日.
VB与Access数据库的连接.
Cassandra应用及高性能客户端 董亚军 来自Newegg-NESC.
Visual Basic程序设计 第13章 访问数据库
Delphi 7.0开发示例.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
Google的云计算 分布式锁服务Chubby.
基于列存储的RDF数据管理 朱敏
针对石油石化、能源、矿业、汽车等广泛且严重依赖旋转生产设备的制造企业 典型的旋转设备包括:泵、发动机、电机、风机、传送设备、CNC等
VB与Access数据库的连接.
WEB程序设计技术 数据库操作.
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
2019/9/19 互联网产业、立法与网规 张钦坤 腾讯法务部.
大数据发展的问题与方向 中国信通院云大所.
Presentation transcript:

文档式数据库 在Hadoop集群中的应用 SequoiaDB – 王涛

提纲 大数据回顾 1 文档式数据库特性 2 数据库在Hadoop中的定位 3 用户案例 4

Batch Analytics 大数据回顾

大数据:信息驱动力3v 海量数据规模 高时效性 多样化 价值: 提高效率 提升客户体验 降低风险 创造新的商机 50%组织拥有和处理>10TB数据 10%已经处理>1PB 电子商务和Web日志可产生每分钟上万的数据项 社交媒体应用每分钟产生百万交互活动 高时效性 volume velocity 30%组织需要每天处理>100GB数据 批处理更新从每天提升到每小时,每分钟,甚至实时 复杂事件处理能够即时产生信息发送给分析系统 实时流数据处理 多样化 传统的结构化数据依然是最常见的数据 非结构化的情绪表达和客户行为快速增长 企业现存的非结构化数据蕴含大量开放文本 视频音频在业务操作中被使用 博客,论坛以及评论反映了客户的声音 volume

Hadoop与NoSQL – 解决BigData的核武器 Volume Variety Velocity Hadoop 分布式存储 Yes NoSQL 数据库 传统关系型 Hadoop针对海量与多样化数据 NoSQL针对海量与高时效性数据 Hadoop与NoSQL互为补充,而非取代

Real-time data access NoSQL数据库

关系型数据库面临的困境 数据模型僵化 关系模型制约水平扩张 海量数据瓶颈 无法处理海量数据,性能瓶颈 强一致性 日志,锁构成性能瓶颈 高成本 仅支持垂直扩张,成本昂贵

大量的关联是分布式关系模型中的瓶颈

文档式NoSQL解决方案 数据模型灵活 Schemaless带来开发的敏捷 和可扩展性的提升 海量数据 分布式架构+半结构化存储= 水平扩张 最终一致性 带来性能大幅度提升 低成本 使用PC服务器进行水平扩张

NoSQL利用嵌套和数组解决关联难题 大表之间的关联性能低下 关联操作造成节点间大量的数据移动 用户ID 用户名 1 王萍 2 张楠 3 李克同 4 Jerry …… 用户ID 交易金额 交易时间 2 135 7:05 3 115 12:01 42,138 12:24 31,238 15:31 …… 2千万条记录 1.5亿条记录 单条记录实现1:1与1:N模型 用户ID 用户名 交易时间金额 1 王萍 [ { 15:53, 7500} ] 2 张楠 [ { 07:05, 135 }, {12:24, 42138 } ] 3 李克同 [ { 12:01, 115}, { 15:31, 31238 }, {16:30, 557 } ] ……

在线扩容 扩容步骤: 将新增节点添加到集群中 划分数据分区 系统自动迁移数据 存储空间可扩展 在线迁移数据 业务不中断 负载均衡

异构数据复制机制灵活平衡业务性能、可用性和数据可靠性 异步业务请求w=1 Repl-log Secondary Pull批量Repl-log Push更新通知 虚拟复制请求 Primary Repl-Group Repl-log相对窗口 HOT-Window COLD-Window LOST-Window 同步业务请求w=3 差异化的数据可靠性级别 灵活可配置的数据分片 支持同步与异步复制机制 异构数据复制机制灵活平衡业务性能、可用性和数据可靠性

多索引支持 ID Name Phone 1 Tom 135 2 Bob 412 3 Jim 531 4 Amy 986 5 Susan 257 6 Lily 264 7 Kevin 223 Name_Index Amy Bob Jim Kevin Lily Susan Tom ID_Index 1 2 3 4 5 6 7 和很多KV或者宽表数据库比起来,文档型数据库一般对一个集合能够在不同字段上创建多个索引

Big Data Platform Hadoop+Nosql

NoSQL数据库在Hadoop中的定位 连接器 连接器 HDFS NoSQL数据库

Hadoop连接器 Hadoop MapReduce Job Tracker Task Tracker 连接器 Data Node 数据库

从Hadoop导入数据 Hadoop Extract Flume Connector Sqoop Connect Other Sources HDFS NoSQL Transform Load 可直接从HDFS加载数据 优化并行 支持Pig、Hive与MapReduce

查询谓词下压,利用数据库索引提升性能 查询 关联 SELECT * FROM T, K WHERE T.Price > 1000 AND T.id = K.id HDFS 数据存储层 HDFS Database T.Price > 1000 批量扫描 索引扫描

基于块级并发能力 在某电信运营商场景测试 1 大数据查询和导入性能相对HBASE有较大幅度提升; 业务应用/Hadoop 导入数据量 导入性能 Hbase 30亿条记录 15W/Sec SequoiaDB 19.3W/Sec 获取分片信息 数据组1:分片号10,12… 数据组2:分片号1,2… 并发读取各个数据块内容 导入性能 编目节点 协调节点 编目节点 数据组 数据组 数据组 数据组 数据组 数据块 数据组 数据组 数据块 数据组 数据块 数据组 数据块 数据块 数据块 数据块 数据块 数据块 … … … 数据块 数据块 数据块 多线程并发平均响应时间 在某电信运营商场景测试 1 大数据查询和导入性能相对HBASE有较大幅度提升; 2 与Hadoop Map/Reduce 对接能发挥更大的并发优势;

Use cases 用户案例

交易流水归档历史查询 面临的挑战 解决方式 最终结果 每天需要入库归档超过100GB数据 用户需要能够并发、实时、由多个维度访问超过2年的历史数据 当前Oracle数据库无法满足实时查询的需求 使用MapReduce与Hive作为ETL处理的补充进行数据清洗和转换 使用Hive将最终结果并行加载入SequoiaDB 小规模x86集群平台降低TCO 使用SequoiaDB,在常用查询字段上建立多个索引保证查询性能 可以在线针对2年内的历史数据进行多条件检索 高数据压缩比节省数据存储空间 利于细分客户群,发现高价值用户,降低客户流失率 帮助自营产品、套餐等设计与创新 提升客户体验,进行策略管控

交易流水归档历史查询

交易流水归档历史查询 Hadoop Platform 业务系统 HDFS SequoiaDB 数据录入 Hive Web服务 一级分行用户 SequoiaSQL 当日归档数据 二级行管理员 Web服务 数据录入 客户分群 数据分析 客户分群 营业厅叫号机 报表展现 文本数据 精准推送 手工输入数据 移动设备

谢谢 王涛 taoewang@sequoiadb.com www.sequoiadb.com 微博账号 @SequoiaDB 微信账号

Hadoop与文档式NoSQL之间的关系 传统关系数据库 大数据HADOOP平台 文档式NoSQL数据库 优势 基于关系模型的高性能数据查询和分析; 成熟内建数据挖掘算法; 成熟报表工具; 标准数据访问接口。 大规模并行数据处理; 灵活可编程; 支持海量数据存储的文件系统; 低硬件成本服务器集群。 大规模并行实时数据访问; 数据模型动态灵活; 计算引擎强大,功能丰富; 劣势 不适合非结构化数据处理; 通常情况,企业级硬件支持 不适合复杂数据关联查询; 缺乏标准访问接口。 不适合非结构化数据存储 适合场景 结构化数据的高性能复杂查询 传统报表分析和数据挖掘。 非结构化数据处理; 全数据批量处理; 个性化数据分析和挖掘; 海量数据检索,索引和搜索。 结构化与半结构化高性能大规模并行处理; 海量数据实时检索分析 应用 企业级数据仓库 低成本海量数据存储和分析 实时大数据查询分析 互为补充而非取代

SequoiaDB 与HBase的差异 SequoiaDB HBase 多索引 有 无 非主键排序 聚集 存储过程 事务 锁 SQL/JDBC 高可用性 强 弱 图形管理界面 数据更新删除

SequoiaDB 与MongoDB的差异 事务 有 无 SQL支持 性能 高 中 数据压缩 存储过程 弱 JDBC驱动 图形管理界面 MongoDB天生的互联网基因使其缺乏企业级功能,且与Hadoop结合极其有限

SequoiaDB NoSQL实时数据引擎 灵活动态的数据类型 并行执行引擎 线性水平扩张 MPP – 无单点故障 在压缩数据上执行SQL 保持数据接近CPU/核 应用程序层 调度层

SequoiaDB 为实时查询与分析而建立 编目分片 ... 数据分片 数据存储层 协调节点 协调层 网络层 应用层

SequoiaDB 平台架构

在线扩容 扩容步骤: 将新增节点添加到集群中 划分数据分区 系统自动迁移数据 存储空间可扩展 在线迁移数据 业务不中断 负载均衡

在线扩容优势 传统数据库(ORACLE和DB2) 性能及吞吐量非线性增长 业务中断时间长 SequoiaDB 增加节点可线性提升数据访问性能 无需中断业务在线扩容 性能和吞吐量 节点数(个)

Single Shard

Two Shards

Three Shards

异构数据复制机制灵活平衡业务性能、可用性和数据可靠性 异步业务请求w=1 Repl-log Secondary Pull批量Repl-log Push更新通知 虚拟复制请求 Primary Repl-Group Repl-log相对窗口 HOT-Window COLD-Window LOST-Window 同步业务请求w=3 差异化的数据可靠性级别 灵活可配置的数据分片 支持同步与异步复制机制 异构数据复制机制灵活平衡业务性能、可用性和数据可靠性

SequoiaDB 大数据合作伙伴

SequoiaDB 集成Hadoop解决方案

SequoiaDB 与Hadoop丰富的对接形式 Hive sdb connector Sqoop sdb connector HDFS SequoiaDB HDFS SequoiaDB 与Hive对接, 实现大数据导入/分析 与Hadoop/sqoop对接,实现 传统数据库/非结构化数据与SequoiaDB转换 SequoiaSQL HDFS SequoiaDB SequoiaSQL 实现SDB/HDFS之间数据互通

Hadoop连接器 客户端 Hadoop MapReduce Job Tracker Task Tracker Task Tracker Data Node 数据库

SequoiaDB 从Hadoop导入数据 Extract Flume Connector Sqoop Connect Other Sources Hadoop HDFS SequoiaDB Transform Load 可直接从HDFS加载数据 优化并行 支持Pig、Hive与MapReduce

基于块级并发能力 在某电信运营商场景测试 1 大数据查询和导入性能相对HBASE有较大幅度提升; 业务应用/Hadoop 导入数据量 导入性能 Hbase 30亿条记录 15W/Sec SequoiaDB 19.3W/Sec 获取分片信息 数据组1:分片号10,12… 数据组2:分片号1,2… 并发读取各个数据块内容 导入性能 编目节点 协调节点 编目节点 数据组 数据组 数据组 数据组 数据组 数据块 数据组 数据组 数据块 数据组 数据块 数据组 数据块 数据块 数据块 数据块 数据块 数据块 … … … 数据块 数据块 数据块 多线程并发平均响应时间 在某电信运营商场景测试 1 大数据查询和导入性能相对HBASE有较大幅度提升; 2 与Hadoop Map/Reduce 对接能发挥更大的并发优势;

SequoiaSQL 让SequoiaDB支持原生SQL Application 原生SQL支持 支持JDBC/ODBC 多种数据源 SequoiaDB Hive HBase SQL JDBC/ODBC SequoiaSQL Engine

SequoiaSQL v.s. Hive+HDFS Tests Test 1 Test 2 Test 3 Test 4 Time (Sec) Hive+HDFS 32.603 17.822 39.815 42.128 SequoiaSQL 3.2 2 1 SequoiaSQL is 10+ times faster than Hive+HDFS

Hadoop + SequoiaDB = 实时分析+批处理分析 JDBC/ODBC/API接口 HDFS 分布式存储引擎 Hive 查询引擎 MapReduce 分布式计算框架 SequoiaDB Pig 执行引擎 SequoiaSQL

SequoiaDB 与其他数据库的功能差异 MongoDB HBase RDBMS(Oracle,DB2) 事务 有 无 SQL支持 分布式 性能 高 中 低 多索引 数据压缩 存储过程 弱 JDBC驱动 图形管理界面 数据模型 JSON对象 宽表 关系结构

客户分群 – 第一阶段 Hadoop + SequoiaDB 建立营销规则 计算用户分群 精准推送 营销记录 业务系统 ETL 营销管理

客户分群 – 第一阶段 Hadoop + SequoiaDB 建立营销规则 计算用户分群 精准推送 营销记录 业务系统 ETL 营销管理

客户分群 – 第二阶段 数据挖掘 Hadoop + SequoiaDB 建立营销规则 计算用户分群 精准推送 营销记录 业务系统 ETL