文档式数据库在Hadoop集群中的应用 SequoiaDB – 王涛.

文档式数据库在Hadoop集群中的应用 SequoiaDB – 王涛

提纲大数据回顾 1 文档式数据库特性 2 数据库在Hadoop中的定位 3 用户案例 4

Batch Analytics 大数据回顾

大数据：信息驱动力3v 海量数据规模高时效性多样化价值：提高效率提升客户体验降低风险创造新的商机
50%组织拥有和处理>10TB数据 10%已经处理>1PB 电子商务和Web日志可产生每分钟上万的数据项社交媒体应用每分钟产生百万交互活动高时效性 volume velocity 30%组织需要每天处理>100GB数据批处理更新从每天提升到每小时，每分钟，甚至实时复杂事件处理能够即时产生信息发送给分析系统实时流数据处理多样化传统的结构化数据依然是最常见的数据非结构化的情绪表达和客户行为快速增长企业现存的非结构化数据蕴含大量开放文本视频音频在业务操作中被使用博客，论坛以及评论反映了客户的声音 volume

Hadoop与NoSQL – 解决BigData的核武器
Volume Variety Velocity Hadoop 分布式存储 Yes NoSQL 数据库传统关系型 Hadoop针对海量与多样化数据 NoSQL针对海量与高时效性数据 Hadoop与NoSQL互为补充，而非取代

Real-time data access NoSQL数据库

关系型数据库面临的困境数据模型僵化关系模型制约水平扩张海量数据瓶颈无法处理海量数据，性能瓶颈强一致性日志，锁构成性能瓶颈高成本
仅支持垂直扩张，成本昂贵

大量的关联是分布式关系模型中的瓶颈

文档式NoSQL解决方案数据模型灵活 Schemaless带来开发的敏捷和可扩展性的提升海量数据分布式架构+半结构化存储= 水平扩张
最终一致性带来性能大幅度提升低成本使用PC服务器进行水平扩张

NoSQL利用嵌套和数组解决关联难题大表之间的关联性能低下关联操作造成节点间大量的数据移动用户ID 用户名 1 王萍 2 张楠 3
李克同 4 Jerry …… 用户ID 交易金额交易时间 2 135 7:05 3 115 12:01 42,138 12:24 31,238 15:31 …… 2千万条记录 1.5亿条记录单条记录实现1:1与1:N模型用户ID 用户名交易时间金额 1 王萍 [ { 15:53, 7500} ] 2 张楠 [ { 07:05, 135 }, {12:24, } ] 3 李克同 [ { 12:01, 115}, { 15:31, }, {16:30, 557 } ] ……

在线扩容扩容步骤：将新增节点添加到集群中划分数据分区系统自动迁移数据存储空间可扩展在线迁移数据业务不中断负载均衡

异构数据复制机制灵活平衡业务性能、可用性和数据可靠性
异步业务请求w=1 Repl-log Secondary Pull批量Repl-log Push更新通知虚拟复制请求 Primary Repl-Group Repl-log相对窗口 HOT-Window COLD-Window LOST-Window 同步业务请求w=3 差异化的数据可靠性级别灵活可配置的数据分片支持同步与异步复制机制异构数据复制机制灵活平衡业务性能、可用性和数据可靠性

多索引支持 ID Name Phone 1 Tom 135 2 Bob 412 3 Jim 531 4 Amy 986 5 Susan
257 6 Lily 264 7 Kevin 223 Name_Index Amy Bob Jim Kevin Lily Susan Tom ID_Index 1 2 3 4 5 6 7 和很多KV或者宽表数据库比起来，文档型数据库一般对一个集合能够在不同字段上创建多个索引

Big Data Platform Hadoop+Nosql

NoSQL数据库在Hadoop中的定位连接器连接器 HDFS NoSQL数据库

Hadoop连接器 Hadoop MapReduce Job Tracker Task Tracker 连接器 Data Node 数据库

从Hadoop导入数据 Hadoop Extract Flume Connector Sqoop Connect Other Sources
HDFS NoSQL Transform Load 可直接从HDFS加载数据优化并行支持Pig、Hive与MapReduce

查询谓词下压，利用数据库索引提升性能查询关联
SELECT * FROM T, K WHERE T.Price > 1000 AND T.id = K.id HDFS 数据存储层 HDFS Database T.Price > 1000 批量扫描索引扫描

基于块级并发能力在某电信运营商场景测试 1 大数据查询和导入性能相对HBASE有较大幅度提升；
业务应用/Hadoop 导入数据量导入性能 Hbase 30亿条记录 15W/Sec SequoiaDB 19.3W/Sec 获取分片信息数据组1：分片号10,12… 数据组2：分片号1,2… 并发读取各个数据块内容导入性能编目节点协调节点编目节点数据组数据组数据组数据组数据组数据块数据组数据组数据块数据组数据块数据组数据块数据块数据块数据块数据块数据块 … … … 数据块数据块数据块多线程并发平均响应时间在某电信运营商场景测试 1 大数据查询和导入性能相对HBASE有较大幅度提升； 2 与Hadoop Map/Reduce 对接能发挥更大的并发优势；

Use cases 用户案例

交易流水归档历史查询面临的挑战解决方式最终结果每天需要入库归档超过100GB数据
用户需要能够并发、实时、由多个维度访问超过2年的历史数据当前Oracle数据库无法满足实时查询的需求使用MapReduce与Hive作为ETL处理的补充进行数据清洗和转换使用Hive将最终结果并行加载入SequoiaDB 小规模x86集群平台降低TCO 使用SequoiaDB，在常用查询字段上建立多个索引保证查询性能可以在线针对2年内的历史数据进行多条件检索高数据压缩比节省数据存储空间利于细分客户群，发现高价值用户，降低客户流失率帮助自营产品、套餐等设计与创新提升客户体验，进行策略管控

交易流水归档历史查询

交易流水归档历史查询 Hadoop Platform 业务系统 HDFS SequoiaDB 数据录入 Hive Web服务一级分行用户
SequoiaSQL 当日归档数据二级行管理员 Web服务数据录入客户分群数据分析客户分群营业厅叫号机报表展现文本数据精准推送手工输入数据移动设备

谢谢王涛微博账号 @SequoiaDB 微信账号

Hadoop与文档式NoSQL之间的关系
传统关系数据库大数据HADOOP平台文档式NoSQL数据库优势基于关系模型的高性能数据查询和分析；成熟内建数据挖掘算法；成熟报表工具；标准数据访问接口。大规模并行数据处理；灵活可编程；支持海量数据存储的文件系统；低硬件成本服务器集群。大规模并行实时数据访问；数据模型动态灵活；计算引擎强大，功能丰富；劣势不适合非结构化数据处理；通常情况，企业级硬件支持不适合复杂数据关联查询；缺乏标准访问接口。不适合非结构化数据存储适合场景结构化数据的高性能复杂查询传统报表分析和数据挖掘。非结构化数据处理；全数据批量处理；个性化数据分析和挖掘；海量数据检索，索引和搜索。结构化与半结构化高性能大规模并行处理；海量数据实时检索分析应用企业级数据仓库低成本海量数据存储和分析实时大数据查询分析互为补充而非取代

SequoiaDB 与HBase的差异 SequoiaDB HBase 多索引有无非主键排序聚集存储过程事务锁
SQL/JDBC 高可用性强弱图形管理界面数据更新删除

SequoiaDB 与MongoDB的差异
事务有无 SQL支持性能高中数据压缩存储过程弱 JDBC驱动图形管理界面 MongoDB天生的互联网基因使其缺乏企业级功能，且与Hadoop结合极其有限

SequoiaDB NoSQL实时数据引擎
灵活动态的数据类型并行执行引擎线性水平扩张 MPP – 无单点故障在压缩数据上执行SQL 保持数据接近CPU/核应用程序层调度层

SequoiaDB 为实时查询与分析而建立
编目分片 ... 数据分片数据存储层协调节点协调层网络层应用层

SequoiaDB 平台架构

在线扩容扩容步骤：将新增节点添加到集群中划分数据分区系统自动迁移数据存储空间可扩展在线迁移数据业务不中断负载均衡

在线扩容优势传统数据库（ORACLE和DB2）性能及吞吐量非线性增长业务中断时间长 SequoiaDB 增加节点可线性提升数据访问性能
无需中断业务在线扩容性能和吞吐量节点数（个）

Single Shard

Two Shards

Three Shards

异构数据复制机制灵活平衡业务性能、可用性和数据可靠性
异步业务请求w=1 Repl-log Secondary Pull批量Repl-log Push更新通知虚拟复制请求 Primary Repl-Group Repl-log相对窗口 HOT-Window COLD-Window LOST-Window 同步业务请求w=3 差异化的数据可靠性级别灵活可配置的数据分片支持同步与异步复制机制异构数据复制机制灵活平衡业务性能、可用性和数据可靠性

SequoiaDB 大数据合作伙伴

SequoiaDB 集成Hadoop解决方案

SequoiaDB 与Hadoop丰富的对接形式
Hive sdb connector Sqoop sdb connector HDFS SequoiaDB HDFS SequoiaDB 与Hive对接, 实现大数据导入/分析与Hadoop/sqoop对接，实现传统数据库/非结构化数据与SequoiaDB转换 SequoiaSQL HDFS SequoiaDB SequoiaSQL 实现SDB/HDFS之间数据互通

Hadoop连接器客户端 Hadoop MapReduce Job Tracker Task Tracker Task Tracker
Data Node 数据库

SequoiaDB 从Hadoop导入数据
Extract Flume Connector Sqoop Connect Other Sources Hadoop HDFS SequoiaDB Transform Load 可直接从HDFS加载数据优化并行支持Pig、Hive与MapReduce

基于块级并发能力在某电信运营商场景测试 1 大数据查询和导入性能相对HBASE有较大幅度提升；
业务应用/Hadoop 导入数据量导入性能 Hbase 30亿条记录 15W/Sec SequoiaDB 19.3W/Sec 获取分片信息数据组1：分片号10,12… 数据组2：分片号1,2… 并发读取各个数据块内容导入性能编目节点协调节点编目节点数据组数据组数据组数据组数据组数据块数据组数据组数据块数据组数据块数据组数据块数据块数据块数据块数据块数据块 … … … 数据块数据块数据块多线程并发平均响应时间在某电信运营商场景测试 1 大数据查询和导入性能相对HBASE有较大幅度提升； 2 与Hadoop Map/Reduce 对接能发挥更大的并发优势；

SequoiaSQL 让SequoiaDB支持原生SQL
Application 原生SQL支持支持JDBC/ODBC 多种数据源 SequoiaDB Hive HBase SQL JDBC/ODBC SequoiaSQL Engine

SequoiaSQL v.s. Hive+HDFS
Tests Test 1 Test 2 Test 3 Test 4 Time (Sec) Hive+HDFS 32.603 17.822 39.815 42.128 SequoiaSQL 3.2 2 1 SequoiaSQL is 10+ times faster than Hive+HDFS

Hadoop + SequoiaDB = 实时分析+批处理分析
JDBC/ODBC/API接口 HDFS 分布式存储引擎 Hive 查询引擎 MapReduce 分布式计算框架 SequoiaDB Pig 执行引擎 SequoiaSQL

SequoiaDB 与其他数据库的功能差异
MongoDB HBase RDBMS（Oracle,DB2) 事务有无 SQL支持分布式性能高中低多索引数据压缩存储过程弱 JDBC驱动图形管理界面数据模型 JSON对象宽表关系结构

客户分群 – 第一阶段 Hadoop + SequoiaDB 建立营销规则计算用户分群精准推送营销记录业务系统 ETL 营销管理

客户分群 – 第二阶段数据挖掘 Hadoop + SequoiaDB 建立营销规则计算用户分群精准推送营销记录业务系统 ETL

文档式数据库在Hadoop集群中的应用 SequoiaDB – 王涛.

Similar presentations

Presentation on theme: "文档式数据库在Hadoop集群中的应用 SequoiaDB – 王涛."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

文档式数据库 在Hadoop集群中的应用 SequoiaDB – 王涛.

Similar presentations

Presentation on theme: "文档式数据库 在Hadoop集群中的应用 SequoiaDB – 王涛."— Presentation transcript:

Similar presentations

About project

反馈

文档式数据库在Hadoop集群中的应用 SequoiaDB – 王涛.

Presentation on theme: "文档式数据库在Hadoop集群中的应用 SequoiaDB – 王涛."— Presentation transcript: