epiC elastic power-aware data intensive Cloud
LOGO epiC 大规模数据处理的难点 Page 2 如何查询处 理海量数据? 如何存储 海量数 据? 如何降低硬件成 本? 如何取得一劳 永逸的解决方案?
LOGO epiC 实例:智慧城市 Page 3 数字城管 数字物流 平安城市 数字执法 数字巡检 智能交通 数字医疗 数字社区 数字监察 数字景区 电子政务 政府热线 应急系统 食品安全 数字校园 数字邮政 智慧城市 平台 数字环保
LOGO epiC 智慧城市数据处理平台的需求 众多数据源、海量的数据 各个部门、企业数据库 各个传感器、摄像头数据 移动通讯 / 互联网数据 数据结构复杂:结构化数据、半结构化数据、文本数据 数据量每天以 100GB 级别增长 多样的需求 针对城市信息进行挖掘和知识发现 基于传感器网络的事故 / 异常监控系统 为通讯网络定制的查询和搜索服务 支持民众使用电子政务等功能 Page 4
LOGO epiC 智慧城市数据处理平台的需求 性能要求 存储性能:需要有效的支持 PB 级别数据的存储 数据分析、预测:需要对 TB 级别、甚至 PB 级别的数据进行快速的建模分 析 用户并发查询:需要在几百亿记录中快速找到用户记录( 1 秒内),并能 同时支持上万用户同时查询 可扩展性:能支持增量式的对系统增容 易用性要求 有效的支持第三方开发基于智慧城市的新应用 有效的支持终端用户的正常使用,对其屏蔽系统的复杂性 能和已有系统进行无缝融合 Page 5 epiC 云平台:支持多应用的可扩展的云平台
LOGO epiC 主要内容 Page 6 epiC 云平台性能测试 epiC 云平台接口支持 epiC 云计算关键技术 epiC 云平台体系结构 epiC 云平台简介
LOGO epiC epiC 云平台简介 学术影响: 在三大数据库国际顶级会议 SIGMOD 、 VLDB 、 ICDE 上发表 近 20 篇学术论文(约占三大会议 云计算子课题总收录论文数的 22% ) 新加坡教育部 100 万新币研究经费 云计算先驱美国 Amazon 公司全额 资助实验经费 与工业界的结合 基于 epiC 的电子政务云平台 同网易公司联合开发基于 epiC 的旅 游社交平台 Page 7 epiC 云计算系统是由新加坡国立大学和浙江大学计算机系 联合研制的 新一代的云计算系统,为商业用户提供全面的数据解决方案
LOGO epiC epiC 云平台简介 epiC 系统是一个集存储、管理、分析等应用为一身的云计算平台 Page 8 云计算 存储平 台 云端数 据仓库 云计算 应用平 台 epiC 系统 传统数据管理系统 (Oracle, SQLServer, DB2) epiC 硬件环境 少数高端服务器 ( <20 节点) 由低价计算机所组成的集群 (理论上无限制) 数据处理机制 传统数据库算法 + 集中式索 引 并行处理算法 + 分布式索引 支持数据大小 100G - 10T 左右理论上没有限制 系统可用性 服务器故障导致服务中断 (需要手动恢复) 系统永远可用 (节点故障不会导致服务中 断) 系统运维费用服务器 + 数据管理软件 + 维护即用即付
LOGO epiC epiC 云平台简介 部署环境 每个机架安装 39 个 1U 刀片服务器和一个以太网交互机 所有机架的以太网交换机接入集群交换机 以太网交互机 : 1 or 10Gbps 集群交互机: 10Gbps 1U 刀片服务器: 8Gb RAM, 4 个 1 TB Disk, 4 个 8-core 超线程 CPU Page 9
LOGO epiC epiC 云平台体系结构 Page 10 云数据采集层 云数据代理 云数据知识库 云数据存储层 弹性数据库 服务 弹性键值存 储服务 云盘存储服 务 云数据处理层 并行 SQL 查询 JAVA 编程接口 C++ 编程接口 云数据分析层 决策分析 发展预测 需求分析 商业智能 分析 云数据应用支撑层 云数据访问 接口 云数据可视 化接口 …… LBS 支持 epiC 云平台 云数据仓库 云资源监控 云服务计费 云安全控制 云服务审计 信息平台 监控 es 2 云存储平台 E 3 高性能并行计算框架
LOGO epiC 弹性数据库服务 通过云数据代理,结构化的数据被存储在云数据库中 云数据库提供给用户一种高效的弹性服务 Page 11 对一个用户而言,使用云数据库服务 就像是使用一个独立的数据库系统 对于整个系统而言,所有的数据表格都被 统一存储管理在云端,可以进行动态添 加、删除,可以使用多个虚拟节点来提供 效能。然而,这一切都对用户透明。
LOGO epiC 弹性键值存储服务 键值存储 (Key-value store) 支持根据键值的快速检索 基于对等网络路由算法的存储方案 Page 12 云端路由结构 Car_IDMileagePrice BMW300200$20,000 Benz2003,000$45,000 主键 (0,15) (16,23) (24,39) (40,47) (48,63) hash(BMW300)=26 Car_IDMileagePrice BMW300200$20,000 hash(Benz200)=45 Car_IDMileagePrice Benz2003,000$45,000 Q: get(key=BMW3000)
LOGO epiC 弹性键值存储服务(续) 键值索引的优点 支持半结构化数据如: XML 、 , EDL 等 支持灵活的数据模式 Page 13 ( , …… ) ( , …… ) …… ID 姓名年龄学历驾照编号违规记录 王甜甜 21 本科 NULL 李娜 22 本科 NULL 郑云 28NULL 无 曹大华 25NULL 有 人口学历库 驾照管理库 统一键值存储
LOGO epiC 云盘存储服务 为政府、企业客户提供信息备份、交换服务 支持各种无结构化数据:文本文件、图片、监控录像、表 格数据等 支持海量存储,存储资源由云端按需分配 Page 14 政府、企业客户 云端服务器 epiC 存储云
LOGO epiC 云数据仓库 云数据仓库支持对海量数据的压缩、清理、分片以及各种 复杂的分析查询 既可以和外部业务系统直接交互 也可以和云数据库服务和云键值存储服务交互 Page 15 云数据库服 务 云键值存储 服务 数据压缩模块 云数据仓库 业务数据 分析预测查询数据分片
LOGO epiC epiC 云平台体系结构 Page 16 云数据采集层 云数据代理 云数据知识库 云数据存储层 弹性数据库 服务 弹性键值存 储服务 云盘存储服 务 云数据处理层 并行 SQL 查询 JAVA 编程接口 C++ 编程接口 云数据分析层 决策分析 发展预测 需求分析 商业智能 分析 云数据应用支撑层 云数据访问 接口 云数据可视 化接口 …… LBS 支持 epiC 云平台 云数据仓库 云资源监控 云服务计费 云安全控制 云服务审计 信息平台 监控 es 2 云存储平台 E 3 高性能并行计算框架
LOGO epiC 决策分析 / 需求预测 为了对数据进行有效的分析整理,以产生对商业行为的进一步了解, epiC 集成多种数据挖掘和机器学习工具 聚类: Kmeans, Mean shift, Dirichlet process 分类:决策树, Bayesian 分类器 知识发现:频繁模式挖掘,关联规则挖掘 预测:线性回归,多项式回归 Page 17 商业需求分 析 云引擎处理 数据产生结 果 可视化结果 显示 需求通过 UI 界面和 描述性语言转换为 epiC 能理解的云 并行算法 数据分析结果暂存 在云数据库中 上层调用可视化 界面产生多种分析图
LOGO epiC 决策分析 / 需求预测 (续) 下图展示了对美国佐治亚州房地产市场的预测过程和采用不同预测方 法的结果 Page 18 指数回归方程线性回归方程
LOGO epiC 决策分析 / 需求预测 (续) 下图展示了使用 epiC 对 Facebook 用户 ( 部分)进行 Kmeans 聚类的结 果,用户根据其紧密程度被划分为不同的团体 Page 19
LOGO epiC 商业信息统计 Page 20 epiC 可以支持各种传统数据仓库操作,并且更加高效 数据聚合操作、数据切片、数据清理、数据整合 …… 销量统计 市场占有率
LOGO epiC 商业信息统计(续) Page 21 统计信息通过可视 图表展示给用户, 用户可以根据需求 对结果进行提炼和 再计算 后台云计算引擎启动 并行算法开始新的 数据立方计算,结果 被存储在云数据库中 用户查询被翻译为 对立方的切片,云查 询引擎对已有数据立方 进行二次计算得出相 关结果 业务当天(月)数据 进行整合压缩 导入 epiC 云数据库
LOGO epiC epiC 云平台关键技术 E 3 高性能并行计算引擎 E 3 将数据处理过程描述为一个线性工作流,工作流中每一个节点称为一 个阶段,每阶段包含若干处理单元,每个处理单元对数据进行部分处理。 E 3 按照工作流的顺序,并行地调度处理单元在计算节点上运行,自动在 处理单元之间传递中间运算结果,最终完成整个数据处理过程。 Page 22 pu1 pu2 pu3 pu4 pu5 云数据 存储服务 PU – processing unit (处理单 元)
LOGO epiC E 3 高性能并行计算引擎 对比谷歌 MapReduce 引擎 Page 23 设计思路更加贴 近用户和开发者 更加灵活,不需要坚持 Map->Reduce->…->Map- >Reduce 的过程 根据应用程序需要处理的 数据大小和响应时间,自 动地弹性分配计算资源 更加高效的数据处 理能力 更加自然的表达复 杂的处理逻辑
LOGO epiC epiC 云平台关键技术 数据划分:通过优化的数据分布,可以利用并行处理极大的缩短查询 时间 epiC 独创出混合式数据切分算法 实验表明, epiC 处理典型查询的性能是其他系统的 5-10 倍 Page 24
LOGO epiC epiC 云平台关键技术 数据压缩:数据压缩能够消除 I/O 瓶颈、极大的提升查询 性能 epiC 压缩算法与主流压缩算法的压缩率比较 Page 25
LOGO epiC epiC 云平台关键技术 分布式索引技术 建立分布式二级索引 支持并发地在多节点上同时查询 可以和本地数据库索引连接 Page 26
LOGO epiC epiC 云平台接口支持 编程接口层 SQL 查询接口, 支持应用程序通过标准的 SQL 查询语句访问数据 通用编程语言接口 支持用户使用 Java 或者 C++ 编写可伸缩的弹性应用程序 用户接口层 基于浏览器的管理工具和查询工具 基于客户端的数据访问工具 Page 27
LOGO epiC epiC 云平台接口支持(续) SQL 查询服务: SQL 查询服务支持应用程序通过 SQL 语句访问数据 自动将 SQL 语句编译为 E 3 应用程序,并使用独有的并行连接算法,对数 据进行高效查询 Page 28
LOGO epiC epiC 平台性能测试 MapReduce 是 Google 提出并被广泛应用的并行化处理平台 epiC 采用多种优化方案,如索引和优化的连接算法,使得在处理查询 的时候,更加优于 MapReduce Page 29
LOGO epiC epiC 平台性能测试(续) 在 epiC 中增加节点,可以获得显出的性能提升 从而比普通数据库系统更加高效 Page 30
LOGO epiC epiC 平台性能测试(续) 分布式索引的效能(多维点查询) 基于拓扑结构的分布式索引效率更高 Page 31
LOGO epiC 其他成功应用案例 网易私有云平台 推进企业内数据共享、全局信息挖掘与商业智能 Page 32 虚拟 化 虚拟机、网络、云硬盘 数据 管理 DDB 、对象存储、文件中心、关系数据存储、全文检索、并 行分析、 Timeline 、 NewSQL 、缓存服务 应用 架构 负载均衡 (LVS 、反向代理 ) 、 DNS 、消息队列 扩展 功能 图像处理、文本分析 ( 分词、标 签、分类 ) 、数据挖掘 ( 聚类、关联 规则 ) 、语音处理、 GIS 数据 共享 IP 城市库、乐库、书库 用户 管理 与监 控平 台 管理 员运 维平 台 应用 平滑 迁移 配额 与计 费 硬件 IDC 、服务器、存储、网络 Web App Engine for Java 应用 托管
epiC Group