EpiC elastic power-aware data intensive Cloud. LOGO epiC 大规模数据处理的难点 Page  2 如何查询处 理海量数据? 如何存储 海量数 据? 如何降低硬件成 本? 如何取得一劳 永逸的解决方案?

Slides:



Advertisements
Similar presentations
关于德国立能的疑难解答. Page  2 德国立能真正有效果吗?多长时间有效?  答:立能产品来自国际航天科技,曾作为国家机密封存了 20 年之久,一经投入民用市场就迅速受到高端人群和有识 之士的追捧!它的实验效果立竿见影,坚持使用时间越久, 对脊柱养护和人体整体的健康保健效果越好!
Advertisements

三 图 形 设 计 的 方 法 与 表 现. 本章节学习目的 : ( 1 )熟练把握图形设计的方法程序,注 重理论与实践性相结合; ( 2 )掌握图形的基本表现形式和语言元 素的运用能力; 重难点: 充分运用图形思维能力,并将图形设 计基础方法和表现应用在设计实践中,注 重在表达上具有趣味性和准确性。
LOGO 理 气 药理 气 药. 本章学习要求  ( 一 ) 概述部分 掌握行气药的功效、主治、性能特点、配伍应用及使 用注意。 了解行气药及有关功效术语的含义。 ( 二 ) 药物部分 掌握橘皮、枳实、木香、香附、川楝子的性能、功效、 应用、特殊用法及特殊使用注意。 熟悉青皮、乌药、沉香、薤白的功效、主治及特殊用.
LOGO 郑州市第二十六中学 张松晨 承斑斓梦想 铸精神乐园 -- 教师发展学校试点工作阶段性成果.
高雄市議會第 2 屆第 2 次定期大會 高雄市政府秘書處業務報告 報告人:處長陳瓊華 104 年 10 月 29 日.
LOGO 江苏省徐州财经高等职业技术学校:张峰 —— 心理问题揭秘. LOGO 说课内容 一、说教材 二、说学情 三、说教法与学法 四、说教学过程设计 五、说板书设计.
LOGO 中国旅游地理 学习情境三. 学习目标 了解中国旅游区划的各种不同方案 掌握中国旅游交通运输网络的组成 熟悉主要旅游区域的旅游交通运输 网点。
LOGO 市场部 XX 上市赏车惠. LOGO Page  2 活动目的及背景 1 、 XX 品牌刚入住 XX ,意向客户和品牌知名度严重不足,新车 上市急需提升车型品牌知名度。 2 、提升的品牌文化,倡导一种年轻、时尚和个性的生活方式, 让更多的人们加入到一族。 3 、增加展厅人流量,促进潜在消费者试乘试驾,提高预购.
LOGO 三年二班主题班会 我们的节日 —— 清明节. LOGO Page  2 《英 雄 赞 歌》 鲜花 象灿烂的火把燃烧在眼前 …… 五星红旗 象熊熊的烈焰映红了苍穹 …… 面对庄严的墓碑 我们心如潮涌 面对先烈的英灵 我们热泪盈眶 …… 耳边,仿佛还震荡着激烈的枪炮声 眼前,好像还弥漫着战斗的浓浓硝烟.
化学制药工艺学 沈阳药科大学 知识模块 1 绪论. 沈阳药科大学制药工程学院 LOGO 知识点 1 化学制药工艺学及其研究内容 知识点 2 世界制药工业的发展现状 知识点 3 我国医药工业的现状和发展前景 知识模块 1 绪论 国家级精品课程 沈阳药科大学制药工程学院.
Edu.51cto.com. 讲师: 大侠唐在飞(小侠唐在飞) 唐志强 edu.51cto.com 姓名:唐志强 网名:小侠唐在飞、大侠唐在飞 年龄:差点成 80 后 地址:乌鲁木齐 (切糕、大盘鸡、干果什么的) 擅长领域:扛显示器、装机、装系统、杀病毒、重启电脑、部署服务器、做网线、做电话头、帮领导下片、看监控、
教育部顧問室海洋教育先導型計畫 補助計畫課程 課程名稱:跟著鄭和下西洋
Amazon 云计算 AWS (三) 云计算 (第三版) 第 3 章 CLOUD COMPUTING Third Edition
报告人:高 攀 导 师:王宗敏 教授 指导老师:陈刚 老师
科学评价观下的幼儿全面发展评价 湖北省武汉市青山区教科研中心 胡秀玲.
臺中市政府警察局 婦幼警察隊 小隊長吳敏男、謝豐昌
張忠謀 台積電 創辦人 一年賺 200億的人.
    第三章:中国的自然资源    第二节  中国的土地资源.
论设备监理 在构建能源互联网中的重要作用 LOGO 华铁工程咨询有限责任公司 郑 旭 日 –--总监理工程师
網站「開外掛」 優化營業人員的戰鬥力 介紹 Web365行動展售網站系統的10大特色
LOGO 毕业实习要求 数学计算机科学系 潘杨友.
审计案例研究 第一讲 辅导教师 周桂芝.
企业高成长策划 杜志刚.
二十世纪外国文学专题 章丘电大 李颜.
“大云”大数据平台及应用 中国移动通信研究院 郭磊涛 2013年11月.
台大體育概況及課程大綱 黃欽永 教授 台灣大學體育室.
精進警政統計業務 內政部警政署統計室 主任 謝文政 104年 3月 4日.
商业分析平台-语义模型 用友集团技术中心 边传猛 2013年 11月 06日.
上海地面通云主机产品 产品介绍 通信成就梦想 未来你我把握
云计算突飞猛进.
PB级科研数据集的管理和应用 曙光信息产业(北京)有限公司.
速收简历 速收简历移动APP项目 速收简历团队.
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
103年度社區照顧關懷據點評鑑 單位logo 或代表性照片 報告單位:臺中市○○區○○社區發展協會 報告人:○○○ 103年○月○日.
云计算业务应用-数据挖掘.
南京大学计算机科学与技术系 主讲人:黄宜华 2011年春季学期
国外市场(亚马逊).
11.3 国产大数据库技术 阿里巴巴OceanBase 云创存储数据立方(DataCube)
面向海量数据的 高效天文交叉证认的研究 答辩人:赵青 指导老师:孙济洲 教授 天津大学计算机学院
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
比特云 后台操作手册.
郑州市惠济区第六中学 网站推介 姜茂方 2015年1月10日.
大数据革命与大众生活变革 黄欣荣 博士 教授 江西财经大学 马克思主义学院
转正述职报告 乐恩公司 史航
计算机与信息技术应用基础 徐东雨 计算机中心
荷福威士顿机器人科技有限公司 上海荷福集团
國票風暴 指導老師:盧寶泰 組長:4960S077 邱瀅穎 組員:4960S006 翁郁婷 4960S015 陳文君 4960S069 王怡婷 4960S072 陳玟君.
世界地球日 北京市京源学校 侯小波.
云计算之分布式计算.
和諧社區資訊服務推廣計畫 -軟體雲端社區 資訊研習營
教務行政資訊系統 簡介 資訊科技中心 資訊系統組 徐振琦
Cloud Computing Google云计算原理.
云计算概述 云计算的概念与发展历程 体系结构 应用案例 优缺点分析 云计算前景 SI TEAM 孟茶
校 園 雲端輸出管理系統 新印科技股份有限公司 聯絡人:伍宏一 電 話: /
软件工程基础 云计算概论 刘 驰.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
K/3 Cloud V6.1产品培训 -- 经营分析平台
我參與,所以我分享更多 豐原高中 潘淑滿.
大專院校美食網- 以新北市為例 商務科技管理專題 組 別: 第二組 專題成員: 方采薇 陳宜欣
Facebook 内部高效工作指南
机械制图:绘制正五角星 徐霄宇.
SOA模型设计 杨子 2009/09/30.
  Google    雲端技術   曹晉翊 | 陳正偉 | 施泓銘 | 郭軒志 | 王士豪.
基于App Inventor的物联网工程导论课程实验设计
歹徒透過通訊軟體詐騙手法1-冒用身份 若被害人通訊軟體「允許被加入好友」為開啟狀態 駭侵Google帳戶取得通訊錄
空中英語教室 影音典藏學習系統 1.
Cloud Computing Google云计算原理.
基于位置感知和负载均衡 MapReduce的Join算法优化 汇报人:黄梓铭 厦大数据库实验室
淺析「標槍運動」技術 指導老師 : 林新龍博士 研究生 : 侯曉寧.
歹徒透過通訊軟體詐騙手法1-冒用身份 若被害人通訊軟體「允許被加入好友」為開啟狀態 駭侵Google帳戶取得通訊錄
Presentation transcript:

epiC elastic power-aware data intensive Cloud

LOGO epiC 大规模数据处理的难点 Page  2 如何查询处 理海量数据? 如何存储 海量数 据? 如何降低硬件成 本? 如何取得一劳 永逸的解决方案?

LOGO epiC 实例:智慧城市 Page  3 数字城管 数字物流 平安城市 数字执法 数字巡检 智能交通 数字医疗 数字社区 数字监察 数字景区 电子政务 政府热线 应急系统 食品安全 数字校园 数字邮政 智慧城市 平台 数字环保

LOGO epiC 智慧城市数据处理平台的需求 众多数据源、海量的数据 各个部门、企业数据库 各个传感器、摄像头数据 移动通讯 / 互联网数据 数据结构复杂:结构化数据、半结构化数据、文本数据 数据量每天以 100GB 级别增长 多样的需求 针对城市信息进行挖掘和知识发现 基于传感器网络的事故 / 异常监控系统 为通讯网络定制的查询和搜索服务 支持民众使用电子政务等功能 Page  4

LOGO epiC 智慧城市数据处理平台的需求 性能要求 存储性能:需要有效的支持 PB 级别数据的存储 数据分析、预测:需要对 TB 级别、甚至 PB 级别的数据进行快速的建模分 析 用户并发查询:需要在几百亿记录中快速找到用户记录( 1 秒内),并能 同时支持上万用户同时查询 可扩展性:能支持增量式的对系统增容 易用性要求 有效的支持第三方开发基于智慧城市的新应用 有效的支持终端用户的正常使用,对其屏蔽系统的复杂性 能和已有系统进行无缝融合 Page  5 epiC 云平台:支持多应用的可扩展的云平台

LOGO epiC 主要内容 Page  6 epiC 云平台性能测试 epiC 云平台接口支持 epiC 云计算关键技术 epiC 云平台体系结构 epiC 云平台简介

LOGO epiC epiC 云平台简介 学术影响: 在三大数据库国际顶级会议 SIGMOD 、 VLDB 、 ICDE 上发表 近 20 篇学术论文(约占三大会议 云计算子课题总收录论文数的 22% ) 新加坡教育部 100 万新币研究经费 云计算先驱美国 Amazon 公司全额 资助实验经费 与工业界的结合 基于 epiC 的电子政务云平台 同网易公司联合开发基于 epiC 的旅 游社交平台 Page  7 epiC 云计算系统是由新加坡国立大学和浙江大学计算机系 联合研制的 新一代的云计算系统,为商业用户提供全面的数据解决方案

LOGO epiC epiC 云平台简介 epiC 系统是一个集存储、管理、分析等应用为一身的云计算平台 Page  8 云计算 存储平 台 云端数 据仓库 云计算 应用平 台 epiC 系统 传统数据管理系统 (Oracle, SQLServer, DB2) epiC 硬件环境 少数高端服务器 ( <20 节点) 由低价计算机所组成的集群 (理论上无限制) 数据处理机制 传统数据库算法 + 集中式索 引 并行处理算法 + 分布式索引 支持数据大小 100G - 10T 左右理论上没有限制 系统可用性 服务器故障导致服务中断 (需要手动恢复) 系统永远可用 (节点故障不会导致服务中 断) 系统运维费用服务器 + 数据管理软件 + 维护即用即付

LOGO epiC epiC 云平台简介 部署环境 每个机架安装 39 个 1U 刀片服务器和一个以太网交互机 所有机架的以太网交换机接入集群交换机 以太网交互机 : 1 or 10Gbps 集群交互机: 10Gbps 1U 刀片服务器: 8Gb RAM, 4 个 1 TB Disk, 4 个 8-core 超线程 CPU Page  9

LOGO epiC epiC 云平台体系结构 Page  10 云数据采集层 云数据代理 云数据知识库 云数据存储层 弹性数据库 服务 弹性键值存 储服务 云盘存储服 务 云数据处理层 并行 SQL 查询 JAVA 编程接口 C++ 编程接口 云数据分析层 决策分析 发展预测 需求分析 商业智能 分析 云数据应用支撑层 云数据访问 接口 云数据可视 化接口 …… LBS 支持 epiC 云平台 云数据仓库 云资源监控 云服务计费 云安全控制 云服务审计 信息平台 监控 es 2 云存储平台 E 3 高性能并行计算框架

LOGO epiC 弹性数据库服务 通过云数据代理,结构化的数据被存储在云数据库中 云数据库提供给用户一种高效的弹性服务 Page  11 对一个用户而言,使用云数据库服务 就像是使用一个独立的数据库系统 对于整个系统而言,所有的数据表格都被 统一存储管理在云端,可以进行动态添 加、删除,可以使用多个虚拟节点来提供 效能。然而,这一切都对用户透明。

LOGO epiC 弹性键值存储服务 键值存储 (Key-value store) 支持根据键值的快速检索 基于对等网络路由算法的存储方案 Page  12 云端路由结构 Car_IDMileagePrice BMW300200$20,000 Benz2003,000$45,000 主键 (0,15) (16,23) (24,39) (40,47) (48,63) hash(BMW300)=26 Car_IDMileagePrice BMW300200$20,000 hash(Benz200)=45 Car_IDMileagePrice Benz2003,000$45,000 Q: get(key=BMW3000)

LOGO epiC 弹性键值存储服务(续) 键值索引的优点 支持半结构化数据如: XML 、 , EDL 等 支持灵活的数据模式 Page  13 ( , …… ) ( , …… ) …… ID 姓名年龄学历驾照编号违规记录 王甜甜 21 本科 NULL 李娜 22 本科 NULL 郑云 28NULL 无 曹大华 25NULL 有 人口学历库 驾照管理库 统一键值存储

LOGO epiC 云盘存储服务 为政府、企业客户提供信息备份、交换服务 支持各种无结构化数据:文本文件、图片、监控录像、表 格数据等 支持海量存储,存储资源由云端按需分配 Page  14 政府、企业客户 云端服务器 epiC 存储云

LOGO epiC 云数据仓库 云数据仓库支持对海量数据的压缩、清理、分片以及各种 复杂的分析查询 既可以和外部业务系统直接交互 也可以和云数据库服务和云键值存储服务交互 Page  15 云数据库服 务 云键值存储 服务 数据压缩模块 云数据仓库 业务数据 分析预测查询数据分片

LOGO epiC epiC 云平台体系结构 Page  16 云数据采集层 云数据代理 云数据知识库 云数据存储层 弹性数据库 服务 弹性键值存 储服务 云盘存储服 务 云数据处理层 并行 SQL 查询 JAVA 编程接口 C++ 编程接口 云数据分析层 决策分析 发展预测 需求分析 商业智能 分析 云数据应用支撑层 云数据访问 接口 云数据可视 化接口 …… LBS 支持 epiC 云平台 云数据仓库 云资源监控 云服务计费 云安全控制 云服务审计 信息平台 监控 es 2 云存储平台 E 3 高性能并行计算框架

LOGO epiC 决策分析 / 需求预测 为了对数据进行有效的分析整理,以产生对商业行为的进一步了解, epiC 集成多种数据挖掘和机器学习工具 聚类: Kmeans, Mean shift, Dirichlet process 分类:决策树, Bayesian 分类器 知识发现:频繁模式挖掘,关联规则挖掘 预测:线性回归,多项式回归 Page  17 商业需求分 析 云引擎处理 数据产生结 果 可视化结果 显示 需求通过 UI 界面和 描述性语言转换为 epiC 能理解的云 并行算法 数据分析结果暂存 在云数据库中 上层调用可视化 界面产生多种分析图

LOGO epiC 决策分析 / 需求预测 (续) 下图展示了对美国佐治亚州房地产市场的预测过程和采用不同预测方 法的结果 Page  18 指数回归方程线性回归方程

LOGO epiC 决策分析 / 需求预测 (续) 下图展示了使用 epiC 对 Facebook 用户 ( 部分)进行 Kmeans 聚类的结 果,用户根据其紧密程度被划分为不同的团体 Page  19

LOGO epiC 商业信息统计 Page  20 epiC 可以支持各种传统数据仓库操作,并且更加高效 数据聚合操作、数据切片、数据清理、数据整合 …… 销量统计 市场占有率

LOGO epiC 商业信息统计(续) Page  21 统计信息通过可视 图表展示给用户, 用户可以根据需求 对结果进行提炼和 再计算 后台云计算引擎启动 并行算法开始新的 数据立方计算,结果 被存储在云数据库中 用户查询被翻译为 对立方的切片,云查 询引擎对已有数据立方 进行二次计算得出相 关结果 业务当天(月)数据 进行整合压缩 导入 epiC 云数据库

LOGO epiC epiC 云平台关键技术 E 3 高性能并行计算引擎 E 3 将数据处理过程描述为一个线性工作流,工作流中每一个节点称为一 个阶段,每阶段包含若干处理单元,每个处理单元对数据进行部分处理。 E 3 按照工作流的顺序,并行地调度处理单元在计算节点上运行,自动在 处理单元之间传递中间运算结果,最终完成整个数据处理过程。 Page  22 pu1 pu2 pu3 pu4 pu5 云数据 存储服务 PU – processing unit (处理单 元)

LOGO epiC E 3 高性能并行计算引擎 对比谷歌 MapReduce 引擎 Page  23 设计思路更加贴 近用户和开发者 更加灵活,不需要坚持 Map->Reduce->…->Map- >Reduce 的过程 根据应用程序需要处理的 数据大小和响应时间,自 动地弹性分配计算资源 更加高效的数据处 理能力 更加自然的表达复 杂的处理逻辑

LOGO epiC epiC 云平台关键技术 数据划分:通过优化的数据分布,可以利用并行处理极大的缩短查询 时间 epiC 独创出混合式数据切分算法 实验表明, epiC 处理典型查询的性能是其他系统的 5-10 倍 Page  24

LOGO epiC epiC 云平台关键技术 数据压缩:数据压缩能够消除 I/O 瓶颈、极大的提升查询 性能 epiC 压缩算法与主流压缩算法的压缩率比较 Page  25

LOGO epiC epiC 云平台关键技术 分布式索引技术 建立分布式二级索引 支持并发地在多节点上同时查询 可以和本地数据库索引连接 Page  26

LOGO epiC epiC 云平台接口支持 编程接口层 SQL 查询接口, 支持应用程序通过标准的 SQL 查询语句访问数据 通用编程语言接口 支持用户使用 Java 或者 C++ 编写可伸缩的弹性应用程序 用户接口层 基于浏览器的管理工具和查询工具 基于客户端的数据访问工具 Page  27

LOGO epiC epiC 云平台接口支持(续) SQL 查询服务: SQL 查询服务支持应用程序通过 SQL 语句访问数据 自动将 SQL 语句编译为 E 3 应用程序,并使用独有的并行连接算法,对数 据进行高效查询 Page  28

LOGO epiC epiC 平台性能测试 MapReduce 是 Google 提出并被广泛应用的并行化处理平台 epiC 采用多种优化方案,如索引和优化的连接算法,使得在处理查询 的时候,更加优于 MapReduce Page  29

LOGO epiC epiC 平台性能测试(续) 在 epiC 中增加节点,可以获得显出的性能提升 从而比普通数据库系统更加高效 Page  30

LOGO epiC epiC 平台性能测试(续) 分布式索引的效能(多维点查询) 基于拓扑结构的分布式索引效率更高 Page  31

LOGO epiC 其他成功应用案例 网易私有云平台 推进企业内数据共享、全局信息挖掘与商业智能 Page  32 虚拟 化 虚拟机、网络、云硬盘 数据 管理 DDB 、对象存储、文件中心、关系数据存储、全文检索、并 行分析、 Timeline 、 NewSQL 、缓存服务 应用 架构 负载均衡 (LVS 、反向代理 ) 、 DNS 、消息队列 扩展 功能 图像处理、文本分析 ( 分词、标 签、分类 ) 、数据挖掘 ( 聚类、关联 规则 ) 、语音处理、 GIS 数据 共享 IP 城市库、乐库、书库 用户 管理 与监 控平 台 管理 员运 维平 台 应用 平滑 迁移 配额 与计 费 硬件 IDC 、服务器、存储、网络 Web App Engine for Java 应用 托管

epiC Group