云计算之分布式计算.

Slides:



Advertisements
Similar presentations
办公室保健指南. 减少辐射篇 ❤显示器散发出的辐射多数不是来自它的正面,而是侧面和后面。因此,不要 把自己显示器的后面对着同事的后脑或者身体的侧面。 ❤常喝绿茶。茶叶中含有的茶多酚等活性物质,有助吸收放射性物质。 ❤尽量使用液晶显示器。
Advertisements

第十六週:個資外洩與資訊安全 國 立 高 雄 餐 旅 學 院 餐飲管理系 副教授 劉聰仁博士 編撰.
大数据基础技术和应用. 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用 我们处于数据爆炸的时代 数据库 文字记录 照片 线下数据信息化 网页数据 用户行为记录 数字图像 互联网 - 移动互联网 设备监控 智能家居 摄像头 传感器 地球上至今总共的数据量: 在 2006 年,个人用户才刚刚迈.
EpiC elastic power-aware data intensive Cloud. LOGO epiC 大规模数据处理的难点 Page  2 如何查询处 理海量数据? 如何存储 海量数 据? 如何降低硬件成 本? 如何取得一劳 永逸的解决方案?
魏 饴. 处级干部培训班讲座 一、卓越干部的德行素质  常修为政之德、常思贪欲之害、常怀律己之心!  孔老夫子有个观点 “ 为政以德,譬如北辰居其所而众星拱之。 ”  司马光《资治通鉴》 “ 才者,德之资也;德者,才之帅也。 ” “ 德 ” 胜 “ 才 ” 谓之 “ 君子 ” , “ 才 ”
一、真愛密碼 二、尋求真愛 三、有自尊的愛. 。如果雙方對愛情產生 質疑、困惑時,則表示 彼此之間的愛情關係仍 有 待加強或釐清,千萬別 急著為自己的人生大事 下決定。 我是一個 16 歲的未婚媽媽,發現自 己懷孕時,已經五個月大了,我知 道自己沒能力照顧孩子,在驚訝之 於,大人們只好坦然接受,幫我找.
大地遊戲王 課程實錄.
第5讲 索引构建 Index construction 授课人:高曙明
中华字库的云输入法 王勇 基础软件国家工程研究中心
電子商務:數位時代商機‧梁定澎總編輯‧前程文化 出版
加強水銀體溫計稽查管制及回收 回收作業須知及緊急應變措施
大數據的學習路線 目前做不到的:機率性太高的(博奕) 大數據的核心:預測 預測來自於:分析及樣本 樣本的產生及收集 樣本的儲存 樣本的處理
班級:醫管3B 組別:第二組 組員:王品媛、郭雅瑄、謝淑玲、蔡孟蔙
第4章 分錄及日記簿 4-1 借貸法則 4-2 日記簿的格式及記錄方法 4-3 分錄的意義及記錄方法 4-4 常見分錄題型分析
第八讲 基于Hadoop的数据仓库Hive (PPT版本号:2016年4月6日版本)
“大云”大数据平台及应用 中国移动通信研究院 郭磊涛 2013年11月.
第十三屆 Step.1 我們的目標 Step.2 我們的角色 Step.4 權利與義務 義務 權利 年繳會費五百元整
服务民生 打造诚信 构建和谐 全国中小企业融资交易中心系统 报告人: 中国科学院研究生院 研究员 崔福 建设诚信中国 实现民族复兴
E-Mapreduce培训系列 基本介绍.
5.5可行性分析 可行性分析的概念 策略可行性分析 操作可行性分析 回报可行性分析.
云计算突飞猛进.
PB级科研数据集的管理和应用 曙光信息产业(北京)有限公司.
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
财务管理.
死與生的自我掌握.
云计算业务应用-数据挖掘.
南京大学计算机科学与技术系 主讲人:黄宜华 2011年春季学期
巨量資料平台: Hadoop的生態系.
11.3 国产大数据库技术 阿里巴巴OceanBase 云创存储数据立方(DataCube)
面向海量数据的 高效天文交叉证认的研究 答辩人:赵青 指导老师:孙济洲 教授 天津大学计算机学院
植物保护 课程整体设计 汇报 申报省级精品资源共享课建设 植物保护课程组.
第11章 海量信息存储 主讲:刘方明 副教授 华中科技大学计算机学院
云梯的多namenode和跨机房之路
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
Project Description.
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
大数据革命与大众生活变革 黄欣荣 博士 教授 江西财经大学 马克思主义学院
为教师开展大数据课程教学提供全方位、一站式服务
基于hadoop的数据仓库技术.
政府扶持资金通览 技术改造篇.
分布式系统中的关键概念及Hadoop的起源、架构、搭建
第2章 大数据处理架构Hadoop (PPT版本号:2017年2月版本)
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
基于Hadoop的数据仓库Hive.
第九讲 Hadoop架构再探讨 (2016春季学期)
CHAPTER 6 認識MapReduce.
Spark在智慧图书馆建设中的应用探索 2017年12月22日.
开源云计算系统简介 电子工业出版社 刘鹏主编《云计算》教材配套课件11.
Hadoop平台與應用規劃實作 報告者:劉育維.
从TDW-Hive到TDW-SparkSQL
《大数据技术原理与应用》 第十二讲 图计算 (2016春季学期)
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
Homework 1(上交时间:10月14号) 倒排索引.
注射机螺杆设计的工艺学 和流变学基础 刘 颖 北京化工大学 2007年4月
软件工程基础 云计算概论 刘 驰.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
大数据与物流 沈庆琼 物流教研室.
斯坦福大学调研 蒋达晟.
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
Hadoop入门
生涯手冊第18頁 生涯統整面面觀.
Facebook 内部高效工作指南
校园之路.
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
基于云计算及数据挖掘技术的海量数据处理研究
畢業資格審查系統 操作步驟說明.
Cloud Computing Google云计算原理.
網路安全技術期末報告- Google伺服器
東吳大學『樂齡大學』 外雙溪環境與生態 產業 黃顯宗 東吳大學 微生物學系 101.
大数据发展的问题与方向 中国信通院云大所.
Presentation transcript:

云计算之分布式计算

内容 背景 分布式计算 批量计算(非实时计算) 实时计算 技术趋势

内容 背景 分布式计算 批量计算(非实时计算) 实时计算 技术趋势

大数据时代 移动互联网时代 物联网 互联网 移动互联网 信息时代 早期:Google 现在:Facebook 未来:??

2009年加州大学研究报告《多少信息?》 大数据时代 34GB:2008年每个美国人每天平均信息消费 12TB: 2008年每个美国人平均年信息消费总量 3.6ZB:2008年美国人年信息消费总量

2011年IDC研究报告《 Extracting Value from Chaos 》 大数据时代 2011年IDC研究报告《 Extracting Value from Chaos 》 1.8ZB:2011年全球被创建和被复制的数据总量 50%:数据年增长率 2年:数据量翻番

大数据时代 2012年《纽约时报》称“大数据时代”已经降临,决策行为将日益基于数据和分析而作出,而并非基于经验和直觉。这不是简单的数据增多的问题,而是全新的问题。

分布式环境

内容 背景 分布式计算 批量计算(非实时计算) 实时计算 技术趋势

Google 批量处理 增量处理(准实时计算) MapReduce:海量数据离线计算框架 Pregel:迭代计算框架 Percolator:数据增量更新系统 Dremel:数据分析系统 Tenzing:SQL查询引擎

Google & Apache Google Apache 文件系统 GFS HDFS 分布式数据库 BigTable HBase 批量计算框架 MapReduce 迭代计算框架 Pregel Hama SQL查询引擎 Tenzing Hive

查询引擎:Tenzing/Hive 计算框架:MapReduce/ Pregel/Hama 数据管理:BigTable/HBase Google & Apache 查询引擎:Tenzing/Hive 计算框架:MapReduce/ Pregel/Hama 数据管理:BigTable/HBase 数据存储:GFS/HDFS

离线计算——Google 数据: PB量级 应用:数以百计 爬虫文档 Web日志 倒排索引 问题 计算并行 数据分发 错误处理

离线计算——Google 2003年Google提出MapReduce批量计算框架 抽象模型 Map Reduce 用户只需要考虑如何对数据进行逻辑处理,而不需要考虑以下细节: 并行化 容错 数据分布 负载均衡

MapReduce工作流程 统计天气预报中每个字出现的次数 Master Slave Slave Slave 昨天 小雨转多云 今天 多云转阵雨 明天 小雨转中雨

MapReduce工作流程 Master Map计算 处理昨天的 处理今天的 处理明天的 Slave Slave Slave 小 1 雨 1 小 1 雨 1 转 1 多 1 云 1 多 1 云 1 转 1 阵 1 雨 1 小 1 雨 2 转 1 中 1 昨天 小雨转多云 今天 多云转阵雨 明天 小雨转中雨

MapReduce工作流程 Master Reduce计算划分 统计“小” “中”“多” 统计“雨” “云” 统计“转” “阵” Slave 小 1 雨 1 转 1 多 1 云 1 多 1 云 1 转 1 阵 1 雨 1 小 1 雨 2 转 1 中 1

MapReduce工作流程 Master Reduce数据传输 多 1 小 1 中 1 雨 2 转 1 阵 1 小 1 多 1 雨 1 多 1 小 1 中 1 雨 2 转 1 阵 1 小 1 多 1 雨 1 云 1 转 1 云 1 雨 1 Slave 转 1 Slave Slave 雨 1 云 1 多 1 雨 2 转 1 阵 1 小 1 中 1 转 1

MapReduce工作流程 Master 任务完成 Reduce计算 统计任务 完成 统计任务 完成 统计任务 完成 Slave Slave 小 1,1 多 1,1 中 1 小 2 多 2 中 1 云 1,1 雨 1,1,2 云 2 雨 4 转 1,1,1 阵 1 转 3 阵 1

并行定理 Amdahl’s Law: 对于工作量为1的问题,若子问题的最大工作量为f,那么并行加速比不超过1/f。 洗开水壶 (1分钟) 洗茶壶 (3分钟) 拿茶叶 (2分钟) 泡茶 (2分钟) 烧开水 (15分钟) 洗茶杯 (2分钟)

并行定理 Amdahl’s Law: 对于工作量为1的问题,若子问题的最大工作量为f,那么并行加速比不超过1/f。 1+15+2=18分钟 洗开水壶 (1分钟) 烧开水 (15分钟) 洗茶壶 (3分钟) 泡茶 (2分钟) 洗茶杯 (2分钟) 1+15+2=18分钟 拿茶叶 (2分钟)

并行定理 Gustafson’s Law: 解决问题的时间是存在界限的,但是在这个时间内可以通过增加处理单元处理多个同类问题,加速比与处理器数目近似线性关系.

技术分析 Perfect:搜索类80%的计算 缺点:处理有向图模型的算法效率很低 有向无环图 迭代模型 执行2 执行1 执行4 执行3

迭代计算——Google 迭代计算 PageRank计算 图遍历 最短路径

2010年Google推出Pregel迭代计算框架 BSP模型 显示同步模型 SuperStep 计算与通讯分离

Pregel工作流程 Node1 Node4 Node3 6 1 9 Node5 Node2 5 3 Node7 Node6 4 6

Pregel工作流程 选取图中权值最大的节点作leader Master Slave Slave Slave

Pregel工作流程 N4 N3 N1 9 Step0:计算 1 6 3 N2 4 5 N6 N7 6 N5 Master 处理Node1,2,3 N6 N7 6 N5 处理Node4,5 处理Node6,7 Slave Slave Slave Node1:[6] (4,5,7) Node2:[3] (3,6) Node3:[9] (2,4) Node4:[1] (1,3,5) Node5:[5] (1,4,6,7) Node6:[6] (2,5) Node7:[4] (1,5)

Pregel工作流程 N4 N3 N1 9 Step0:通信 1 6 3 N2 4 5 N6 N7 6 N5 Master Node2:9 (4,5,7) Node2:[3] (3,6) Node3:[9] (2,4)

Pregel工作流程 N4 N3 N1 9 Step0:通信 1 6 3 N2 4 5 N6 N7 6 N5 Master Node4:5 (1,3,5) Node5:[5] (1,4,6,7)

Pregel工作流程 N4 N3 N1 9 Step0:通信 1 6 3 N2 4 5 N6 N7 6 N5 Master Node1:4 (2,5) Node7:[4] (1,5)

Pregel工作流程 N4 N3 N1 9 Step1:计算 1 6 3 N2 4 5 N6 N7 6 N5 Master Node1:1,4,5 Node2:6,9 Node3:1,3 Node4:5,6,9 Node5:1,4,6,6 Node6:3,5 Node7:5,6 Node1:[6] (4,5,7) Node2:[3] (3,6) Node3:[9] (2,4) Node4:[1] (1,3,5) Node5:[5] (1,4,6,7) Node6:[6] (2,5) Node7:[4] (1,5)

Pregel工作流程 N4 N3 N1 9 Step1:计算 1 6 3 N2 4 5 N6 N7 6 N5 Master Node1:1,4,5 Node2:6,9 Node3:1,3 Node4:5,6,9 Node5:1,4,6,6 Node6:3,5 Node7:5,6 Node1:[6] (4,5,7) Node2:[9] (3,6) Node3:[9] (2,4) Node4:[9] (1,3,5) Node5:[6] (1,4,6,7) Node6:[6] (2,5) Node7:[6] (1,5)

Pregel工作流程 N4 N3 N1 9 Step1:通信 1 6 3 N2 4 5 N6 N7 6 N5 Master Node3:9 (4,5,7) Node2:[9] (3,6) Node3:[9] (2,4) Node4:[9] (1,3,5) Node5:[6] (1,4,6,7) Node6:[6] (2,5) Node7:[6] (1,5)

Pregel工作流程 N4 N3 N1 9 Step1:通信 1 6 3 N2 4 5 N6 N7 6 N5 Master Node4:6 (4,5,7) Node2:[9] (3,6) Node3:[9] (2,4) Node4:[9] (1,3,5) Node5:[6] (1,4,6,7) Node6:[6] (2,5) Node7:[6] (1,5)

Pregel工作流程 N4 N3 N1 9 Step1:通信 1 6 3 N2 4 5 N6 N7 6 N5 Master Node1:6 (4,5,7) Node2:[9] (3,6) Node3:[9] (2,4) Node4:[9] (1,3,5) Node5:[6] (1,4,6,7) Node6:[6] (2,5) Node7:[6] (1,5)

Pregel工作流程 N4 N3 N1 9 Step2:计算 1 6 3 N2 4 5 N6 N7 6 N5 Master Node1:6,6,9 Node3:9,9 Node4:6 Node5:6,9 Node6:6,9 Node7:6 Node1:[6] (4,5,7) Node2:[9] (3,6) Node3:[9] (2,4) Node4:[9] (1,3,5) Node5:[6] (1,4,6,7) Node6:[6] (2,5) Node7:[6] (1,5)

Pregel工作流程 N4 N3 N1 9 Step2:计算 1 6 3 N2 4 5 N6 N7 6 N5 Master Node1:6,6,9 Node3:9,9 Node4:6 Node5:6,9 Node6:6,9 Node7:6 Node1:[9] (4,5,7) Node2:[9] (3,6) Node3:[9] (2,4) Node4:[9] (1,3,5) Node5:[9] (1,4,6,7) Node6:[9] (2,5) Node7:[6] (1,5)

Pregel工作流程 N4 N3 N1 9 Step2:通信 1 6 3 N2 4 5 N6 N7 6 N5 Master Node7:9 (4,5,7) Node2:[9] (3,6) Node3:[9] (2,4) Node4:[9] (1,3,5) Node5:[9] (1,4,6,7) Node6:[9] (2,5) Node7:[6] (1,5)

Pregel工作流程 N4 N3 N1 9 Step2:通信 1 6 3 N2 4 5 N6 N7 6 N5 Master Node4:9 (4,5,7) Node2:[9] (3,6) Node3:[9] (2,4) Node4:[9] (1,3,5) Node5:[9] (1,4,6,7) Node6:[9] (2,5) Node7:[6] (1,5)

Pregel工作流程 N4 N3 N1 9 Step2:通信 1 6 3 N2 4 5 N6 N7 6 N5 Master Node2:9 (4,5,7) Node2:[9] (3,6) Node3:[9] (2,4) Node4:[9] (1,3,5) Node5:[9] (1,4,6,7) Node6:[9] (2,5) Node7:[6] (1,5)

Pregel工作流程 N4 N3 N1 9 Step3:计算 1 6 3 N2 4 5 N6 N7 6 N5 Master Node1:9 (4,5,7) Node2:[9] (3,6) Node3:[9] (2,4) Node4:[9] (1,3,5) Node5:[9] (1,4,6,7) Node6:[9] (2,5) Node7:[6] (1,5)

Pregel工作流程 N4 N3 N1 9 Step3:计算 1 6 3 N2 4 5 N6 N7 6 N5 Master Node1:9 (4,5,7) Node2:[9] (3,6) Node3:[9] (2,4) Node4:[9] (1,3,5) Node5:[9] (1,4,6,7) Node6:[9] (2,5) Node7:[9] (1,5)

Pregel工作流程 N4 N3 N1 9 Step3:通信 1 6 3 N2 4 5 N6 N7 6 N5 Master Node1:9 (4,5,7) Node2:[9] (3,6) Node3:[9] (2,4) Node4:[9] (1,3,5) Node5:[9] (1,4,6,7) Node6:[9] (2,5) Node7:[9] (1,5)

Pregel工作流程 N4 N3 N1 9 Step4:计算 1 6 3 N2 4 5 N6 N7 6 N5 Master Node1:9 (4,5,7) Node2:[9] (3,6) Node3:[9] (2,4) Node4:[9] (1,3,5) Node5:[9] (1,4,6,7) Node6:[9] (2,5) Node7:[9] (1,5)

Pregel工作流程 N4 N3 N1 9 Step4:通信 1 6 3 N2 4 5 N6 N7 6 N5 Master Node1:[9] (4,5,7) Node2:[9] (3,6) Node3:[9] (2,4) Node4:[9] (1,3,5) Node5:[9] (1,4,6,7) Node6:[9] (2,5) Node7:[9] (1,5)

Pregel工作流程 计算结束 Master 任务完成 Node1:[9] (4,5,7) Node2:[9] (3,6) (2,4) Node4:[9] (1,3,5) Node5:[9] (1,4,6,7) Node6:[9] (2,5) Node7:[9] (1,5)

算法的有向无环图(DAG)模型 技术分析 T1 T5 T2 T7 T3 T6 T4 T1.a1 = T2.b1 T5.e1 = T6.f1 T3.c1 = T4.d1 T6 T4

微软Dryad Dryad:DAG模型计算平台 2009年公布学术版 2010年公测 2011年放弃,转投Hadoop

Dryad工作流程 (T1 join T2) join (T3 join T4) Master Slave Slave Slave

Dryad工作流程 Master 处理T1 join T2 处理T1 join T2 处理T3 join T4 Slave Slave 数据传输 数据传输

Dryad工作流程 Master 处理T5 join T6 处理T5 join T6 处理T5 join T6 Slave Slave 数据传输 数据传输

Dryad工作流程 Master 任务完成 Slave Slave Slave

总结 3类模型 简单模型:MapReduce 迭代模型:Pregel DAG模型:Dryad

内容 背景 分布式计算 批量计算(非实时计算) 实时计算 技术趋势

SQL查询引擎:借鉴于Hive Google——Tenzing 反应时间:~秒 编译:MR执行计划 优化:MR框架 工作过程:同MR 查询引擎:Tenzing/Hive 计算框架:MapReduce/ Pregel/Hama 数据管理:BigTable/HBase 数据存储:GFS/HDFS

编程模型:DAG模型(topology) FaceBook——Storm 实时计算系统 分布式的 容错 编程模型:DAG模型(topology) 点:bolt 边:stream

Storm工作流程 Master 书籍推荐 topology Slave Slave Slave

Storm工作流程 Master 解析用户行为bolt1 处理用户行为bolt2 处理用户行为bolt3

Storm工作流程 Master 发生异常行为 输出 输入 发生书籍购买 Bolt1 Bolt2 用户行为解析 Bolt3 书籍购买处理 异常行为处理

Storm工作流程 Master A买了一本《C++编程入门》 Bolt1 用户行为解析 Bolt2 书籍购买处理 Bolt3 异常行为处理

Storm工作流程 Master 《C++编程入门》 Bolt1 用户行为解析 Bolt2 书籍购买处理 Bolt3 异常行为处理

Storm工作流程 Master Bolt1 用户行为解析 Bolt2 找到跟《C++编程入门》相关的书籍《C++编程实例》 Bolt3 异常行为处理

Storm工作流程 Master 《C++编程实例》 Bolt1 用户行为解析 Bolt2 书籍购买处理 Bolt3 异常行为处理

Storm工作流程 Master A又买了一本《C++编程入门》 Bolt1 Bolt2 用户行为解析 Bolt3 书籍购买处理 异常行为处理

Storm工作流程 Master 是不是买错了? Bolt1 用户行为解析 Bolt2 书籍购买处理 Bolt3 异常行为处理

Yahoo——S4 P2P实时计算系统 分布式的 编程模型:DAG模型 点:PE 边:XML配置文件

S4工作流程 解析用户行为bolt1 处理用户行为bolt2 处理用户行为bolt3

S4工作流程 发生异常行为 输出 输入 发生书籍购买 Bolt1 用户行为解析 Bolt2 书籍购买处理 Bolt3 异常行为处理

总结 分布式流计算刚刚起步 模型相似:DAG 细节存在差异:配置、通信

内容 背景 分布式计算 批量计算(非实时计算) 实时计算 技术趋势

大数据时代才刚刚开始 数据=价值 Google已经先行一步 群雄逐鹿 互联网、移动互联网、物联网 企业云、私有云、公有云 数据的价值随着时间的流逝而降低 Google已经先行一步

胜者为王 趋势 模型: DAG 应用:简洁 效率:高 功能:强大