Cloud Computing Google云计算原理.

Slides:



Advertisements
Similar presentations
办公室保健指南. 减少辐射篇 ❤显示器散发出的辐射多数不是来自它的正面,而是侧面和后面。因此,不要 把自己显示器的后面对着同事的后脑或者身体的侧面。 ❤常喝绿茶。茶叶中含有的茶多酚等活性物质,有助吸收放射性物质。 ❤尽量使用液晶显示器。
Advertisements

EpiC elastic power-aware data intensive Cloud. LOGO epiC 大规模数据处理的难点 Page  2 如何查询处 理海量数据? 如何存储 海量数 据? 如何降低硬件成 本? 如何取得一劳 永逸的解决方案?
魏 饴. 处级干部培训班讲座 一、卓越干部的德行素质  常修为政之德、常思贪欲之害、常怀律己之心!  孔老夫子有个观点 “ 为政以德,譬如北辰居其所而众星拱之。 ”  司马光《资治通鉴》 “ 才者,德之资也;德者,才之帅也。 ” “ 德 ” 胜 “ 才 ” 谓之 “ 君子 ” , “ 才 ”
南區防災教育服務團執行,中區與北區服務團協辦 1 中華民國 104 年 5 月 12 日 星期二.
一、真愛密碼 二、尋求真愛 三、有自尊的愛. 。如果雙方對愛情產生 質疑、困惑時,則表示 彼此之間的愛情關係仍 有 待加強或釐清,千萬別 急著為自己的人生大事 下決定。 我是一個 16 歲的未婚媽媽,發現自 己懷孕時,已經五個月大了,我知 道自己沒能力照顧孩子,在驚訝之 於,大人們只好坦然接受,幫我找.
大地遊戲王 課程實錄.
什麼是「香草植物」? ◎ 香草植物(HERB)的語源來自拉丁語“綠色 的草”之意。 ◎意義:包含香草、香料及藥草三種。
极目古今话短长 ——中国侠的历史文化文化诠释 汪聚应
第5讲 索引构建 Index construction 授课人:高曙明
强力打造湖北农业信息网 全面推进湖北农村信息化
黄金时代 黄金时代:老子,释迦牟尼,苏格拉底,孔子,庄子,耶稣…… 他们是人类智慧的顶峰,他们用人生展示了智慧与慈爱。
加強水銀體溫計稽查管制及回收 回收作業須知及緊急應變措施
第四章 商代之舞蹈 本檔案圖片來源:google圖片.
时间与我们的世界 Pb 段心蕊.
班級:醫管3B 組別:第二組 組員:王品媛、郭雅瑄、謝淑玲、蔡孟蔙
第4章 分錄及日記簿 4-1 借貸法則 4-2 日記簿的格式及記錄方法 4-3 分錄的意義及記錄方法 4-4 常見分錄題型分析
嗇色園主辦可立小學 故宮 製作日期:2011年3月21日.
Word2010的使用 讲解人:常蕊.
精品开放课程的 建设与应用 谢幼如 教授 广东省高校教育技术中心 华南师范大学教育信息技术学院
狂犬病 保護你我,愛護動物 武漢國中 黃憶暄.
高一年级过渡性学习 活动汇报 高一年级组 教科研室 汉滨高中.
迪士尼動畫 玩具總動員1.
第十三屆 Step.1 我們的目標 Step.2 我們的角色 Step.4 權利與義務 義務 權利 年繳會費五百元整
正修科技大學典範人物專訪 寫作徵文比賽實施要點
課程實錄.
云计算突飞猛进.
PB级科研数据集的管理和应用 曙光信息产业(北京)有限公司.
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
财务管理.
共产党员致力 新疆油田信息化建设 数据公司信息业务党支部 2013年6月.
南京大学计算机科学与技术系 主讲人:黄宜华 2011年春季学期
動物的繁殖行為.
5,2 新时代的劳动者.
105年臺北市 優先免試入學 高中職免試入學 五專免試入學 報名方式宣導
行動報告人:丁俊源 行動參與人和單位: 我們全家人 社區鄰居、管委會 新北市環保局
面向海量数据的 高效天文交叉证认的研究 答辩人:赵青 指导老师:孙济洲 教授 天津大学计算机学院
植物保护 课程整体设计 汇报 申报省级精品资源共享课建设 植物保护课程组.
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
劳模的风采.
政府扶持资金通览 技术改造篇.
單車失竊記心得.
一 二 三 四 五 六 七 项目建设总体情况 建设工作机制与举措 项目建设进展 建设经费投入与使用 贡献与示范 典型案例
模块七 信息获取与发布 第8章 计算机网络信息的获取与发布.
寫 作 教 學 6 電腦與我 時代改變,科技進步,電腦成為日常生活不可或缺的設備。我是二十一世紀的E世代少年,一隻滑鼠在手,樂趣無窮。
跨校選課 說明會 主辦人:[國文系學會學權股] 葉軒如、李美玟.
高级软件工程 云计算 主讲:李祥 QQ: 年12月.
本科生医保资料的提交.
云计算之分布式计算.
CHAPTER 6 認識MapReduce.
統計圖表的製作.
《云计算》课件 总结与展望 主讲人:刘鹏 中国电子学会信息系统集成分会.
Homework 1(上交时间:10月14号) 倒排索引.
Cloud Computing Google云计算原理.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
稅知多少.
生涯手冊第18頁 生涯統整面面觀.
《结构力学认知实验》(授课形式)的上课时间改为: 5月5日(周二)晚上18:00~19:30和19:30~21:00,
《结构力学认知实验》(授课形式)的上课时间改为: 5月7日(周四)晚上18:30~20:00和20:00~21:30,
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
香港傳統的農村生活.
基于云计算及数据挖掘技术的海量数据处理研究
稅知多少 國家的重要基礎.
畢業資格審查系統 操作步驟說明.
105學年第1學期期初校務會議 圖書館工作報告 報告人: 林佩佳主任.
第三章 世界文明的蛻變與互動 第一節 歐洲社會的蛻變 第二節 世界文明的交匯 第三節 亞洲大帝國的發展 1.
岗位聘任管理系统使用说明 浙江师范大学人事处 咨询电话: 、
全陽圓格局位置最好的A6-2樓 面中庭花園3房2廳2衛三面採光 捷運藍線江子翠捷運站1號出口Google距離210公尺
學士學位畢業論文說明 逢 學 大 甲 土 理 管 地 2009/10/05.
網路安全技術期末報告- Google伺服器
東吳大學『樂齡大學』 外雙溪環境與生態 產業 黃顯宗 東吳大學 微生物學系 101.
Presentation transcript:

Cloud Computing Google云计算原理

主要内容(6学时) 概念回顾 Google云计算背景 分布式文件系统GFS 并行数据处理模型MapReduce 分布式锁服务Chubby 分布式数据库BigTable Google AppEngine Google云计算技术小结

Google云计算原理 并行数据处理模型MapReduce

并行计算基础 摩尔定律 集成电路芯片上所集成的电路的数目, 每隔18个月就翻一番,同时性能也提升 一倍 集成电路芯片上所集成的电路的数目, 每隔18个月就翻一番,同时性能也提升 一倍 经验总结,12个月-18个月-24个月 Gordon Moore

并行计算基础 “免费的性能大餐”? 免费的午餐已经结束!! Andy giveth, and Bill taketh away 软件算法、数据结构似乎不再重要,因为处理器性能不断 提升 免费的午餐已经结束!! Intel Microsoft

并行计算基础 摩尔定律正在走向终结… 未来的发展:多核 单芯片容纳晶体管的增加,对制造工艺提出要求 CPU制造18nm技术,电子泄漏问题 CPU主频已达3GHz时代,难以继续提高 散热问题(发热太大,且难以驱散) 功耗太高 未来的发展:多核

并行计算基础 在多核时代生存,必须考虑并发问题 不存在解决多核编程问题的银弹, 不存在可以简单地将并发编程问题化 解掉的工具, 开发高性能的并行程序 必须要求开发者从根本上改变其编程 方法 从某种意义上来说,这不仅仅是要改 变50年来顺序程序设计的工艺传统, 而且是要改变数百万年来人类顺序化思考问题的习 惯 Herb Sutter

并行计算基础 串行编程 并行编程 早期的计算里,程序一般是被串行执行的 程序是指令的序列,在单处理器的机器里,程序从开始 到结束,这些指令一条接一条的执行 并行编程 一道处理可以被划分为几部分,然后它们可以并发地执行 各部分的指令分别在不同的CPU上同时运行,这些CPU 可以存在于单台机器中,也可以存在于多台机器上,它们 通过连接起来共同运作

并行计算基础 什么样的问题适合并行计算? 斐波那契序列(Fibonacci)的计算?

并行计算基础 什么样的问题适合并行计算? 如果有大量结构一致的数据要处理,且数据可以分解成 相同大小的部分, 那我们就可以设法使这道处理变成并 行

并行计算基础 并行计算模式 Master Worker 并行计算与分布式计算有何联系与区别?

分析搜索趋势(Google Trends) 为什么需要MapReduce? Google拥有海量数据,并且需要快速处理 Google 全球Web数据 邮件数据 地图数据 卫星照片 …… 对爬虫获取的网页进行倒排索引 计算网站的PageRank 分析搜索趋势(Google Trends) 计算网页的访问量 …… “Greatness is never a given, it Must be earned.” 美国总统奥巴马

为什么需要MapReduce? 简单的问题,计算并不简单! 计算问题简单,但求解困难 待处理数据量巨大(PB级),只有分布在成百上千个节点 上并行计算才能在可接受的时间内完成 如何进行并行分布式计算? 如何分发待处理数据? 如何处理分布式计算中的错误? 简单的问题,计算并不简单!

为什么需要MapReduce? Jeffery Dean设计一个新的抽象模型, 使我们只要执行的简单计算,而将并行化、容错、数据分布、负载均衡的等杂乱细节放在一个库里,使并行编程时不必关心它们 这就是MapReduce Google MapReduce 架构设计师 Jeffrey Dean

MapReduce 一个软件架构,是一种处理海量数据的并行编程模 式 用于大规模数据集(通常大于1TB)的并行运算 MapReduce实现了Map和Reduce两个功能 Map把一个函数应用于集合中的所有成员,然后返回一个 基于这个处理的结果集 Reduce对结果集进行分类和归纳 Map()和 Reduce() 两个函数可能会并行运行,即使不是 在同一的系统的同一时刻

MapReduce示例:单词计数 案例:单词记数问题(Word Count) 给定一个巨大的文本(如1TB),如何计算单词出现的数 目?

MapReduce示例:单词计数 使用MapReduce求解该问题 定义Map和Reduce函数

MapReduce示例:单词计数 使用MapReduce求解该问题 Step 1: 自动对文本进行分割

MapReduce示例:单词计数 使用MapReduce求解该问题 Step 2:在分割之后的每一对<key,value>进行用户定义 的Map进行处理,再生成新的<key,value>对

MapReduce示例:单词计数 使用MapReduce求解该问题 Step 3:对输出的结果集归拢、排序(系统自动完成)

MapReduce示例:单词计数 使用MapReduce求解该问题 Step 4:通过Reduce操作生成最后结果

Google MapReduce执行流程 1、处理流程 2、分片方式

文件存储位置 源文件:GFS Map处理结果:本地存储 Reduce处理结果:GFS 日志:GFS

Google MapReduce计算架构有什么问题? 思考 Google MapReduce计算架构有什么问题?

MapReduce的容错 Worker故障 Master故障 Master 周期性的ping每个worker。如果master在一 个确定的时间段内没有收到worker返回的信息,那么它 将把这个worker标记成失效 重新执行该节点上已经执行或尚未执行的Map任务 重新执行该节点上未完成的Reduce任务,已完成的不 再执行 Master故障 定期写入检查点数据 从检查点恢复

MapReduce的优化 任务备份机制 慢的workers 会严重地拖延整个执行完成的时间 由于其他的任务占用了资源 磁盘损坏 解决方案: 在临近结束的时候,启动多个进程来执行尚未 完成的任务 谁先完成,就算谁 可以十分显著地提高执行效率

MapReduce的优化 本地处理 Master 调度策略: 效果 向GFS询问获得输入文件blocks副本的位置信息 Map tasks 的输入数据通常按 64MB来划分 (GFS block 大小) 按照blocks所在的机器或机器所在机架的范围 进行调度 效果 绝大部分机器从本地读取文件作为输入,节省大量带宽

MapReduce的优化 跳过有问题的记录 一些特定的输入数据常导致Map/Reduce无法运行 最好的解决方法是调试或者修改 不一定可行~ 可能需要第三方库或源码 在每个worker里运行一个信号处理程序,捕获map或 reduce任务崩溃时发出的信号,一旦捕获,就会向master 报告,同时报告输入记录的编号信息。如果master看到一 条记录有两次崩溃信息,那么就会对该记录进行标记,下 次运行的时候,跳过该记录

“实践是检验真理的唯一标准” 实践证明,MapReduce是出色的分布式计算模型 Google宣布,其对分布于1000台计算机上的1TB数据进 行排序仅仅需要68s 对4000台计算机上的1PB数据进行排序处理仅需要6小时 2分钟(每次测试至少会损坏1块硬盘) 在08年1月份,Google MapReduce平均每天的数据处理 量是20PB,相当于美国国会图书馆当年5月份存档网络数 据的240倍

课程小结 “免费的午餐”已经结束 并行思维 MapReduce 并行分布式数据处理框架 屏蔽各种并行分布式计算的难题

如何使用MapReduce实现海量数据的并行分布式排序? 云计算应用实践 如何使用MapReduce实现海量数据的并行分布式排序?

讨论 云计算有没有什么问题?