Cloud Computing Google云计算原理.

Slides:

Advertisements

Similar presentations

办公室保健指南. 减少辐射篇 ❤显示器散发出的辐射多数不是来自它的正面，而是侧面和后面。因此，不要把自己显示器的后面对着同事的后脑或者身体的侧面。 ❤常喝绿茶。茶叶中含有的茶多酚等活性物质，有助吸收放射性物质。 ❤尽量使用液晶显示器。

Advertisements

EpiC elastic power-aware data intensive Cloud. LOGO epiC 大规模数据处理的难点 Page  2 如何查询处理海量数据？如何存储海量数据？如何降低硬件成本？如何取得一劳永逸的解决方案？

魏饴. 处级干部培训班讲座一、卓越干部的德行素质  常修为政之德、常思贪欲之害、常怀律己之心！  孔老夫子有个观点 “ 为政以德，譬如北辰居其所而众星拱之。 ”  司马光《资治通鉴》 “ 才者，德之资也；德者，才之帅也。 ” “ 德 ” 胜 “ 才 ” 谓之 “ 君子 ” ， “ 才 ”

南區防災教育服務團執行，中區與北區服務團協辦 1 中華民國 104 年 5 月 12 日星期二.

一、真愛密碼二、尋求真愛三、有自尊的愛. 。如果雙方對愛情產生質疑、困惑時，則表示彼此之間的愛情關係仍有待加強或釐清，千萬別急著為自己的人生大事下決定。我是一個 16 歲的未婚媽媽，發現自己懷孕時，已經五個月大了，我知道自己沒能力照顧孩子，在驚訝之於，大人們只好坦然接受，幫我找.

大地遊戲王課程實錄.

什麼是「香草植物」？ ◎ 香草植物（HERB）的語源來自拉丁語“綠色的草”之意。 ◎意義：包含香草、香料及藥草三種。

极目古今话短长 ——中国侠的历史文化文化诠释汪聚应

第5讲索引构建 Index construction 授课人：高曙明

强力打造湖北农业信息网全面推进湖北农村信息化

黄金时代黄金时代：老子，释迦牟尼，苏格拉底，孔子，庄子，耶稣…… 他们是人类智慧的顶峰，他们用人生展示了智慧与慈爱。

加強水銀體溫計稽查管制及回收 回收作業須知及緊急應變措施

第四章商代之舞蹈本檔案圖片來源：google圖片.

时间与我们的世界 Pb 段心蕊.

班級：醫管3B 組別：第二組組員：王品媛、郭雅瑄、謝淑玲、蔡孟蔙

第4章分錄及日記簿 4-1 借貸法則 4-2 日記簿的格式及記錄方法 4-3 分錄的意義及記錄方法 4-4 常見分錄題型分析

嗇色園主辦可立小學故宮製作日期:2011年3月21日.

Word2010的使用讲解人:常蕊.

精品开放课程的建设与应用谢幼如教授广东省高校教育技术中心华南师范大学教育信息技术学院

狂犬病保護你我，愛護動物武漢國中黃憶暄.

高一年级过渡性学习活动汇报高一年级组教科研室汉滨高中.

迪士尼動畫玩具總動員1.

第十三屆 Step.1 我們的目標 Step.2 我們的角色 Step.4 權利與義務義務權利年繳會費五百元整

正修科技大學典範人物專訪寫作徵文比賽實施要點

云计算突飞猛进.

PB级科研数据集的管理和应用曙光信息产业（北京）有限公司.

云计算学习报告报告人: 陈霁大规模数据处理软件Apache Hadoop.

共产党员致力新疆油田信息化建设数据公司信息业务党支部 2013年6月.

南京大学计算机科学与技术系主讲人：黄宜华 2011年春季学期

動物的繁殖行為.

5,2 新时代的劳动者.

105年臺北市優先免試入學高中職免試入學五專免試入學報名方式宣導

行動報告人:丁俊源行動參與人和單位: 我們全家人社區鄰居、管委會新北市環保局

面向海量数据的高效天文交叉证认的研究答辩人：赵青指导老师：孙济洲教授天津大学计算机学院

植物保护课程整体设计汇报申报省级精品资源共享课建设植物保护课程组.

数据采集与Hadoop框架报告人：黄文君导师：王华忠 BEA Confidential.

劳模的风采.

政府扶持资金通览技术改造篇.

單車失竊記心得.

一二三四五六七项目建设总体情况建设工作机制与举措项目建设进展建设经费投入与使用贡献与示范典型案例

模块七信息获取与发布第8章计算机网络信息的获取与发布.

寫作教學 6 電腦與我時代改變，科技進步，電腦成為日常生活不可或缺的設備。我是二十一世紀的Ｅ世代少年，一隻滑鼠在手，樂趣無窮。

跨校選課說明會主辦人：[國文系學會學權股] 葉軒如、李美玟.

高级软件工程云计算主讲：李祥 QQ: 年12月.

本科生医保资料的提交.

云计算之分布式计算.

CHAPTER 6 認識MapReduce.

統計圖表的製作.

《云计算》课件总结与展望主讲人：刘鹏中国电子学会信息系统集成分会.

Homework 1(上交时间：10月14号) 倒排索引.

Cloud Computing Google云计算原理.

大数据介绍及应用案例分享 2016年7月华信咨询设计研究院有限公司.

生涯手冊第18頁生涯統整面面觀.

《结构力学认知实验》(授课形式)的上课时间改为： 5月5日（周二）晚上18:00~19:30和19:30~21:00，

《结构力学认知实验》(授课形式)的上课时间改为： 5月7日（周四）晚上18:30~20:00和20:00~21:30，

Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian

香港傳統的農村生活.

基于云计算及数据挖掘技术的海量数据处理研究

稅知多少國家的重要基礎.

畢業資格審查系統操作步驟說明.

105學年第1學期期初校務會議圖書館工作報告報告人: 林佩佳主任.

第三章世界文明的蛻變與互動第一節歐洲社會的蛻變第二節世界文明的交匯第三節亞洲大帝國的發展 1.

岗位聘任管理系统使用说明浙江师范大学人事处咨询电话：、

全陽圓格局位置最好的A6-2樓面中庭花園3房2廳2衛三面採光捷運藍線江子翠捷運站1號出口Google距離210公尺

學士學位畢業論文說明逢學大甲土理管地 2009/10/05.

網路安全技術期末報告- Google伺服器

東吳大學『樂齡大學』外雙溪環境與生態產業黃顯宗東吳大學微生物學系 101.

Presentation transcript:

Cloud Computing Google云计算原理

主要内容（6学时）概念回顾 Google云计算背景分布式文件系统GFS 并行数据处理模型MapReduce 分布式锁服务Chubby 分布式数据库BigTable Google AppEngine Google云计算技术小结

Google云计算原理并行数据处理模型MapReduce

并行计算基础摩尔定律集成电路芯片上所集成的电路的数目，每隔18个月就翻一番，同时性能也提升一倍集成电路芯片上所集成的电路的数目，每隔18个月就翻一番，同时性能也提升一倍经验总结，12个月-18个月-24个月 Gordon Moore

并行计算基础 “免费的性能大餐”？免费的午餐已经结束！！ Andy giveth, and Bill taketh away 软件算法、数据结构似乎不再重要，因为处理器性能不断提升免费的午餐已经结束！！ Intel Microsoft

并行计算基础摩尔定律正在走向终结… 未来的发展：多核单芯片容纳晶体管的增加，对制造工艺提出要求 CPU制造18nm技术，电子泄漏问题 CPU主频已达3GHz时代，难以继续提高散热问题（发热太大，且难以驱散）功耗太高未来的发展：多核

并行计算基础在多核时代生存，必须考虑并发问题不存在解决多核编程问题的银弹，不存在可以简单地将并发编程问题化解掉的工具，开发高性能的并行程序必须要求开发者从根本上改变其编程方法从某种意义上来说，这不仅仅是要改变50年来顺序程序设计的工艺传统，而且是要改变数百万年来人类顺序化思考问题的习惯 Herb Sutter

并行计算基础串行编程并行编程早期的计算里，程序一般是被串行执行的程序是指令的序列，在单处理器的机器里，程序从开始到结束，这些指令一条接一条的执行并行编程一道处理可以被划分为几部分,然后它们可以并发地执行各部分的指令分别在不同的CPU上同时运行，这些CPU 可以存在于单台机器中,也可以存在于多台机器上,它们通过连接起来共同运作

并行计算基础什么样的问题适合并行计算？斐波那契序列(Fibonacci)的计算？

并行计算基础什么样的问题适合并行计算？如果有大量结构一致的数据要处理，且数据可以分解成相同大小的部分，那我们就可以设法使这道处理变成并行

并行计算基础并行计算模式 Master Worker 并行计算与分布式计算有何联系与区别？

分析搜索趋势(Google Trends) 为什么需要MapReduce？ Google拥有海量数据，并且需要快速处理 Google 全球Web数据邮件数据地图数据卫星照片 …… 对爬虫获取的网页进行倒排索引计算网站的PageRank 分析搜索趋势(Google Trends) 计算网页的访问量 …… “Greatness is never a given, it Must be earned.” 美国总统奥巴马

为什么需要MapReduce？简单的问题，计算并不简单！计算问题简单，但求解困难待处理数据量巨大（PB级），只有分布在成百上千个节点上并行计算才能在可接受的时间内完成如何进行并行分布式计算？如何分发待处理数据？如何处理分布式计算中的错误？简单的问题，计算并不简单！

为什么需要MapReduce？ Jeffery Dean设计一个新的抽象模型，使我们只要执行的简单计算，而将并行化、容错、数据分布、负载均衡的等杂乱细节放在一个库里，使并行编程时不必关心它们这就是MapReduce Google MapReduce 架构设计师 Jeffrey Dean

MapReduce 一个软件架构，是一种处理海量数据的并行编程模式用于大规模数据集（通常大于1TB）的并行运算 MapReduce实现了Map和Reduce两个功能 Map把一个函数应用于集合中的所有成员，然后返回一个基于这个处理的结果集 Reduce对结果集进行分类和归纳 Map()和 Reduce() 两个函数可能会并行运行，即使不是在同一的系统的同一时刻

MapReduce示例：单词计数案例：单词记数问题(Word Count) 给定一个巨大的文本（如1TB），如何计算单词出现的数目？

MapReduce示例：单词计数使用MapReduce求解该问题定义Map和Reduce函数

MapReduce示例：单词计数使用MapReduce求解该问题 Step 1: 自动对文本进行分割

MapReduce示例：单词计数使用MapReduce求解该问题 Step 2:在分割之后的每一对<key,value>进行用户定义的Map进行处理，再生成新的<key,value>对

MapReduce示例：单词计数使用MapReduce求解该问题 Step 3:对输出的结果集归拢、排序(系统自动完成）

MapReduce示例：单词计数使用MapReduce求解该问题 Step 4:通过Reduce操作生成最后结果

Google MapReduce执行流程 1、处理流程 2、分片方式

文件存储位置源文件：GFS Map处理结果：本地存储 Reduce处理结果：GFS 日志：GFS

Google MapReduce计算架构有什么问题？思考 Google MapReduce计算架构有什么问题？

MapReduce的容错 Worker故障 Master故障 Master 周期性的ping每个worker。如果master在一个确定的时间段内没有收到worker返回的信息，那么它将把这个worker标记成失效重新执行该节点上已经执行或尚未执行的Map任务重新执行该节点上未完成的Reduce任务，已完成的不再执行 Master故障定期写入检查点数据从检查点恢复

MapReduce的优化任务备份机制慢的workers 会严重地拖延整个执行完成的时间由于其他的任务占用了资源磁盘损坏解决方案: 在临近结束的时候，启动多个进程来执行尚未完成的任务谁先完成，就算谁可以十分显著地提高执行效率

MapReduce的优化本地处理 Master 调度策略: 效果向GFS询问获得输入文件blocks副本的位置信息 Map tasks 的输入数据通常按 64MB来划分 (GFS block 大小) 按照blocks所在的机器或机器所在机架的范围进行调度效果绝大部分机器从本地读取文件作为输入，节省大量带宽

MapReduce的优化跳过有问题的记录一些特定的输入数据常导致Map/Reduce无法运行最好的解决方法是调试或者修改不一定可行~ 可能需要第三方库或源码在每个worker里运行一个信号处理程序，捕获map或 reduce任务崩溃时发出的信号，一旦捕获，就会向master 报告，同时报告输入记录的编号信息。如果master看到一条记录有两次崩溃信息，那么就会对该记录进行标记，下次运行的时候，跳过该记录

“实践是检验真理的唯一标准” 实践证明，MapReduce是出色的分布式计算模型 Google宣布，其对分布于1000台计算机上的1TB数据进行排序仅仅需要68s 对4000台计算机上的1PB数据进行排序处理仅需要6小时 2分钟（每次测试至少会损坏1块硬盘）在08年1月份，Google MapReduce平均每天的数据处理量是20PB，相当于美国国会图书馆当年5月份存档网络数据的240倍

课程小结 “免费的午餐”已经结束并行思维 MapReduce 并行分布式数据处理框架屏蔽各种并行分布式计算的难题

如何使用MapReduce实现海量数据的并行分布式排序？云计算应用实践如何使用MapReduce实现海量数据的并行分布式排序？

讨论云计算有没有什么问题？