Presentation is loading. Please wait.

Presentation is loading. Please wait.

云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.

Similar presentations


Presentation on theme: "云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop."— Presentation transcript:

1 云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop

2 目录 云计算概述 2011中国计算机大会 云计算论坛报告 未来的研究方向

3 云计算概述

4 什么是云计算 云计算(cloud computing)是一种基于因特网的超级计算模式,在远程的数据中心里,成千上万台电脑和服务器连接成一片电脑云。因此,云计算甚至可以让你体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。 Google数据中心 通俗的理解是,云计算的“云“就是存在于互联网上的服务器集群上的资源,它包括硬件资源(服务器、存储器、CPU等)和软件资源(如应用软件、集成开发环境等),本地计算机只需要通过互联网发送一个需求信息,远端就会有成千上万的计算机为你提供需要的资源并将结果返回到本地计算机,这样,本地计算机几乎不需要做什么,所有的处理都在云计算提供商所提供的计算机群来完成。

5 云计算的定义 狭义的云计算是指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的资源(硬件、平台、软件)。提供资源的网络被称为“云”。 如亚马逊数据仓库出租生意。 广义的云计算是指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的服务。这种服务可以任意的服务。 例如国内用友、金蝶等管理软件厂商推出的在线财务软件,谷歌发布的Google应用程序套装等。 狭义的云计算是指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的资源(硬件、平台、软件)。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。这种特性经常被称为像水电一样使用IT基础设施。如亚马逊数据仓库出租生意。 广义的云计算是指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的服务。这种服务可以是IT和软件、互联网相关的,也可以是任意其他的服务。例如国内用友、金蝶等管理软件厂商推出的在线财务软件,谷歌发布的Google应用程序套装等。

6 云计算思想的产生 传统模式下,企业建立一套IT系统不仅仅需要购买硬件等基础设施,还有买软件的许可证,需要专门的人员维护。当企业的规模扩大时还需要继续升级各种软硬件设施以满足需要。对个人来说,我们想正常使用电脑需要安装许多软件,而许多软件是收费的,对不经常使用该软件的用户来说购买是非常不划算的。可不可以有这样的服务,能够提供我们需要的所有软件供我们租用? 我们每天都要用电,但我们不是每家自备发电机,它由电厂集中提供;我们每天都要用自来水,但我们不是每家都有井,它由自来水厂集中提供。这种模式极大得节约了资源,方便了我们的生活。面对计算机给我们带来的困扰,我们可不可以像使用水和电一样使用计算机资源?这些想法最终导致了云计算的产生。 传统模式下,企业建立一套IT系统不仅仅需要购买硬件等基础设施,还有买软件的许可证,需要专门的人员维护。当企业的规模扩大时还需要继续升级各种软硬件设施以满足需要。对于企业来说,计算机等硬件和软件本身并非他们真正需要的,它们仅仅是完成工作、提供效率的工具而已。对个人来说,我们想正常使用电脑需要安装许多软件,而许多软件是收费的,对不经常使用该软件的用户来说购买是非常不划算的。可不可以有这样的服务,能够提供我们需要的所有软件供我们租用?这样我们只需要在用时付少量“租金”即可“租用”到这些软件服务,为我们节省许多购买软硬件的资金。我们每天都要用电,但我们不是每家自备发电机,它由电厂集中提供;我们每天都要用自来水,但我们不是每家都有井,它由自来水厂集中提供。这种模式极大得节约了资源,方便了我们的生活。面对计算机给我们带来的困扰,我们可不可以像使用水和电一样使用计算机资源?这些想法最终导致了云计算的产生。

7 云计算就是这样一种变革——由谷歌、IBM这样的专业网络公司来搭建计算机存储、运算中心,用户通过一根网线借助浏览器就可以很方便的访问,把“云”作为资源存储以及应用服务的中心。

8 云计算的原理 云计算是由分布式处理、并行处理和网格计算的发展来的,或者说是这些计算机科学概念的商业实现。
网格计算即分布式计算,是一门计算机科学。它研究如何把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给许多计算机进行处理,最后把这些计算结果综合起来得到最终结果。

9 云计算的基本原理是,通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将更与互联网相似。这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。
这可是一种革命性的举措,打个比方,这就好比是从古老的单台发电机模式转向了电厂集中供电的模式。

10 云计算的服务形式 目前,云计算的主要服务形式有: 软件即服务 SaaS(Software as a Service)
平台即服务 PaaS(Platform as a Service) 基础设施服务 IaaS(Infrastructure as a Service)

11 软件即服务(SaaS) SaaS服务提供商将应用软件统一部署在自己的服务器上,用户根据需求通过互联网向厂商订购应用软件服务,服务提供商根据客户所定软件的数量、时间的长短等因素收费,并且通过浏览器向客户提供软件的模式。 优势:由服务提供商维护和管理软件、提供软件运行的硬件设施,用户只需要拥有能够接入互联网的终端,即可随时随地使用软件。 目前,Salesforce.com是提供这类服务最有名的公司,Google Doc,Google Apps也属于这类服务。 这种服务模式的优势是,由服务提供商维护和管理软件、提供软件运行的硬件设施,用户只需要拥有能够接入互联网的终端,即可随时随地使用软件。这种模式下,客户不再像传统模式那样花费大量资金在硬件、软件、维护人员,只需要支出一定的租赁服务费用,通过互联网就可以享受到相应的硬件、软件和维护服务。

12 平台即服务(PaaS) 把开发环境作为一种服务来提供。这是一种分布式平台服务,厂商提供开发环境、服务器平台、硬件资源等服务给客户,用户在其平台基础上定制开发自己的应用程序并通过其服务器和互联网传递给其他客户。 PaaS能够给企业或个人提供研发的中间件平台,提供应用程序开发、数据库、应用服务器、实验、托管及应用服务。 Google App Engine,Salesforce的force.com平台是PaaS的代表产品。 以Google App Engine为例,它是一个由Python应用服务器群、BigTable数据库及GFS组成的平台,为开发者提供一体化主机服务器及可自动升级的在线应用服务。用户编写应用程序并在Google的基础架构上运行就可以为互联网用户提供服务,Google提供应用运行及维护所需要的平台资源。

13 基础设施服务(IaaS) IaaS即把厂商的由多台服务器组成的“云端”基础设施,作为计量服务提供给客户。它将内存、I/O设备、存储和计算能力整合成一个虚拟的资源池为整个业界提供所需要的存储资源和虚拟化服务器等服务。这是一种托管型硬件方式,用户付费使用厂商的硬件设施。 优点:用户只需低成本硬件,按需租用相应计算能力和存储能力,大大降低了用户在硬件上的开销。 例如Amazon Web服务(AWS),IBM的BlueCloud等均是将基础设施作为服务出租。

14 云计算的核心技术 编程模型 数据管理技术 数据存储技术 虚拟化技术 云计算平台管理技术

15 1、编程模型 为了使用户能更轻松的享受云计算带来的服务,让用户能利用该编程模型编写简单的程序来实现特定的目的,云计算上的编程模式必须十分简单。必须保证后台复杂的并行执行和任务调度向用户和编程人员透明。 MapReduce是Google开发的java、Python、C++编程模型,它是一种简化的分布式编程模型和高效的任务调度模型,用于大规模数据集(大于1TB)的并行运算。现在所有IT厂商提出的“云”计划中采用的编程模型,都是基于MapReduce的思想开发的编程工具

16 2、数据管理技术 云计算需要对分布的、海量的数据进行处理、分析,因此,数据管理技术必须能够高效的管理大量的数据。云计算系统中的数据管理技术主要是Google的BT(BigTable)数据管理技术和Hadoop团队开发的开源数据管理模块Hbase。

17 3、数据存储技术 云计算系统由大量服务器组成,同时为大量用户服务,因此云计算系统采用分布式存储的方式存储数据,用冗余存储的方式保证数据的可靠性。云计算系统中广泛使用的数据存储系统是Google的GFS和Hadoop团队开发的GFS的开源实现HDFS。

18 4、虚拟化技术 通过虚拟化技术可实现软件应用与底层硬件相隔离,它包括将单个资源划分成多个虚拟资源的裂分模式,也包括将多个资源整合成一个虚拟资源的聚合模式。虚拟化技术根据对象可分为存储虚拟化、计算虚拟化、网络虚拟化等。

19 5、云计算平台管理技术 云计算资源规模庞大,服务器数量众多并分布在不同的地点,同时运行着数百种应用,如何有效的管理这些服务器,保证整个系统提供不间断的服务是巨大的挑战。 云计算系统的平台管理技术能够使大量的服务器系统工作,方便的进行业务部署和开通,快速发现和恢复系统故障,通过自动化、智能化的手段实现大规模系统的可靠运营。

20 云存储 云存储不是存储,而是服务 云存储对使用者来讲,不是指某一个具体的设备,而是指一个由许许多多个存储设备和服务器所构成的集合体。使用者使用云存储,并不是使用某一个存储设备,而是使用整个云存储系统带来的一种数据访问服务。 与传统的存储设备相比,云存储不仅仅是一个硬件,而是一个网络设备、存储设备、服务器、应用软件、公用访问接口、接入网、和客户端程序等多个部分组成的复杂系统。各部分以存储设备为核心,通过应用软件来对外提供数据存储和业务访问服务。 。当我们使用某一个独立的存储设备时,我们必须非常清楚这个存储设备是什么型号,什么接口和传输协议,必须清楚地知道存储系统中有多少块磁盘,分别是什么型号、多大容量,必须清楚存储设备和服务器之间采用什么样的连接线缆。为了保证数据安全和业务的连续性,我们还需要建立相应的数据备份系统和容灾系统。除此之外,对存储设备进行定期地状态监控、维护、软硬件更新和升级也是必须的。如果采用云存储,那么上面所提到的一切对使用者来讲都不需要了。云状存储系统中的所有设备对使用者来讲都是完全透明的,任何地方的任何一个经过授权的使用者都可以通过一根接入线缆与云存储连接,对云存储进行数据访问。

21 云安全(Cloud Security) 紧随云计算、云存储之后,云安全也出现了。云安全最早是趋势科技创造的概念,在国际云计算领域独树一帜,并得到了众多安全厂商的跟随与认可。 “云安全计划”是网络时代信息安全的最新体现,它融合了并行处理、网格计算、未知病毒行为判断等新兴技术和概念,通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,传送到Server端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。 整个互联网就是一个巨大的“杀毒软件” 未来杀毒软件将无法有效地处理日益增多的恶意程序。来自互联网的主要威胁正在由电脑病毒转向恶意程序及木马,在这样的情况下,采用的特征库判别法显然已经过时。云安全技术应用后,识别和查杀病毒不再仅仅依靠本地硬盘中的病毒库,而是依靠庞大的网络服务,实时进行采集、分析以及处理。整个互联网就是一个巨大的“杀毒软件”,参与者越多,每个参与者就越安全,整个互联网就会更安全。

22 2011中国计算机大会云计算论坛报告

23 《云计算的革命与中国机遇》 田溯宁 云计算革命的背景 宽带产业基金董事长田溯宁

24 传统的IT结构

25 云计算的IT架构

26 云计算革命的实质:便宜、方便、可控

27 云革命速度:消费者正在以越来越快的速度改变着

28 云革命的价值/创造也完全不一样 案例1:网上书店的出现,对传统书店的冲击。 图书出版业价值链的改变

29 云革命的价值/创造也完全不一样 案例2:在线音像租赁业务对传统音乐出版社冲击 音乐出版业价值链的改变

30 云计算的中国机遇 中国已具备云计算大发展的网络和市场基础: 宽带骨干网总带宽>50T,七年增长20倍 互联网用户宽带普及率98%
大量创业者和成功企业已经涌现

31 云系企业:云相万千,唯专胜尔

32 《腾讯集群资源管理》 陈军 腾讯海量业务面对的挑战 集群任务调度 无阻塞网络

33 腾讯海量业务面对的挑战 业务类型多 在线业务,离线业务 不同业务可错峰,提高资源利用率 业务规模大 互联网海量业务,高并发,海量数据处理
业务突发性强 要求能够快速扩容,快速资源回收

34 过去 每个业务都有自己的专用集群 没有资源共享,资源利用率低 集群资源缺乏弹性,业务高峰期资源不足,业务衰退期资源过剩
很多小集群,资源碎片化 自动容错能力不足

35 现在和将来 建大资源池,不同业务共享集群资源 提高资源利用率 通过调度及运行环境的QoS,保证服务质量 自动容错

36 集群任务调度系统 关键在提高资源利用率 (1)服务器复用 (2)虚拟机 (3)资源容器 任务动态部署希望网络带宽的同一性

37 传统数据中心网络拓扑 3层网络架构,接入层,分布层,核心层
1.每层之间高收敛比,连接同一接入层交换机的机器有1Gbps带宽, 连接不同接入层交换机的机器带宽小于1Gbps 2.程序员要考虑分布式应用是否在同一接入层交换机下 3.分布式应用不容易自由迁移

38 扁平化网络拓扑: 2级 •第1级:128台,每台下行40x1Gbps Port,上行4x10Gbps Port

39 扁平化网络拓扑: 3级 第1级:512台,每台下行40x1Gbps Port,上行4x10Gbps Port,每64台一个分区
•第2级:32台,每台下行64x10Gbps Port,上行16x(4x10Gbps) Port, 每4台一个分区 •第3级:16台,每台下行32x(4x10Gbps) Port •集群内20480(512x40)台服务器,任何两台都有1Gbps带宽

40 《建设“自主可控城市云”》 –曙光云计算战略 邵宗有
《建设“自主可控城市云”》 –曙光云计算战略 邵宗有 曙光“城市云”理念 “城市云”是面向政府、企业呾公众的城市综合信息服务系统,它以城市云计算中心为主要载体,统筹建设和整合区域内分散的硬件、软件和数据资源,并以一种更加智慧的方法实现资源共享及业务协同,能够显著提升城市管理和公共服务能力。

41 城市云

42 曙光自主可控“城市云”技术框架

43 曙光云计算战略 “城市云”推动政务资源整合与业务协同 省市级多部门协同综合性业务 “城市云”助力区域IT产业发展 升级支柱产业 发展新兴产业
扶植中小企业 “城市云”提升政府公众服务能力 推进政府职能由管理型向服务型转变

44 “城市云”的优势

45 “城市云”的意义和价值

46 未来三年,曙光将建设和运营超过10个城市云!

47 云计算产业发展建议 发展云计算必须坚持自主可控原则

48 云计算产业发展其他建议 要积极推进云计算相关标准和协议的研究 要加大对云安全政策和技术的研究 探索新型商业模式,以服务创新带动技术创新
成立云计算联盟,推动产业链发展

49 《对象存储与CDN系统到服务》 淘宝 章文嵩
淘宝网简介 •淘宝网:网络购物 •淘宝的愿景:提供电子商务的基础设施服务,打造电子商务的生态圈 网络流量排名(Alexa统计) –国际:13~16 –国内:3 现在每天6000万以上的UV 淘宝网站上约有600个应用 90%以上的流量用于图片传送

50 Taobao对象存储系统-TFS,出现的背景
根据淘宝网的流量分析,整个淘宝网流量中,图片的访问流量会占到90%以上,而主站的网页则占到不到10%。 与此同时,这些图片的存储与读取还有一些头疼的要求:例如,这些图片要求根据不同的应用位置,生成不同大小规格的缩略图。考虑到多种不同的应用场景以及改版的可能性,一张原图有可能需要生成20多个不同尺寸规格的缩略图。 这就给淘宝网的系统带来了一个巨大的挑战,众所周知,对于大多数系统来说,最头疼的就是大规模的小文件存储与读取,因为磁头需要频繁的寻道和换道,因此在读取上容易带来较长的延时。在大量高并发访问量的情况下,简直就是系统的噩梦。 淘宝整体图片存储系统容量1800TB(1.8PB),已经占用空间990TB(约1PB)。保存的图片文件数量达到286亿多个,这些图片文件包括根据原图生成的缩略图。平均图片大小是17.45K;8K以下图片占图片数总量的61%,占存储容量的11%。

51 Taobao对象存储系统-TFS(Taobao File System )
从2006年开始,淘宝网决定自己开发一套针对海量小文件存储难题的文件系统,用于解决自身图片存储的难题。 TFS最大的特点就是将一部分元数据隐藏到图片的保存文件名上,大大简化了元数据,消除了管理节点对整体系统性能的制约,这一理念和目前业界流行的“对象存储”较为类似。 元数据是用于描述要素、数据集或数据集系列的内容、覆盖范围、质量、管理方式、数据的所有者、数据的提供方式等有关的信息。

52 Taobao对象存储系统-TFS 淘宝TFS文件系统在核心设计上最大的取巧的地方就在,传统的集群系统里面元数据只有1份,通常由管理节点来管理,因而很容易成为瓶颈。而对于淘宝网的用户来说,图片文件究竟用什么名字来保存实际上用户并不关心,因此TFS在设计规划上考虑在图片的保存文件名上暗藏了一些元数据信息,例如图片的大小、时间、访问频次等等信息,包括所在的逻辑块号。而在元数据上,实际上保存的信息很少,因此元数据结构非常简单。仅仅只需要一个fileID,能够准确定位文件在什么地方。

53 Taobao对象存储系统-TFS 由于大量的文件信息都隐藏在文件名中,整个系统完全抛弃了传统的目录树结构,因为目录树开销最大。拿掉后,整个集群的高可扩展性极大提高。

54 什么是CDN CDN(Content Deliver Network)内容分发网络,简单的说就是在不同地点缓存内容,然后通过负载均衡等技术将用户请求定向到最合适的缓存服务器上获取内容,提高用户访问网站的响应速度。 通过CDN服务提高网站的访问性能及稳定性,保障网站服务品质。

55 淘宝CDN的一些数字 CDN系统的规模 --500T容量的原图+500T容量的缩略图 --约700亿左右的缓存图片数,平均图片大小约20KB
--近100个节点,部署在网民相对密集的主要中心城市 --每个节点目前处理能力在10G左右 --CDN部署的总处理能力800G左右 --目前承载淘宝流量高峰时近400G流量

56 基础设施服务 在技术平台上提供存储、计算、传输等三大类基础设施服务
–如CDN平台、对象存储服务、MySQL平台、虚拟化平台、即时通讯平台、图像搜索平台等 –稳定性、性能、成本是三大衡量指标,不断深入优化 --以淘宝为渠道发展电子商务基础设施服务 –图片空间+CDN(未来的多媒体平台) –TOP开放平台基础设施服务 –面向店铺自由定制的TAE服务

57 未来的研究 方向

58 未来云计算的研究方向 集群调度的深入研究(腾讯) 淘宝CDN下行1000G带宽,但上行基本上没用,怎么去利用呢?(淘宝)
自主可控的虚拟机(曙光) 在P2P存储引擎的基础上,怎么做好中国云的云存储。(面向Hadoop的存储已有)(华为) 云主流技术有虚拟化和大数据处理,怎么结合两者的优缺点使云平台更好?(计算所)

59 谢谢!


Download ppt "云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop."

Similar presentations


Ads by Google