第11章 海量信息存储 主讲:刘方明 副教授 华中科技大学计算机学院

Slides:



Advertisements
Similar presentations
1南方医科大学珠江医院. 2 南方医科大学(原第一军医大学)田时雨 陈晓虹广州中医药大学吴宣富 补阳还五汤临床研究进展.
Advertisements

四川财经职业学院会计一系会计综合实训 目录 情境 1.1 企业认知 情境 1.3 日常经济业务核算 情境 1.4 产品成本核算 情境 1.5 编制报表前准备工作 情境 1.6 期末会计报表的编制 情境 1.2 建账.
主编:邓萌 【点按任意键进入】 【第六单元】 教育口语. 幼儿教师教育口 语概论 模块一 幼儿教师教育口语 分类训练 模块二 适应不同对象的教 育口语 模块三 《幼儿教师口语》编写组.
第一組 加減法 思澄、博軒、暐翔、寒菱. 大綱 1. 加減法本質 2. 迷思概念 3. 一 ~ 七冊分析 4. 教材特色.
海南医学院附 院妇产科教室 华少平 妊娠合并心脏病  概述  妊娠、分娩对心脏病的影响  心脏病对妊娠、分娩的影响  妊娠合病心脏病的种类  妊娠合并心脏病对胎儿的影响  诊断  防治.
植树节的由来 植树节的意义 各国的植树节 纪念中山先生 植树节的由来 历史发展到今天, “ 植树造林,绿化祖国 ” 的热潮漫卷 了中华大地。从沿海到内地,从城市到乡村,涌现了多少 造林模范,留下了多少感人的故事。婴儿出世,父母栽一 棵小白怕,盼望孩子和小树一样浴光吮露,茁壮成长;男 女成婚,新人双双植一株嫩柳,象征家庭美满,幸福久长;
客户协议书 填写样本和说明 河南省郑州市金水路 299 号浦发国际金融中 心 13 层 吉林钰鸿国创贵金属经营有 限公司.
浙江省县级公立医院改革与剖析 马 进 上海交通大学公共卫生学院
第二章 环境.
教师招聘考试 政策解读 讲师:卢建鹏
了解语文课程的基本理念,把握语文素养的构成要素。 把握语文教育的特点,特别是开放而有活力的语文课程的特点。
北台小学 构建和谐师生关系 做幸福教师 2012—2013上职工大会.
福榮街官立小學 我家孩子上小一.
第2期技職教育再造方案(草案) 教育部 101年12月12日 1 1.
企业员工心态管理培训 企业员工心态管理培训讲师:谭小琥.
历史人物的研究 ----曾国藩 组员: 乔立蓉 杜曜芳 杨慧 组长:马学思 杜志丹 史敦慧 王晶.
教育部高职高专英语类专业教学指导委员会 刘黛琳 山东 • 二○一一年八月
淡雅诗韵 七(12)班 第二组 蔡聿桐.
第七届全国英语专业院长/系主任高级论坛 汇报材料
小數怕長計, 高糖飲品要節制 瑪麗醫院營養師 張桂嫦.
制冷和空调设备运用与维修专业 全日制2+1中等职业技术专业.
会计信息分析与运用 —浙江古越龙山酒股份有限公司财务分析 组员:2006级工商企业管理专业 金国芳 叶乐慧 魏观红 徐挺挺 虞琴琴.
中华字库的云输入法 王勇 基础软件国家工程研究中心
第六章 人体生命活动的调节 人体对外界环境的感知.
芹菜 英语051班 9号 黄秋迎 概论:芹菜是常用蔬菜之一,既可热炒,又能凉拌,深受人们喜爱。近年来诸多研究表明,这是一种具有很好药用价值的植物。 别名:旱芹、样芹菜、药芹、香芹、蒲芹 。 芹菜属于花,芽及茎类。
Information Resource Management
2012年 学生党支部书记工作交流 大连理工大学 建工学部 孟秀英
北京市职业技能鉴定管理中心试题管理科.
完善固定资产加速折旧 企业所得税政策.
2014吉林市卫生局事业单位招聘153名工作人员公告解读
各類所得扣繳法令 與申報實務 財政部北區國稅局桃園分局 103年9月25日
初級游泳教學.
云计算系统测试技术与实践 中国软件评测中心 陈渌萍 2017年3月3日.
公司保密工作要求及 院商秘保护工作安排 2014年9月12日.
Big Data Ecosystem – Hadoop Distribution
存储基础知识 V1.1.
食品添加剂生产许可情况介绍 江苏省食品药品监督管理局 彭弘雷 2014年12月
对存储系统发挥特殊作用的文件系统 2006年5月 - 北京.
PB级科研数据集的管理和应用 曙光信息产业(北京)有限公司.
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
南京大学计算机科学与技术系 主讲人:黄宜华 2011年春季学期
Founder Technology Group Co.,Ltd.
Network Storage and System Virtualization Technology
《大数据技术原理与应用》 课程介绍 (2016春季学期)
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
云存储的应用及未来.
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
何娜 求职经验交流 何娜
第6章 数媒资产管理系统的存储技术 刘士军 1、光纤通道
分布式系统中的关键概念及Hadoop的起源、架构、搭建
快速学习环境搭建 安装前预备工作(Linux相关配置) 实操演示(hadoop、hbase为例) 总结&练习题(课后练练手)
云计算之分布式计算.
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務
kCloudStorage - 基于云技术的廉价冗余天文海量数据存储
CHAPTER 6 認識MapReduce.
信息存储与管理 国家天文台 (科技处)信息与计算中心.
开源云计算系统简介 电子工业出版社 刘鹏主编《云计算》教材配套课件11.
Cloud Computing(雲端運算) 技術的現況與應用
斯巴達帶大家上雲端.
国际存储工业协会(SNIA)会员 中科院计算所 存储技术顾问 国家“863”项目存储产品顾问 董 唯 元
Hadoop平台與應用規劃實作 報告者:劉育維.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
软件工程基础 云计算概论 刘 驰.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
珠海圖書館資料有限 論文數據庫沒有原文 時間有限 原版書很貴
第5章 网站服务器搭建与管理.
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
機構督導: 范盛翔 督導 實習生: 佛光大學社會學系江佳穎 實習日期: 7/1(二)~8/29(五)
Presentation transcript:

第11章 海量信息存储 主讲:刘方明 副教授 华中科技大学计算机学院 2012.06 主讲:刘方明 副教授 华中科技大学计算机学院 Email: fangminghk@gmail.com Web: http://grid.hust.edu.cn/fmliu 2012.06 Based on the course slides of 《物联网导论》,刘云浩编著,科学出版社

物联背景下如何适应海量信息存储的需求呢?随着物联网的发展,数据中心将成为解决海量数据存储的主要手段。 本章将介绍典型的网络存储体系结构以及数据中心的基本概念。 内容提要

内容回顾 第10章介绍了数据库管理系统的基本概念 数据库模型的发展 关系数据库的基本概念 利用关系代数写查询表达式 物联网数据管理的特点 本章重点介绍三种基本的网络存储体系结构,并以Google数据中心为例,介绍大规模数据中心的相关技术,最后简要开源分布式计算框架Hadoop。

本章内容 11.1 物联网对海量信息存储的需求 11.2 网络存储体系结构 11.3 数据中心 信息存储的发展历程如何?物联网对海量信息存储的需求促使了哪些技术的发展?

数据存储的发展历史 甲骨文→纸质书籍→数字化存储

物联网对海量信息存储的需求 全球信息总量迅猛增长 2007年产生的数据量为281EB ( 1EB=10亿GB ) 物联网中对象的数量将庞大到以百亿为单位 物联网中的对象积极参与业务流程的需求 高强度计算需求 数据的持续在线可获取特性 导致了网络化存储和大型数据中心的诞生

本章内容 11.1 物联网对海量信息存储的需求 11.2 网络存储体系结构 11.3 数据中心 三种基本的网络存储体系结构:直接附加存储,网络附加存储,存储区域网络,各有什么特点?

直接附加存储 直接附加存储(Direct-Attached Storage, DAS) 将存储系统通过缆线直接与服务器或工作站相连 一般包括多个硬盘驱动器,与主机总线适配器通过电缆或光纤 在存储设备和主机总线适配器之间不存在其他网络设备 实现了计算机内存储到存储子系统的跨越

直接附加存储 一个计算机系统也由各有专长的厂商所领导,可大体分为:处理器、操作系统、网络、资源共享、数据库等等不同的水平领域 从封闭走向开放的代表是直接连接存储系统的出现和应用

直接附加存储(Direct Attached Storage,DAS)是指将外部存储设备通过连接电缆直接连接到服务器上 外部数据存储设备采用SCSI、SATA、FC(Fibre Channel)等技术,通过数据连接电缆直接挂接在服务器的内部控制器上

特点 DAS的这种直连方式,能够解决单台服务器的存储空间扩展、高性能传输需求 单台个DAS存储介质可以被多台服务器所共享 DAS产品目前还在广泛应用,尤其是一些中小型企业常使用DAS来存储数据

问题 DAS拥有较长的使用历史,但是随着数据量及访问人数的不断增多,DAS在备份、恢复、扩展、灾备等方面存在的问题变得日益突出 DAS依赖服务器主机操作系统进行数据的I/O读取和存储维护管理,数据备份和恢复要求占用服务器主机的CPU、I/O等资源 DAS的数据量越大,备份和恢复的时间就越长,对服务器硬件的依赖性和影响就越大

网络附加存储 网络附加存储(Network Attached Storage, NAS) 文件级的计算机数据存储架构 NAS与DAS的区别 计算机连接到一个仅为其它设备提供基于文件级数据存储服务的网络 NAS与DAS的区别 DAS是一种对已有服务器的简单扩展,并没有真正实现网络互联。NAS则是将网络作为存储实体,更容易实现文件级别的共享。NAS性能上比DAS有所增强

与DAS相比,NAS设备的可靠性和稳定性都要高,特别是NAS的文件管理系统得到了优化,其价格也比DAS低廉

特点 NAS作为一个网络附加存储设备,采用了目前较为流行的嵌入式技术。使得NAS具有无人值守、高度智能、性能稳定等特点 NAS设备内置优化的独立存储操作系统,可以更加有效地利用系统总线资源,更好地支持I/O存储 同时,NAS设备一般集成本地的备份软件,可以不经过服务器便将NAS设备中的重要数据进行本地备份 而且NAS设备提供硬盘RAID、冗余的电源和风扇以及冗余的控制器,可以保证NAS的稳定性 主要应用于中小型网络

特点 安装、调试、使用和管理非常简单。RJ-45或光纤接口 数据从服务器分离,减少了数据管理上的许多问题 有自己专用的管理软件,通过管理软件可以方便地实现设备的配置 支持UNIX、Windows、NetWare、Macintosh等多种操作系统

与DAS相比,NAS主有存在以下的优点 由于大量的数据访问由NAS设备完成,服务器减少了数据的I/O操作,提高了服务器的性能 可支持UNIX、Windows、NetWare、Macintosh等多种应用平台

存储区域网络 存储区域网络 (Storage Area Network, SAN) SAN的特点 通过网络方式连接存储设备和应用服务器的存储架构 由服务器、存储设备和SAN连接设备组成 SAN的特点 存储共享 支持服务器从SAN直接启动

在SAN系统中,存储设备通过专用交换机与多台服务器相连 目前,企业存储方案所遇到的两个问题是: 数据与应用系统紧密结合所产生的结构性限制 目前广泛使用的小型计算机系统接口(SCSI)标准的限制 在SAN系统中,存储设备通过专用交换机与多台服务器相连 提供了多主机连接,允许任何服务器连接到任何存储设备,不管数据置放在那里,服务器都可直接访问所需的数据 同时,随着存储容量的增长,SAN也允许企业独立地增加它们的存储设备

FC的最大特性是将网络和设备的通讯协议与传输物理介质隔离开,这样多种协议可在同一个物理连接上同时传送 不同于普通的网络交换机,SAN是基于光纤通道(Fiber Channel,FC)技术的高速传输网络。FC是ANSI为网络和通道I/O接口建立的一个标准,支持SCSI、IP、ATM等多种高级协议 FC的最大特性是将网络和设备的通讯协议与传输物理介质隔离开,这样多种协议可在同一个物理连接上同时传送 使高性能存储设备与宽带网络使用单一的I/O接口,使得系统的成本和复杂程度大大降低 光纤通道支持多种拓扑结构,主要有点到点(Links)、仲裁环(FC-AL)、交换式网络结构(FC-XS)等 点对点方式:DAS应用 FC-AL:磁盘阵列 FC-XS交换式:SAN

因为采用了FC技术,SAN具有更高的带宽 SAN结构具有NAS的所有优点,在提高了服务器性能的同时,便于对数据的管理,也便于系统的扩充,同时支持多种应用平台 但与NAS不同的是,在SAN中服务器与存储设备之间的数据交换是通过SAN网络进行,不会消耗应用网络的带宽资源,所以SAN主要应用于大型网络 随着FC-SW标准的确立,2Gbit/s光纤通道标准下的各种SAN设备已解决了互操作性问题,这已从成本和技术上解决了SAN的应用瓶颈

三种网络存储结构的比较

三种网络存储结构的比较 DAS NAS SAN 管理容易,结构简单;集中式体系结构,不能满足大规模数据访问的需求;存储资源利用率低,资源共享能力差,造成“信息孤岛”。 NAS 网络的存储实体,容易实现文件级别共享;性能严重依赖于网络流量,用户数过多,读写过频繁时性能受限。 SAN 存储管理简化,存储容量利用率提高;无直接文件级别的访问能力,但可在SAN基础上建立文件系统。

本章内容 11.1 物联网对海量信息存储的需求 11.2 网络存储体系结构 11.3 数据中心 什么是数据中心?典型的数据中心有哪些?数据中心的研究热点是什么?

什么是数据中心? 维基百科:“数据中心是一整套复杂的设施。它不仅仅包括计算机系统和其它与之配套的设备(例如通信和存储系统),还包含冗余的数据通信连接、环境控制设备、监控设备以及各种安全装置。” Google:“多功能的建筑物,能容纳多个服务器以及通信设备。这些设备被放置在一起是因为它们具有相同的对环境的要求以及物理安全上的需求,并且这样放置便于维护。”

数据中心的起源与发展 大型机 微型机 大规模数据中心 (Mega Data Center)

数据中心的起源与发展 大规模数据中心已经得到推广

数据中心标准 ANSI/TIA/EIA-942(简称TIA-942):数据中心标准 数据中心的标准对相关经验进行了总结 数据中心建设者面对的难题 如何规划一个新的数据中心? 怎样对数据中心进行升级? 数据中心的标准对相关经验进行了总结 ANSI/TIA/EIA-942(简称TIA-942):数据中心标准 电信产业协会(TIA)提出 美国国家标准学会(ANSI)批准

数据中心标准:TIA-942 选址:需要考虑多方面因素 建设和运营成本 应用需求 政策优惠 … 布局: 按功能区域划分 功能区域组成

数据中心标准:TIA-942(续) TIA-942还对缆线系统,可靠性分级,能源系统和降温系统等做了规定。 缆线系统 规格 如何放置缆线 外部电力供应 电池组 发电机 降温系统 降温设备 架空地板 冷通道与热通道

典型数据中心:Google 数据中心 简介 全球共建有近40个大规模数据中心 单个数据中心需要至少50兆瓦功率,约等于一个小型城市所有家庭的用电量 独特的硬件设备:定制的以太网交换机、能源系统等 自行研发的软件技术:Google File System、MapReduce、BigTable等

Google File System GFS的设计观念 组件失效不再被认为是意外,而是被看做正常的现象 GFS的文件非常巨大 对文件的操作具有特定的模式 应用程序和文件系统API的协同设计提高了整个系统的灵活性

Google File System GFS的设计架构 文件分成固定大小的“块”。每个块在创建时都由主服务器分配一个固定不变的64位句柄唯一标识。 块服务器把块作为Linux文件存储在本地磁盘上,并根据指定的块句柄和字节范围对数据块进行读写操作。

Google File System GFS的设计架构(续) 主服务器维护所有文件系统的元数据,包括名字空间、访问控制信息、文件到块的映射信息以及块当前的位置。此外,主服务器还控制其它系统级的活动。主服务器周期性地与块服务器通信,以下达指令和收集状态。 GFS客户端代码被嵌入到每个应用中。它实现了文件系统API,实现主服务器与块服务器的通信从而代表应用实现读写操作。客户端与服务器交互从而实现元数据操作,但所有的数据操作都通过直接与块服务器交互而完成。

MapReduce MapReduce是一种针对超大规模数据集的编程模型和系统 一个在计算机集群上执行多个程序实例的框架

MapReduce MapReduce程序的执行过程

BigTable BigTable是一种用来在海量数据规模下(例如包含以PB为单位的数据量和数千台廉价计算机的应用)管理结构化数据的分布式存储系统。 应用 Google地球 网页索引 RSS阅读器 …

BigTable 每个BigTable都是一个稀疏的、分布式的多维有序图,按行键值、列键值和时间戳建立索引

典型数据中心:Hadoop 什么是Hadoop? Apache开源组织的一个分布式计算开源框架 用于在大型集群的廉价服务器设备上运行数据密集型分布式应用程序 在早期实际上是Google文件系统与MapReduce分布式计算框架及相关IT基础服务的开源实现 Hadoop包括多个子项目 HDFS、 MapReduce、 HBase 、Chukwa、Pig、ZooKeeper等

HDFS Hadoop Distributed File System

数据中心的研究热点 研究热点:如何在保证服务质量的前提下降低成本? 2006年Google在数据中心项目上的花费为19亿美元,而2007年该项支出增加到24亿美元。 Google在俄勒冈州的数据中心有近100兆瓦的功率,满负荷运行时消耗的电力基本上和纽卡斯尔(Newcastle)一个城市所有家庭的用电量加起来一样多。 研究热点:如何在保证服务质量的前提下降低成本?

数据中心的成本构成 基础设施部分包括能源系统、降温系统、各种防火设备、安保设备等。降低这一部分成本往往涉及到机械设备制造技术或政策优惠等因素,与计算机学科的关联程度相对较低。 我们分别从服务器,网络设备,能源三个方面对造成高成本的原因和目前的解决方法进行简要介绍。

服务器成本 服务器 网络设备 能源 服务器的实际利用效率较低 分配到各服务器的应用不能完全利用某些组件 对应用需求的预测比较难,无法做到按需分配 为了提高系统的可靠性,一般都留有冗余设备 提高服务器利用率的关键在于及时应对需求的动态变化

网络设备成本 主要来源 研究热点:新的数据中心网络结构 服务器 网络设备 能源 交换机、路由器、负载均衡设备 传统的数据中心使用树形结构,核心交换机和路由器构成流量瓶颈,且造价昂贵 研究热点:新的数据中心网络结构 以交换机为中心的多层树形结构:例如Fat-Tree 以服务器为中心的互联结构:例如DCell

能源成本 研究热点 服务器 网络设备 能源 降低服务器工作能耗 降低同等性能设备能耗 提高同等能耗设备性能 可调整负载的服务器 减少降温系统能耗 精细、精准的温度控制 集装箱式模块化数据中心 数据中心能耗构成

本章小结 内容回顾 本章介绍了三种基本的网络存储体系结构,并讨论了数据中心的基本概念,以Google数据中心和Hadoop为例,简要介绍了数据中心的相关技术,最后指出了数据中心的研究热点。 重点掌握 了解物联网对海量数据存储的迫切需求。 重点掌握三种基本的网络存储体系结构(DAS,NAS,SAN)的基本概念以及各自的优缺点。

本章小结 重点掌握(续) 了解数据中心的概念,以Google数据中心为例,了解GFS,MapReduce,BigTable等技术的基本概念和特点。了解Hadoop分布式计算开源框架的特点。 掌握保证性能前提下降低数据中心成本的方法(服务器成本,网络设备成本,能源成本)。

Thank you!