kCloudStorage - 基于云技术的廉价冗余天文海量数据存储

Slides:



Advertisements
Similar presentations
網站經營心得分享 林文宗 明新科技大學資管系助理教授 麟瑞科技顧問 工研院資通所無線通訊技術組顧問 明新科技大學電算中心網路組組長 國立清華大學資訊工程學系博士.
Advertisements

AWS 公有云服务. Amazon Web Service 简介 AWS 是向最终用户交付计算资源、保存数据和其他应用程序的一种最经济划算的方式,开发人员只需要按使用量付费,无需前期资本支出。利用 AWS ,开发人员可以轻松购买计算、存储、数据库和其他基于 Internet 的服务来支持其应用程序,以及灵活选择任何开发平台或编程环境。
开始 周海 2012 级中软定制专业方向说明. 三个方向 Java 与移动互联.NET 软件开发 嵌入式开发.
云计算及安全 ——Cloud Computing & Cloud Security
如何準備社工師考試 講 師:張雅惠 社工師 演講日期:
互联网金融之金融数据挖掘 邹永杰 江西财经大学金融学院.
Information Resource Management
职业教育网络学习空间建设的实践与思考 江苏省南京工程高等职业学校.
电子工业出版社《云计算(第二版)》配套课件
云计算系统测试技术与实践 中国软件评测中心 陈渌萍 2017年3月3日.
第5章 网络营销战略计划.
Big Data Ecosystem – Hadoop Distribution
存储基础知识 V1.1.
云计算应用对比分析 李洁睿 周良俊 2017/3/8.
职业生涯规划与择业求职 雅虎口碑高级分析师 杨玲 2008年10月31日.
OpenStack开源虚拟化平台(三) 云计算 (第三版) 第 8 章 CLOUD COMPUTING Third Edition
“大云”大数据平台及应用 中国移动通信研究院 郭磊涛 2013年11月.
教育雲端科技的現況與未來發展 臺北市政府教育局聘任督學 韓長澤.
穆公(朱金清 微博:淘穆公 阿里HBase业务设计实践 穆公(朱金清 微博:淘穆公
上海地面通云主机产品 产品介绍 通信成就梦想 未来你我把握
对存储系统发挥特殊作用的文件系统 2006年5月 - 北京.
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
Founder Technology Group Co.,Ltd.
Network Storage and System Virtualization Technology
第6章 資料庫管理系統 6-1 關聯式資料庫管理系統 6-2 SQL Server資料庫管理系統
第11章 海量信息存储 主讲:刘方明 副教授 华中科技大学计算机学院
第8章 系統架構.
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
云存储的应用及未来.
基于hadoop的数据仓库技术.
班級:觀光一B 姓名:李詩涵 座號: 18 指導老師:杜光玉
第6章 数媒资产管理系统的存储技术 刘士军 1、光纤通道
高级软件工程 云计算 主讲:李祥 QQ: 年12月.
作業系統 第十三章 檔案系統實例.
Alibaba 数据库高可用架构 Alibaba
分布式系统中的关键概念及Hadoop的起源、架构、搭建
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
Goolge的云计算 分布式数据表BigTable.
作業系統 補充: 雲端運算.
和諧社區資訊服務推廣計畫 -軟體雲端社區 資訊研習營
伺服器虛擬化環境建置 報告人:林又新
中国式的云计算服务模式 中企开源信息技术有限公司 CE Open Source Software.
CHAPTER 6 認識MapReduce.
信息存储与管理 国家天文台 (科技处)信息与计算中心.
开源云计算系统简介 电子工业出版社 刘鹏主编《云计算》教材配套课件11.
Cloud Computing(雲端運算) 技術的現況與應用
斯巴達帶大家上雲端.
Isilon中国区技术经理 杨峰 虚拟天文台年会 存储技术交流 Isilon中国区技术经理 杨峰 Isilon Proprietary and Confidential.
国际存储工业协会(SNIA)会员 中科院计算所 存储技术顾问 国家“863”项目存储产品顾问 董 唯 元
CDR - Continuous Data Replication
國立屏東高級工業職業學校 雲端網路及 雲端開系統介紹
Proware Technology Corp.
《云计算》课件 总结与展望 主讲人:刘鹏 中国电子学会信息系统集成分会.
Cloud Computing Google云计算原理.
自主可控 云筹未来 ——自主可控云计算平台关键技术
云计算概述 云计算的概念与发展历程 体系结构 应用案例 优缺点分析 云计算前景 SI TEAM 孟茶
软件工程基础 云计算概论 刘 驰.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
天涯分布式数据库 云计算部.
中国式的云计算服务模式 中企开源信息技术有限公司 CE Open Source Software.
珠海圖書館資料有限 論文數據庫沒有原文 時間有限 原版書很貴
第5章 网站服务器搭建与管理.
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
亚马逊云计算AWS (Amazon Web Service)
班級:四企四B 指導老師:李文瑞老師 組員: 莊煜麒4950L089 黃暉原4950L109
多媒体技术 中南大学信息科学与工程学院 黄东军.
Cloud Computing Google云计算原理.
第14章 云计算.
103年度 大專院校校外實習學生 團體保險 第一產物保險股份有限公司 營業二部 蔡承瑋 1.
ppt宝藏提供 中国银行业信息化系统建设研讨会
Presentation transcript:

kCloudStorage - 基于云技术的廉价冗余天文海量数据存储 王锋 季凯帆 邓辉 1昆明理工大学 2国家天文台-昆明理工大学天文信息技术联合实验室 2011.11.10 贵阳

SUMMARY 1)研究背景 2)当前存储技术的局限 3)天文需求的描述 4)云存储的关键技术 5)可行性与前期实验结果

Background 数据的存储,是天文信息学的基础。 海量数据的保存,本质上并没有很好的解决。 当前常用的技术 DAS, NAS , SAN DAS – 直接存储 NAS – 网络附加存储 SAN – 存储区域网络

DAS vs NAS architecture Application Servers NAS Appliances or NAS Head Ends Generic Win2k Linux Unix LAN FC Clients Direct Attached Storage Application Servers Win2k Linux Unix Tape SCSI LAN

Storage Area Network (SAN) SAN architecture Storage Area Network (SAN) Database Servers Block Storage Devices Fibre Channel SAN Clients LAN Storage is accessed at block level not at file level Very high performances Storage is shared Good management tools Interoperability issues

天文数据特点 数据特点 1、存在变长大数据段,例如天文观测图片,数据规格有限 拆分变长数据为定长KV 2、数据总量大,PB级数据量 3、更改可能性小 降低分布式事务的严格性,采用不删除 ,更改数据重新分配储存空间的方式规避储存器碎片问题,避免处理空间整理问题,并且保持数据局部顺序性,有利于预读

天文数据需要存储系统 既需要文件系统特性 也有关系数据库的查询需求 1、需要范围查询,例如按照精度纬度查询 B+树实现索引 如果存储按照经纬有序可以采用位图索引 2、顺序存储,顺序读取可能性大 可以采取预读 3、近几年实时处理的要求明显增加 4、有大量的数据导出需求!!!!! 天文数据需要存储系统 既需要文件系统特性 也有关系数据库的查询需求

关系型数据库存储天文数据时的问题 问题 改变 如何改变Google引领方向, 放弃高端设备,使用Commodity Device 1、热备份对性能的影响以及热备的不一致性 2、大数据量 3、磁盘限制导致的QPS瓶颈(SSD) 优雅解决2,3问题往往通过引入高端储存,从而带来高成本 改变 当不优雅的分库分表成为用户解决大数据量的首选办法的时候数据库的革命开始了 如何改变Google引领方向, 放弃高端设备,使用Commodity Device 分布式数据库是必然选择 如何选择索引 如何选择储存 如何实现事务

理想的天文数字库 1、海量 2、分布 3、事务 4、确保一致性 5、可检索查询 6、高速、线速读写 7、随意更换设备 8、任意导出 9、便宜

三个技术点 储存(定长,变长记录) 索引(B+,Hash) 事务(行锁,表锁) 为天文数据设计量体裁衣 三个技术点 储存(定长,变长记录) 索引(B+,Hash) 事务(行锁,表锁)

云存储的现状 Amazon Amazon的云服务主要包括弹性计算云(EC2)、简单存储服务(S3)、简单数据库服务(SimpleDB)。EC2服务偏向计算,S3服务偏向存储,提供IaaS级别的服务,SImpleDB偏向应用,提供PaaS和SaaS级别的服务。 Google Google当数最大的云计算的使用者。Google搜索引擎就建立在分布在200多个地点、超过100万台服务器的支撑之上,这些设施的数量正在迅猛增长。Google地球、地图、Gmail、Docs等也同样使用了这些基础设施。 三篇重要论文基本描述了这种集群的结构 ”WEB SEARCH FOR A PLANET:THE GOOGLE CLUSTER ARCHITECTURE” “The Google File System” “The Chubby lock service for loosely-coupled distributed systems” 淘宝 淘宝具有一个模仿gfs构架的tfs系统,以及配套的cdn网络形成了国内较大规模的云存储平台,主要提供商家宣传图片的存储,淘宝直接针对这种储存服务收费。 Tencent 同样基于gfs构架,为整个腾讯公司提供文件存储服务 什么是云存储 是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统

----------------------------------------------- 分布式文件系统 文件系统存储和数据存储的边界正在缩小 开源的云存储系统和KV数据库 ----------------------------------------------- 分布式文件系统 始祖级别 bigtable,依赖(chubby) Apache的实现 Hbase, Cassandra KV数据库 耳熟能详的 Redis,Mongodb(value是结构数据,实现了结构数据的索引,几乎就是传统数据库,但是不支持事务) 从google提出gfs开始,分布式系统中存储文件变成了分段存储。以hfs为例,这种分布式文件系统使用了64M为一段来存储文件。就是用KV模式组织数据。 NoSQL挑战传统关系型数据库的声音也从四面八方传来。同样也是用KV的方式组织数据。 总结:KV方式用于存储数据,已经成为当下存储系统统一的方式

索引—必然选择KV 从mysql(innodb)说KV 既是数据储存方式也是索引 红色部分,主键B+树索引了每个记录 主键就是Key,记录就是Value 传统关系型数据库,如Oracle,sqlserver,mysql的底层都存在着KV的影子

Key是否支持范围查询决定分布方式 B+ 连续范围分区 (多重索引) Bigtable方式 Hash 一致性hash环算法

基本数据库储存系统 几大特征: 加快查询读取速度 加快写入速度 保证安全 具体做法 充分利用分层储存器,将HotData Cache在内存中 通过日志推后内存数据结构落地 落地时候的两次写 一致性

储存方式-可以选择Tablet leveldb带来的新方法 主要的创新在于SSTable这个结构是天然支持分布的

重说cap理论 为什么大多数KV数据库都选择最终一致性并且不支持事务 消除高端硬件之后,容错性上升为软件的职责 保证强一致性系统的容错性。 可以证明强一致性和容错性矛盾吗? Oracle新推的NoSQL数据支持事务,牺牲了容错性 Consistency, Availability, Partition-tolerance

复杂的分布式事务 假设可以设计可靠的储存组件,在分布式事务中如何实现事务 分布式事务实现的几个话题:提交完整性,控制器故障处理,节点故障处理机制,节点同步的时间开销控制,大数据传输的网络开销

一致性和事务 本身就是矛盾,设想一下什么是最终一致性的事务。 限制读取,增加控制器的负载。 分布式的控制器,要选择paxos? 事务最理想的情况就是同时保证一致性和容错性 最终一致性的事务知否就只能是传统数据库的读写分离模式

典型KV数据库构架 Master1 Master2 Master3 Client A B C D E ControlServer DataServer

DataServer的结构 Request Request Plug-ins Response Plug-ins Response Migrate Storage Engine Replicator Mdb Fdb Bdb

ControlServer的结构 Request Paxos DataServer MetaData DataServer MetaData

可行性与前期实验结果

储存系统瓶颈是网络 实验: 在Mongodb上的测试的分片存储数据 结论: 分片对存取性能意义不大 分布式KV可以明显提高存储提高并发存储能力

如何保证索引和数据的一致性 思路: 简化一致性模型: 讨论: 本地存储索引的可行性 只要在本地计算机存储,远程集群存储观测数据就可以简化系统的一致性模型 即改多机提交为单机提交

kCloudStorage - see me next year…. 谢谢。。 Q&A