PB级科研数据集的管理和应用 曙光信息产业(北京)有限公司
畅想虚拟世界 虚拟天文台数据模型 虚拟天文台存储需求 海量存储技术 大数据技术 曙光海量数据解决之道 致谢
畅想虚拟世界
畅想虚拟世界 虚拟世界的本质???
畅想虚拟的世界 从电影开始说起…… 2D 3D 4D 虚拟世界
畅想虚拟世界 虚拟世界的基础??? 承载信息的存储介质
虚拟天文台数据模型
虚拟天文台定义 在天文学中对整个天区进行观测、普查称为巡天。利用伽马射线巡天、 X射线巡天、紫外巡天、光学巡天、红外巡天和射电巡天所得到的观 测数据,用适当的方法对数据进行统一规范的整理、归档,便可以构 成一个全波段的数字虚拟天空;而根据用户要求获得某个天区的各类 数据,就仿佛是在使用一架虚拟的天文望远镜;如果再根据科学研究 的要求开发出功能强大的计算工具、统计分析工具和数据挖掘工具, 就相当于拥有了虚拟的各种探测设备。
虚拟天文台数据模型 阐述这种数据模型的发展历史,当前,以及未来挑战及可能的发展方向。
虚拟天文台对存储的需求
虚拟天文台对存储的需求 数据特征 类型: 文件大小: 容量: 其他: 数据库、FITS文件、VOTable文件、普通文本文件等 文件大小: 大小不一,如FITS一般可能在100KB~几十MB。 容量: 增长快,总量大。 每天数TB级的数据增长,需要构建PB级存储。 其他: 一次写入,多次读,少修改。数据写入主要在晚上。 天文信息科学已经进入了海量数据时代。海量数据的存储、管理、快速检索已经成为当前最为紧迫的任务。虚拟天文台对海量存储技术及大数据处理技术提出了新的挑战和需求。
极高性能需求 高并发度: 高聚合带宽: 高IOPS: 性能需求 高性能及公众服务,访问量大,因此并发度要求极高。 访问量大,因此总的聚合带宽要求较高。 高IOPS: 检索及画图等交互性的数据读取需要很快的响应。 以科研为目的的计算密集型和数据密集型高性能计算,同时还向公众提供多种数据服务。
较高可用需求 稳定可靠需求 挑战 计算过程中的数据和计算结果需要准确可靠。 存储服务器故障对数据的影响 部分数据,如原始数据和其他输入文件等需要长期保持准确可靠。很多原始观测数据的观测条件很难重现,数据一旦丢失或损坏将造成极大的损失。 计算过程中的数据和计算结果需要准确可靠。 挑战 存储服务器故障对数据的影响 磁盘损坏对数据的影响 网络故障对数据的影响 静默数据损坏的影响等等
可扩展性 天文观测数据及二次分析产生的数据总量增长极快,数据宝贵不可删除。 要求存储高度可扩展。 容量扩展无上限 容量增长的同时获得性能的线性增长 扩展简单,按需扩展 可实现动态扩展,扩容不影响在线业务 天文观测数据及二次分析产生的数据总量增长极快,数据宝贵不可删除。 要求存储高度可扩展。
简易性需求 挑战 管理简易性需求 容易上手,无需学习新知识。无需招聘专门人才。 计算机知识工具。宝贵的时间应该专注于科学研究。 更多硬件单元意味着更多的故障点。 复杂系统协调运作难度增加。
其他需求 低TCO 后端存储容量及负载均衡 资源整合及应用、负载的隔离 初期建设投入 管理成本 扩容成本 文件大小不一,访问频度不同,需要实现容量及负载的均衡。 资源整合及应用、负载的隔离 资源整合及应用、负载的隔离。比如,气象计算和云计算、办公系统等业务系统存储资源的整合。
海量存储技术
海量存储技术 传统存储的局限性 DAS SAN NAS 存在性能瓶颈 单套系统扩展能力有限 为结构化数据存取设计 只提供存储空间 自身无法实现文件共享
海量存储技术 并行文件系统 并行文件系统是目前解决非结构化海量数据存储最为可靠有效的存储技术。
海量存储技术 共享式集群文件系统和非共享式文件系统
海量存储技术 对称式集群文件系统和非对称集群文件系统
海量存储技术 SPI集群文件系统和SFI集群文件系统
海量存储技术 高级技术 文件系统快照 文件系统备份 多副本技术 故障切换 重复数据删除 分布式锁 其他
大数据技术
什么是海量数据/大数据(BigData) 简单定义 “大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管 理和处理的数据集合”——维基百科 特征抽象 Volume 数据量大。从几TB到数PB,单个飞机引擎半小时产生10TB Variety-数据类型复杂 交易记录、文本,音频,视频,点击流量,特殊格式的数据集 Velocity 需要快速处理 Value 从低价值密度的海量数据中获取有用信息 简单分类 结构化数据——数据库表格 非结构化数据——文件
业内通常的应对方案 并行查询引擎 MapReduce MPI 能有效的用于索引和检索大量的结构化数据集合,但不适合用于 非结构化的数据。 典型产品 Oracle/DB2/SQlServer MapReduce MapReduce为并行系统的数据处理,提供了一个简单的方法 擅长处理半结构化数据 开源实现——hadoop MPI 标准的可移植的消息传递接口,可以并行 的对数据进行处理 擅长处理海量大块非结构化数据 开源实现——OpenMPI
大数据技术 大数据产业链
hadoop关键技术:Mapreduce MapReduce是一种编程模型,用于大规模数据集(大于 1TB)的并行运算。概念“Map(映射)”和“Reduce (化简)”,和他们的主要思想,都是从函数式编程语言 里借来的,还有从矢量编程语言里借来的特性。他极大地 方便了编程人员在不会分布式并行编程的情况下,将自己 的程序运行在分布式系统上。 当前的软件实现是指定一 个Map(映射)函数,用来把一组键值对映射成一组新的 键值对,指定并发的Reduce(化简)函数,用来保证所 有映射的键值对中的每一个共享相同的键组。
Mapreduce工作流程
其他大数据技术
曙光解决之道
曙光的海量数据产品组合 海量半结构化数据处理和挖掘平台 海量结构化数据处理平台 海量文件存储系统 XData Hadoop ParaStor
曙光Parastor200云存储系统 1.并行存储架构解决高聚合带宽和高并发访问需求,高可扩展性,可扩展至EB级。 2.元数据服务器全活,强大的元数据处理能力,长于处理海量小文件IO。 3.分级存储解决瞬时高带宽需求,消除热点数据带宽瓶颈。 4.图形化管理界面可完成安装配置,管理维护,客户端管理等操作。 5.全冗余架构提高系统可用性 6.多副本机制及数据校验提高数据安全。
高性能:容量&&性能 EB级容量 TByte/s级IO带宽 ParaStor200的系统容量和性能随着存储节点的增加动态扩展!
高可扩展性 LAN 并行数据I/O 并行数据I/O 数据控制器 数据控制器 数据控制器 数据控制器 数据控制器 数据控制器 1 2 1 2 1 2 P200另一个突出的优势就是高可扩展性,用户可以根据当前的实际需要构建一个合适规模的存储系统,如果随着其业务增加或是升级带来了对存储系统更大容量或是更高性能的需求,该用户可以再购买相应的模块整合到原有的存储系统中,整合后的存储系统容量和聚合带宽供前端所有的应用服务器共享。从而可以方便的实现存储系统容量和性能的按需动态扩展,消除了采用SAN磁盘阵列产品或是单机NAS产品其性能和容量扩展受限于其机头性能的瓶颈。 扩展后 3 4 3 4 3 4 数据控制器 数据控制器 数据控制器 1 2 1 2 1 2 初始状态 3 4 3 4 3 4
高度共享 统一命名空间管理近乎无限可用的存储池 多粒度数据共享 支持多达6万4千个文件系统 单一文件系统规模可扩展至16PB以上 单文件系统高并发 多文件系统并存 单文件并发操作 应用一 LVM1 应用二 LVM2 应用三 LVM3 虚拟存储池 SAS硬盘 SSD硬盘 SATA硬盘
高度共享:高利用率 统一的存储池,共享存储空间 LUN1 LUN 2 LUN3 传统方式 waste waste 空间不足 < 40% 利用率 ParaStor200 目录1 目录 2 目录 3 从应用角度 从系统角度 (>90% 利用率) 统一的存储池,共享存储空间
高可靠性 /home /appl /data /web /home/appl/data/web/important_big_spreadsheet.xls /home/appl/data/web/important_big_spreadsheet.xls 逻辑层 /home/appl/data/web/big_architecture_drawing.ppt /home/appl/data/web/big_architecture_drawing.ppt /home/appl/data/web/unstructured_big_video.mpg /home/appl/data/web/unstructured_big_video.mpg 索引控制器 索引控制器 以太网交换机1 以太网交换机2 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10 10 11 11 a a b b c c d d e e f f g g h h i i j j k k l l A A B B C C D D E E F F G G H H I I J J K K L L 物理层 1 2 A B C
高易用性——ParaStor管理系统 产品功能 ParaStor并行存储管理系统是曙光公司专为ParaStor系列产品开发的统一监控管理平台。直观易懂的图形界面方便用户管理和监控系统的软硬件资源。 产品功能 管理维护提供服务启动停止和节点上线离线功能 文件系统管理提供文件系统查询、文件系统创建、文件系统删除功能 客户端管理提供客户端查询、增加删除客户端以及修改客户端功能 安装配置为管理员提供系统的安装卸载、节点扩容删除、系统升级、数据删除、数据磁盘增加删除、配置修改、配置备份恢复功能 监控管理提供元数据服务器、数据服务器、缓存服务器子系统,以及并行文件系统、存储系统的监控
深圳超算中心:“星云”云存储系统 采用ParaStor200并行存储系统提供16PB海量存储空间 单系统容量16PB! 目前国内最大! 满足华南高性能计算用户动态多变、高性能的存储资源需求 为每位深圳市民配置200GB云盘空间 深圳智能交通流量控制系统 单系统容量16PB! 目前国内最大!
XData海量数据处理平台 监控信息统计分析系统 音视频检索、处理系统 海量短文本检索系统 移动互联网业务分析系统 跨业务系统的行为跟踪系统