PB级科研数据集的管理和应用 曙光信息产业(北京)有限公司.

Slides:



Advertisements
Similar presentations
国家税务总局关于修改企业所得税年度纳税申报表( A 类, 2014 年版) 部分申报表的公告(国家税务总局公告 2016 年第 3 号) 一、对《企业基础信息表》( A )及填报说明修改如下: (一) “107 从事国家非限制和禁止行业 ” 修改为 “107 从事国家限制或禁止行业 ”
Advertisements

大数据基础技术和应用. 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用 我们处于数据爆炸的时代 数据库 文字记录 照片 线下数据信息化 网页数据 用户行为记录 数字图像 互联网 - 移动互联网 设备监控 智能家居 摄像头 传感器 地球上至今总共的数据量: 在 2006 年,个人用户才刚刚迈.
2014 年 12 月 企业所得税年度纳税申报表 (A 类, 2014 版 ) 辅导材料(二) A 企业基础信息 A 主表.
第5讲 索引构建 Index construction 授课人:高曙明
景观水池渗漏的研究 年级专业:12级土木工程 指导教师: ××× 教 学 点: ××××教学点 新疆工程学院继续教育学院 20 年 月 日
中华字库的云输入法 王勇 基础软件国家工程研究中心
電子商務:數位時代商機‧梁定澎總編輯‧前程文化 出版
互联网金融之金融数据挖掘 邹永杰 江西财经大学金融学院.
Microsoft Exchange 针对 EMC 存储的最佳做法和设计指导方针
时间与我们的世界 Pb 段心蕊.
工程定额与计价方法 教材名称:工程建设定额原理与实务
建设工程施工管理 模拟卷 一、单项选择题 1.下列选项中,除( )以外都属于施工机械使用费。 A.购置费 B.安拆费及场外运费 C.折旧费 D.修理费.
欢迎各位老师莅临指导! 高中一年级生物 授课人:刘敏 授课班级:C332.
阳光工程引导性培训 宁夏自治区盐池县农广校
門神 在傳統觀念中,門是居住環境中與外界相通的出入口,具有重要的屏障作用。門神顧名思義就是護宅守門的神仙,每逢過年,上至天子百官下至普通百姓,家家戶戶必在門上張貼門神,以保一家平安。 門神種類主要有宅第大門上將軍武門神、內室門戶上祈福文門神,還有童子門神、仙子門神等,形象豐富多樣,皇家貴戚還往往在畫上瀝粉貼金,十分吉祥喜慶。
《毛泽东思想和中国特色社会主义体系概论》 第一章马克思主义中国化两大理论成果
2010年春季开学学校食堂食品安全知识培训 徐汇区食品药品监督所
进出口食品检验监管 基础讲课内容 我国进出口食品安全管理体系介绍 法律法规 进口食品的检验检疫 出口食品的检验检疫.
授课班级 安全技术管理0605班 第 5 次 课 授课时间 2008年3月10日 星期一 授课地点 科技楼401多媒体教室 课题内容:
2015版《中国地震动参数区划图》 对我市城乡建设的影响
ZADL ZADL建设情况报告 ZADL省中心 · 竺海康 衢州.
国家公共文化服务体系建设 专家委员会 委员 冯 守 仁
第二章 项目一:企业厂区与车间平面设计 1.
總務處營繕組簡報 1.業務職掌 2.九十四年度工作績效 3.工程一覽 4.歷年工作成果 5.未來展望 6.困難及建議.
共产党员致力 新疆油田信息化建设 数据公司信息业务党支部 2013年6月.
云计算业务应用-数据挖掘.
2014年企业所得税汇算清缴相关税收政策 新华区地方税务局 卿继红
基于大数据的智慧北京推进策略 北京市经济和信息化委员会 2014年6月.
第十章 季节施工 ——冬期施工准备.
危险废物环境管理情况 河南省固体废物管理中心  韩晓晗 2007年6月6日.
第11章 海量信息存储 主讲:刘方明 副教授 华中科技大学计算机学院
SA120/SAS112/NAS产品介绍 2013 LENOVO INTERNAL. All rights reserved.
大数据革命与大众生活变革 黄欣荣 博士 教授 江西财经大学 马克思主义学院
食品添加剂生产许可审查通则起草说明.
提升课堂质量 助推教师成长 促进教学改革 “一师一优课,一课一名师”活动总结 河南省实验小学.
云存储的应用及未来.
概述 检索图书的检索工具 检索期刊的检索工具 检索特种文献的检索工具
餐饮服务从业人员 食品安全知识培训 孔莉 朔州市食品药品监督管理局.
首次数据采集填报说明 内蒙古自治区校车信息管理系统 靳 丽 内蒙古自治区教育信息中心 2013年5月
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
防空地下室审批要点 主讲人:陈玉亭.
一 二 三 四 五 六 七 项目建设总体情况 建设工作机制与举措 项目建设进展 建设经费投入与使用 贡献与示范 典型案例
治超新政相关文件解读 厅执法局 江涛 二零一六年九月.
科技服务业统计 报表填报说明 江苏省科技统计中心 2008年12月 镇江.
大数据时代带给我们的生活改变 北京塔塔信息咨询有限公司.
大数据在医疗行业的应用.
第6章 数媒资产管理系统的存储技术 刘士军 1、光纤通道
关于加强城市排水防涝有关政策解读 吉林省住房和城乡建设厅 臧 锐.
模块1 计算机基本操作技术 项目1.1 认识计算机.
電子商務未卜先知的利器 大數據 Big Data
云计算之分布式计算.
A3-1 數字系統 A3-2 資料表示法 A3-3 資料的儲存
淘宝核心系统数据库组 余锋 利用新硬件提升数据库性能 淘宝核心系统数据库组 余锋
信息存储与管理 国家天文台 (科技处)信息与计算中心.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
Homework 1(上交时间:10月14号) 倒排索引.
第2章 電腦硬體知識 2-1 電腦基本硬體結構 2-2 電腦的週邊設備 2-3 電腦的操作與保養
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
大数据与物流 沈庆琼 物流教研室.
校园之路.
A Big Data Framework for u-Healthcare Systems Utilizing Vital Signs
香港傳統的農村生活.
熟能生巧、每日一练: 五分钟打字练习.
2-1 數位化概念 2-2 資料的數位化 ※ 2-3 基本數位邏輯處理
知识点六 草原资源保护法及渔业资源保护法.
基于云计算及数据挖掘技术的海量数据处理研究
第三章 世界文明的蛻變與互動 第一節 歐洲社會的蛻變 第二節 世界文明的交匯 第三節 亞洲大帝國的發展 1.
爱数AnyShare3.0 ————新品介绍.
Cloud Computing Google云计算原理.
大数据发展的问题与方向 中国信通院云大所.
Presentation transcript:

PB级科研数据集的管理和应用 曙光信息产业(北京)有限公司

畅想虚拟世界 虚拟天文台数据模型 虚拟天文台存储需求 海量存储技术 大数据技术 曙光海量数据解决之道 致谢

畅想虚拟世界

畅想虚拟世界 虚拟世界的本质???

畅想虚拟的世界 从电影开始说起…… 2D 3D 4D 虚拟世界

畅想虚拟世界 虚拟世界的基础??? 承载信息的存储介质

虚拟天文台数据模型

虚拟天文台定义 在天文学中对整个天区进行观测、普查称为巡天。利用伽马射线巡天、 X射线巡天、紫外巡天、光学巡天、红外巡天和射电巡天所得到的观 测数据,用适当的方法对数据进行统一规范的整理、归档,便可以构 成一个全波段的数字虚拟天空;而根据用户要求获得某个天区的各类 数据,就仿佛是在使用一架虚拟的天文望远镜;如果再根据科学研究 的要求开发出功能强大的计算工具、统计分析工具和数据挖掘工具, 就相当于拥有了虚拟的各种探测设备。

虚拟天文台数据模型 阐述这种数据模型的发展历史,当前,以及未来挑战及可能的发展方向。

虚拟天文台对存储的需求

虚拟天文台对存储的需求 数据特征 类型: 文件大小: 容量: 其他: 数据库、FITS文件、VOTable文件、普通文本文件等 文件大小: 大小不一,如FITS一般可能在100KB~几十MB。 容量: 增长快,总量大。 每天数TB级的数据增长,需要构建PB级存储。 其他: 一次写入,多次读,少修改。数据写入主要在晚上。 天文信息科学已经进入了海量数据时代。海量数据的存储、管理、快速检索已经成为当前最为紧迫的任务。虚拟天文台对海量存储技术及大数据处理技术提出了新的挑战和需求。

极高性能需求 高并发度: 高聚合带宽: 高IOPS: 性能需求 高性能及公众服务,访问量大,因此并发度要求极高。 访问量大,因此总的聚合带宽要求较高。 高IOPS: 检索及画图等交互性的数据读取需要很快的响应。 以科研为目的的计算密集型和数据密集型高性能计算,同时还向公众提供多种数据服务。

较高可用需求 稳定可靠需求 挑战 计算过程中的数据和计算结果需要准确可靠。 存储服务器故障对数据的影响 部分数据,如原始数据和其他输入文件等需要长期保持准确可靠。很多原始观测数据的观测条件很难重现,数据一旦丢失或损坏将造成极大的损失。 计算过程中的数据和计算结果需要准确可靠。 挑战 存储服务器故障对数据的影响 磁盘损坏对数据的影响 网络故障对数据的影响 静默数据损坏的影响等等

可扩展性 天文观测数据及二次分析产生的数据总量增长极快,数据宝贵不可删除。 要求存储高度可扩展。 容量扩展无上限 容量增长的同时获得性能的线性增长 扩展简单,按需扩展 可实现动态扩展,扩容不影响在线业务 天文观测数据及二次分析产生的数据总量增长极快,数据宝贵不可删除。 要求存储高度可扩展。

简易性需求 挑战 管理简易性需求 容易上手,无需学习新知识。无需招聘专门人才。 计算机知识工具。宝贵的时间应该专注于科学研究。 更多硬件单元意味着更多的故障点。 复杂系统协调运作难度增加。

其他需求 低TCO 后端存储容量及负载均衡 资源整合及应用、负载的隔离 初期建设投入 管理成本 扩容成本 文件大小不一,访问频度不同,需要实现容量及负载的均衡。 资源整合及应用、负载的隔离 资源整合及应用、负载的隔离。比如,气象计算和云计算、办公系统等业务系统存储资源的整合。

海量存储技术

海量存储技术 传统存储的局限性 DAS SAN NAS 存在性能瓶颈 单套系统扩展能力有限 为结构化数据存取设计 只提供存储空间 自身无法实现文件共享

海量存储技术 并行文件系统 并行文件系统是目前解决非结构化海量数据存储最为可靠有效的存储技术。

海量存储技术 共享式集群文件系统和非共享式文件系统

海量存储技术 对称式集群文件系统和非对称集群文件系统

海量存储技术 SPI集群文件系统和SFI集群文件系统

海量存储技术 高级技术 文件系统快照 文件系统备份 多副本技术 故障切换 重复数据删除 分布式锁 其他

大数据技术

什么是海量数据/大数据(BigData) 简单定义 “大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管 理和处理的数据集合”——维基百科 特征抽象 Volume 数据量大。从几TB到数PB,单个飞机引擎半小时产生10TB Variety-数据类型复杂 交易记录、文本,音频,视频,点击流量,特殊格式的数据集 Velocity 需要快速处理 Value 从低价值密度的海量数据中获取有用信息 简单分类 结构化数据——数据库表格 非结构化数据——文件

业内通常的应对方案 并行查询引擎 MapReduce MPI 能有效的用于索引和检索大量的结构化数据集合,但不适合用于 非结构化的数据。 典型产品 Oracle/DB2/SQlServer MapReduce MapReduce为并行系统的数据处理,提供了一个简单的方法 擅长处理半结构化数据 开源实现——hadoop MPI 标准的可移植的消息传递接口,可以并行 的对数据进行处理 擅长处理海量大块非结构化数据 开源实现——OpenMPI

大数据技术 大数据产业链

hadoop关键技术:Mapreduce MapReduce是一种编程模型,用于大规模数据集(大于 1TB)的并行运算。概念“Map(映射)”和“Reduce (化简)”,和他们的主要思想,都是从函数式编程语言 里借来的,还有从矢量编程语言里借来的特性。他极大地 方便了编程人员在不会分布式并行编程的情况下,将自己 的程序运行在分布式系统上。 当前的软件实现是指定一 个Map(映射)函数,用来把一组键值对映射成一组新的 键值对,指定并发的Reduce(化简)函数,用来保证所 有映射的键值对中的每一个共享相同的键组。

Mapreduce工作流程

其他大数据技术

曙光解决之道

曙光的海量数据产品组合 海量半结构化数据处理和挖掘平台 海量结构化数据处理平台 海量文件存储系统 XData Hadoop ParaStor

曙光Parastor200云存储系统 1.并行存储架构解决高聚合带宽和高并发访问需求,高可扩展性,可扩展至EB级。 2.元数据服务器全活,强大的元数据处理能力,长于处理海量小文件IO。 3.分级存储解决瞬时高带宽需求,消除热点数据带宽瓶颈。 4.图形化管理界面可完成安装配置,管理维护,客户端管理等操作。 5.全冗余架构提高系统可用性 6.多副本机制及数据校验提高数据安全。

高性能:容量&&性能 EB级容量 TByte/s级IO带宽 ParaStor200的系统容量和性能随着存储节点的增加动态扩展!

高可扩展性 LAN 并行数据I/O 并行数据I/O 数据控制器 数据控制器 数据控制器 数据控制器 数据控制器 数据控制器 1 2 1 2 1 2 P200另一个突出的优势就是高可扩展性,用户可以根据当前的实际需要构建一个合适规模的存储系统,如果随着其业务增加或是升级带来了对存储系统更大容量或是更高性能的需求,该用户可以再购买相应的模块整合到原有的存储系统中,整合后的存储系统容量和聚合带宽供前端所有的应用服务器共享。从而可以方便的实现存储系统容量和性能的按需动态扩展,消除了采用SAN磁盘阵列产品或是单机NAS产品其性能和容量扩展受限于其机头性能的瓶颈。 扩展后 3 4 3 4 3 4 数据控制器 数据控制器 数据控制器 1 2 1 2 1 2 初始状态 3 4 3 4 3 4

高度共享 统一命名空间管理近乎无限可用的存储池 多粒度数据共享 支持多达6万4千个文件系统 单一文件系统规模可扩展至16PB以上 单文件系统高并发 多文件系统并存 单文件并发操作 应用一 LVM1 应用二 LVM2 应用三 LVM3 虚拟存储池 SAS硬盘 SSD硬盘 SATA硬盘

高度共享:高利用率 统一的存储池,共享存储空间 LUN1 LUN 2 LUN3 传统方式 waste waste 空间不足 < 40% 利用率 ParaStor200 目录1 目录 2 目录 3 从应用角度 从系统角度 (>90% 利用率) 统一的存储池,共享存储空间

高可靠性 /home /appl /data /web /home/appl/data/web/important_big_spreadsheet.xls /home/appl/data/web/important_big_spreadsheet.xls 逻辑层 /home/appl/data/web/big_architecture_drawing.ppt /home/appl/data/web/big_architecture_drawing.ppt /home/appl/data/web/unstructured_big_video.mpg /home/appl/data/web/unstructured_big_video.mpg 索引控制器 索引控制器 以太网交换机1 以太网交换机2 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10 10 11 11 a a b b c c d d e e f f g g h h i i j j k k l l A A B B C C D D E E F F G G H H I I J J K K L L 物理层 1 2 A B C

高易用性——ParaStor管理系统 产品功能 ParaStor并行存储管理系统是曙光公司专为ParaStor系列产品开发的统一监控管理平台。直观易懂的图形界面方便用户管理和监控系统的软硬件资源。 产品功能 管理维护提供服务启动停止和节点上线离线功能 文件系统管理提供文件系统查询、文件系统创建、文件系统删除功能 客户端管理提供客户端查询、增加删除客户端以及修改客户端功能 安装配置为管理员提供系统的安装卸载、节点扩容删除、系统升级、数据删除、数据磁盘增加删除、配置修改、配置备份恢复功能 监控管理提供元数据服务器、数据服务器、缓存服务器子系统,以及并行文件系统、存储系统的监控

深圳超算中心:“星云”云存储系统 采用ParaStor200并行存储系统提供16PB海量存储空间 单系统容量16PB! 目前国内最大! 满足华南高性能计算用户动态多变、高性能的存储资源需求 为每位深圳市民配置200GB云盘空间 深圳智能交通流量控制系统 单系统容量16PB! 目前国内最大!

XData海量数据处理平台 监控信息统计分析系统 音视频检索、处理系统 海量短文本检索系统 移动互联网业务分析系统 跨业务系统的行为跟踪系统