FitHAS: FITS 头分析入库系统 于建军 中科院网络中心
主要内容 背景 FitHAS 体系结构 下一步工作 总结
背景 虚拟天文台环境 海量天文数据的存储和访问 e-Science/ 网格技术
虚拟天文台( Virtual Observatory ) 定义: – 利用先进的信息技术将各种天文研究资源以统一的服 务模式无缝透明地汇集到一起,形成一个统一的数据 密集型的网络化天文研究与科普教育平台 – 虚拟天文台吸收了网格等先进技术,将集成海量天文 资源,提供丰富的服务 核心问题是数据处理 – 海量天文数据是向天文学家和社会各界提供天文数据 服务的重要基础 – 需要在 VO 环境下有效地组织数据资源,挖掘海量数据 的潜力,从而使这宝贵的资源能为国内外的天文学家 乃至社会各界所更好地使用,真正发挥其巨大的作用
海量天文数据 目前: – 国际上公开的天文数据已经达到上百 TB 量级 – 一些观测项目的数据日产出数量甚至以十亿甚 至十万亿的量级来计算 未来: – 将达到 PB 量级 传统的数据存储和管理的方式已很难满足 海量天文数据的存储和访问要求
天文数据处理 在虚拟天文台环境下 – 如何对海量数据进行有效存储成为一个亟待解 决的问题 – 如何对海量数据进行快速有效的访问,也是关 系到虚拟天文台服务能力的重要课题
e-Science 技术 定义 –e-Science is about global collaboration in key areas of science, and the next generation of infrastructure that will enable it.” –By 英国 e-Science 倡导者 John Taylor, 2001
为什么要引入 e-Science 技术 解决现代科学研究的巨大挑战 – 科学研究问题空前复杂化 – 科学研究对象不是简单孤立系统,而是涵盖更 大的范围,跨学科 – 科研信息、数据的实时获取与处理,仿真与大 规模计算成为分析、发现和预测的主要手段 – 科学家之间密切的合作与交流
e-Science 的意义 使得全球性的、跨学科的、大规模科研合 作,跨越时间、空间、物理障碍的资源共 享与协同工作成为可能 将改变科学家们从事科研活动的方法和模 式,极大地促进交流合作,推动科学研究 的发展 科研信息化是整个社会信息化的前卫,是 下一代互联网络技术及信息基础设施在科 研领域的率先应用
网格技术 网格技术的最终目标: – 把整个互联网整合成一台巨大的超级计算机 – 实现计算资源、存储资源、数据资源、信息资 源、知识资源、专家资源的全面共享 – 为用户提供一步到位的服务 e-Science 的核心就是网格技术
e-Science 发展为 VO 提供技术支持 VO 的最终目的: – 实现全球天文数据的高级共享 – 提供一整套的智能化工具 –TB 量级甚至 PB 量级大型天文数据产出项目的不断涌现 VO 的技术需求: – 对数据存储、管理、传输、检索等技术提出了更高的 要求 – 在海量分布式数据的基础上进行科学研究, 就必须有全 新的数据共享、互操作、作业调度、可视化、统计分 析、数据挖掘、安全管理等模型。 VO 的这些需求正是 e-Science 要实现的目标!!!
VO 是 e-Science 的试验床 天文数据有着其他学科数据所无法比拟的特点: – 天文数据绝大部分是开放数据 天文数据很少有商业价值 不存在保密问题,数据和结果可自由共享,非常适合国际性的联 合研究与试验 – 天文数据是海量的数据 例如美国正计划建造的 “ 暗物质望远镜 ” ,每天观测数据高达 18TB – 天文数据是真实而归档完好的数据,并提供在线访问服务 – 天文数据是高度复杂的数据 对数据处理、数据挖掘、可视化等研究提出了挑战。 –VO 要实现对海量天文数据的融合 从 e-Science 网格基础设施的构建,到中间件的开发,最 后到 e-Science 天文应用工具的实现, VO 为 e-Science 提供 了一整套的应用需求
天文数据现状 天文数据 – 包括星表、图像、光谱 – 天文方面的文献和观测日志 – 这些数据一般以文件或数据库形式保存 天文数据文件格式 – 有普通文本文件、 FITS 、 VOTable – 目前很多观测数据以 FITS 文件保存 – 很多数据查询服务将结果包装成 VOTable 形式 – 这些大多是直接处理文件而且是少量文件的应 用
FitHAS 介绍 天文学灵活图像传输系统 FITS –Flexible Image Transport System – 美国 D.C.Wells 等人于 1979 年提出的 –1982 年国际天文协会 (IAU) 接受并推荐将其作为天文台之间 进行图像数据交换的标准格式。 – 在 FITS 的一般结构中,含有若干使用 ASCII 码编写的描述信 息,用于描述数据数组的结构、坐标系统以及附加参数等 –FITS 描述了数据定义和数据编码的一般方法,对一维、二维、 多维的数据类型都提供了合适的转换,不仅适用于天文数据, 还可用于其他学科的图像处理。 目前 FITS 对综合孔径、甚大阵、 CCD 观测记录,以及 CDS 发表的天文星表和 CD-ROM 星表,都提供了较好的 支持
Fits 文件格式 基本结构 – 包含一系列逻辑记录( logical record ),逻辑记录的长 度总是 2880 字节,因此一个 FITS 文件的大小是 2880 的 整数倍。 – 一个逻辑记录中,一般会包含一个或多个头部数据单 元( Header and Data Unit , HDU ) – 每个 HDU 是由一个头部以及其所描述的数据数组所组 成。 – 在一个 FITS 文件含有多个 HDU 时,第一个头部数据单 元也就是主头部数据单元 – 基本 FITS 文件包含主头部和一个主数据数组。 Fits 文件中图像数据 – 以 FORTRAN-77 规则存储,低字节在前
Fits 头部 FITS 的头部是通过一组卡片映象( Card image )来描述数据数组 – 每一个卡片映象都是一个 80 字节长的使用 ASCII 编码的字符串 – 这些卡片映象的最后需要以 “END” 关键词作为 结束标志,其后直到头部结束都用空格填满
Fit 头 - 元数据 Fit 文件中包含的元数据 –FITS 和 VOTable 具有一定的结构化 特征 – 比如 FITS 文件中会出现以 ASCII 编码的用于描述图像位 置信息等的部分 – 在天文学领域,元数据是用于描述档案、档案提供的 服务、其中的数据集合、每个数据集合的结构和语义 以及数据集合中每个数据集的结构和语义。 元数据包含了一些重要描述信息 – 典型的元数据可以是用来描述星表、图像或光谱等数 据对象的信息 – 包括天文学家在检索和筛选数据文件时所需要的判断 依据,如坐标信息等; – 同时还有一些可以作为简单数据处理所使用的输入信 息
Fits 头元数据示例
FitHAS 需求 已初步积累数据 –China-VO 通过多年的天文观测以及与其他国家的交流,已 获得大量的天文数据,并且数据的总量还将随着各巡天项目 不断的数据产出而增长 需要整理和归档 – 为 China-VO 的海量天文数据管理的规划和决策提供理论依 据,并为进一步发布天文数据和开发数据访问服务打下良好 的基础 自动化工具支持 – 开发通用天文数据的归档和管理工具,以解决目前 China- VO 面临的海量数据归档和管理中遇到的问题,并为未来大 天区多目标光纤光谱望远镜( LAMOST )等项目的数据管理 提供有效易用的工具,提高我国天文研究工作的效率和技术 水平。
FitHAS 意义 必要性 – 改变靠遍历访问大量的数据文件的做法 可行性 –FITS 有标准的格式约定,并且其头部记录部分采用 ASCII 格式编写, 因此可以方便地提取,也十分适于在数据库中进行灵活的查询 经济性: –FITS 头元数据占用空间较小。 – 以天文台已归档的部分 SDSS 的光谱数据为例, 1T 的 FITS 文件,存 入数据库的元数据所占用的空间仅几百 M 易用性 – 数据库 SQL 语句和结构查询方法,满足用户在海量数据的检索结 果和检索时间上的要求。 关联性 – 在入库的元数据中,还可以扩充其他重要信息,例如文件的位置, 这样就构成了元数据和对应文件之间的一一映射
e-Science 虚拟实验室的重要工具 LAMOST 数据归档 数据中心天文数据归档 e-Science 天文协同环境的第一步 FitHAS LAMOST 数据处理 系统 LAMOST 数据分析 系统 China- VO 天文 e- Science 虚拟 实验室
FitHAS 体系结构
FitHAS 主要功能 FITS 头部浏览 数据库元数据表的浏览 单一 FITS 文件的归档处理向导 FITS 文件的批量归档管理向导
FitHAS Feature FITS 头部解析和浏览 FITS 元数据和数据库中表模式的自动映射 存储 FITS 元数据的数据库表模式自动生成 单一 FITS 文件的入库归档 FITS 文件批量入库归档 数据库中元数据表的浏览 数据管理的可视化界面和完整归档管理流程 的用户向导 归档文件的过滤器筛选
FitHAS Feature ( 续 ) 元数据记录的冲突检测与处理 – 跳过冲突记录,其他照常导入 – 更新原有记录,其他照常导入 – 全部清空再导入记录 国际化支持 文件归档参数设置 数据库统一配置
FitHAS 目标 屏蔽不同 FITS 文件的差异 向用户提供统一的接口 对大量的 FITS 文件进行快速有效的访问和 方便的管理 有效满足 China-VO 对于海量数据存储和访 问的需求,同时具有很强的可扩展性
FitHAS 示例 - 主界面
FitHAS 示例 - 数据库配置
FitHAS 示例 - 数据浏览
FitHAS 示例 - 数据导入
FitHAS 导入效率
总结 FitHAS 有效解决 China-VO 所面临的从海量 数据中构造元数据层的难题 FitHAS 是实现天文 e-Science 协同环境的第 一步
下一步工作 年底 FitHAS 2.0 正式发布 FitHAS 2.0 开发 –Grid Service 接口 – 命令行接口 – 完整性检验 – 文档压缩
致谢 FitHAS 1.2 是由天津大学和国家天文台共同 完成开发 FitHAS 2.0 是在 1.2 基础上的进一步开发
谢谢!