科学工作流技术及在天文研究中的应用探讨 昆明理工大学 中国科学院云南天文台 关宇 邓辉 王锋 季凯帆 许骏
Contents 背 景 1 科学工作流技术(SWF) 2 对数据处理模式的改变 3 总 结 4 科学工作流技术(SWF) 2
背景 上世纪后期以来,天文学研究获得了突飞猛进的进展,主要推动力来自于众多的地面和空间的大中型观测设备所产生的海量观测数据。
数据的开放和共享使科学产出趋于最大化和最优化,对天文研究有一定的推动作用 背景 星表 TB级 数据释放平台(天文数据库) 多波段天文数据交叉证认检索 查询数据库 数据 PB级 数据的开放和共享使科学产出趋于最大化和最优化,对天文研究有一定的推动作用
背景 在数据处理与展现系统的实现过程中,科学工作流(Scientific Workflow)技术起到了关键性作用。 科学工作流针对科学研究工作的特点,专注于大规模科学处理(e-Science)的定制,对科学数据进行管理、分析、模拟、仿真,提供辅助科学发现的环境。
背景 目前,科学工作流在生物领域、经济学等领域已经有了系统原型和初步应用。 Taverna 生物信息学 Kepler 理工类诸多学科 Triana 信号、文本、图片处理 DiscoveryNet 商业性质 GridNexus 将科学工作流应用于科学数据的处理和展现,对科学研究的应用有一定的推动作用。
科学工作流(SWF) 工作流定义 工作流(Workflow) 是一类能够完全或者部分自动执行的经营过程,根据一系列过程规则,文档、信息或任务能够在不同的执行者之间传递、执行。 --Workflow Management Coalition 工作流(Workflow) 是一系列用来管理业务处理或计算活动的运营操作或任务。 --Workflows for e-Science
科学工作流(SWF) 科学工作流定义 科学工作流(Scientific Workflow),是指将一系列在科学研究中所遇到的数据管理、计算、分析、展现等工作变成一个个独立的服务,再把这些服务通过数据链接组合在一起,满足研究人员在科学实验和数据处理中的需要,从而实现相应的处理与科学计算。
科学工作流(SWF) 特点一 SWF BWF 科学工作流采用数据驱动(Data Driven)模式 Data Driven Command Driven - 依赖于科学实验数据 在数据处理过程中,前一级的数据 输出成为后一级处理的数据输入 - 以业务为导向 工作流中的某个任务在满足规定的 控制条件才会被触发执行
科学工作流(SWF) 特点二 SWF BWF 科学工作流的定义与设计是全动态的 动态工作流 静态工作流 - 设计过程中,整个任务序列是未知 或者不确定的,需要依据前一个任 务的处理结果才能确定下一处理任 务,或者需要随时动态调整某几个 处理任务来尽可能满足研究需求 可重用,可不断完善,可重现 业务工作流是由工程师用专业软件 创建的。创建的工作流一旦使用就 不会轻易改变
科学工作流(SWF) 特点三 SWF BWF 科学工作流处理的数据量大、数据类型更为复杂 数据类型复杂自由 数据量大 数据类型简单 数据量可预知 天文数据格式: FITS、VOTable、二进制文件 针对企业用户,业务数据格式: Word、PDF、Excel、电子表单
科学工作流(SWF) 特点四 SWF BWF 科学工作流强调数据的可信度 强调数据的可信度 强调“事务” (实现“溯源”)对每一步处理过程的 可信度存在较高要求,对全程数据 的变化过程需要进行监控 以一个整体的长时间运行的商业事 务方式运行 某个子任务执行出错,可实现回退
科学工作流对数据处理模式的改变 过去
科学工作流对数据处理模式的改变 现在 提高处理 数据的效率 代码模块化 科学处理软件包 自动观测系统 批处理、管道技术
科学工作流对数据处理模式的改变 将来 科学工作流 可定制的自动批处理系统 处理的对象可以是数据,也可以是一个计算方法 科学家的工作,就是根据自己科研的需要,通过简单的设置,对数据、处理方法进行组合,构建出一个自动数据处理系统
科学工作流对数据处理模式的改变 基 本 应 用 思 想 功能服务化 业务标准化 科学研究角度的科学工作流 处理分布化 功能定制化 对数据处理中的主要功能进行设计,形成标准化(软件包) 功能服务化 利用 Web Service 将标准化后的功能进一步服务化(服务重用) 处理分布化 调用位于不同服务器的标准服务 利用数据的分布存储提高海量数据的访问效率 功能定制化 对网络上的服务进行任意定制与调用,并可根据业务处理需要,快速变化、组合 科学研究角度的科学工作流 基 本 应 用 思 想
科学工作流对数据处理模式的改变 传统的批处理模式 并行处理的科学工作流处理模式 处理工作量小 处理流程完全固定 处理工作量大
科学工作流对数据处理模式的改变 并行处理的科学工作流处理模式 优势 动态调整处理过程,对计算流程进行灵活重组与再定制,根据实际情况的变化新增或删除某些处理模块 根据处理任务的变化动态调整某一个处理单元的数量,以确保整体的计算能力 容易构建定时执行与自动执行机制,满足全自动处理的需求 优势
总结 科学工作流可以有效地满足当前数据处理、展现、发布等多种需要,对未来数据处理有一定的推动作用。
Thank You!