C-SWF 科学工作流引擎研究进展 Wang feng

Slides:



Advertisements
Similar presentations
云计算辅助教学风云录 黎加厚 上海师范大学教育技术系 2010年8月9日.
Advertisements

軟體工程 -物件導向程式設計與UML系統分析實作
DATE: 14/10/2009 陳威宇 格網技術組 雲端運算相關應用 (Based on Hadoop)
Big Data Ecosystem – Hadoop Distribution
諮商技巧與實務研討 主講人:蔡佩潔臨床心理師 .
面試甄試準備要領 魯真 中興大學管理學院副院長.
世新協同教學 資訊加值服務 -- 從企業界的角度 飛資得的經驗 劉淑德
如何在Elsevier期刊上发表文章 china.elsevier.com
自衛消防編組任務職責 講 義 This template can be used as a starter file for presenting training materials in a group setting. Sections Right-click on a slide to add.
全球科研项目整合检索系统 海研网
生活課程教科書轉化教學實例分享 生活課程輔導團 蕉埔國小王美娟.
商業智慧與資料倉儲 課程簡介 靜宜大學資管系 楊子青.
都市計畫概論論文概述及評論: 彰化高鐵站區域計畫
知识点回顾 太阳辐射 全球(单圈)环流 三圈环流 气压带、风带 气压带、风带季节移动 受热不均 高低纬 地球自转偏向力 近地面
.NET Framework 3.0 Windows WorkFlow Foundation 工作流设计
Microsoft .NET 第4組 十月15, 2002 B 陳東傑 B 蔣佳勳
國立台灣師範大學 資訊教育系 葉耀明 從SCORM數位學習到ebXML儲存庫 國立台灣師範大學 資訊教育系 葉耀明
Excellence in Manufacturing 卓 越 制 造
XML資料傳輸 黃笠宸 4/3.
軟體原型 (Software Prototyping)
佐登妮斯大樓監控系統簡介 圓 泰 科 技 1.
圖形溝通大師 Microsoft Visio 2003
中国散裂中子源小角谱仪 的实验数据格式与处理算法 报告人:张晟恺 中国科学院高能物理研究所 SCE 年8月18日
EViews操作簡介 2013/11/06.
移动系统的安全: 攻击和防御 杜文亮 教授 Dept. of Elec. Eng. & Comp. Sci.
Guide to Freshman Life Prepared by Sam Wu.
Decision Support System (靜宜資管楊子青)
Eviews 操作 2012/11.
China Standardization activities of ITS
Summer English and Data Science
彭丰林 王丹 祁民 沈晓阳 张健 黄清华 中国虚拟地磁台建设构想 PENG Fenglin, WANG Dan, QI Min, SHEN Xiaoyang, HUANG Qinghua 彭丰林 王丹 祁民 沈晓阳 张健 黄清华
软件服务生态中的非确定性科学问题、互操作性的应用基础问题
「寬頻匯流網路管理」教材 模組四: 第一章 網路管理架構
第一讲 J2EE基础 博和利初级培训 —开发技能.
大學專題介紹 M-Kaigo老人心靈介護系統
簡易 Visual Studio 2005 C++ 使用手冊
軟體工程:如何開發軟體? 把它看成是一件工程。 那麼就會有一些工具、技術、方法,也有管理的議題。
Decision Support System (靜宜資管楊子青)
服務於中國研究的網絡基礎設施 A Cyberinfrastructure for Historical China Studies
学术 答辩 课程题目 姓名 | 班级 | 学号 | 专业 |.
虚拟天文台数据访问 客户端设计与实现 杨阳 指导老师: 赵永恒研究员、崔辰州副研究员.
企業e化的藍圖 陳銓鑛 知識長 艾爾法科技公司.
IBM SWG Overall Introduction
TinyOS 石万兵 2019/4/6 mice.
資料結構 Data Structures Fall 2006, 95學年第一學期 Instructor : 陳宗正.
沙勇忠 Sha Yongzhong 兰州大学图书馆 Library of Lanzhou University
电子商务 王素凤
高性能计算与天文技术联合实验室 智能与计算学部 天津大学
Guide to a successful PowerPoint design – simple is best
Total Review of Data Structures
软件工程 第四章 软件设计 软件过程设计技术与工具.
Tutorial: Search and Browse (檢索和瀏覽) Project MUSE.
计算机图形学 姜明 北京大学数学科学学院 更新时间2019年4月25日星期四8时14分39秒.
自我介紹 李易如 小c 桃園人 交大運管系 聽音樂、慢跑、旅遊 黃家耀老師lab.
模式与实践:Windows Mobile 5.0应用程序架构
SoC 與微控制器的發展 朱亞民.
Chinese Virtual Observatory
IEEM 5352 Enterprise Integration
Operating System Software School of SCU
MGT 213 System Management Server的昨天,今天和明天
Usage Eclipse 敏捷方法工具介紹 實驗室網站:
如何在Elsevier期刊上发表文章 china.elsevier.com
Microsoft SharePoint Portal Server 2003 的部署、建置 與系統整合(上)
LIU Lei Shanghai Center for Bioinformation Technology 03/05/2013
高擴充高穩定高安全 企業級資料管理平台 Report Builder概論 錢曉明 資策會 資深講師 台灣微軟 資深講師.
变化的新环境,变化的图书馆 Changing Landscape, Changing Libraries
Windows Workflow Foundation CON 230
Section 1 Basic concepts of web page
When using opening and closing presentation slides, use the masterbrand logo at the correct size and in the right position. This slide meets both needs.
Presentation transcript:

C-SWF 科学工作流引擎研究进展 Wang feng Kunming University of Science and Technology wangfeng@acm.org 13700600260 C-SWF 科学工作流引擎研究进展 This work was supported by Project “The Research of Scientific Workflow and Relational Key Technology in Virtual Observatory (10878009)” of NSFC-CAS joint fund of astronomy and Natural Science Foundation of Yunnan Province (2007F179M).

Background 什么是科学工作流?Scientific Workflow 与普通的业务工作流的区别?Business Workflow

What is a scientific workflow? Goals: 对科学家的重复的数据管理与分析任务自动化 - automate a scientist’s repetitive data management and analysis tasks 典型的过程与阶段: Data access, scheduling, generation, transformation, aggregation, analysis, visualization Design, test, share, deploy, execute, reuse SWF’s

天文学家,以网络为平台,以SWF为核心与任务定制,摆脱工具与计算机技能的束缚,实现分布数据的自动计算与展现,直接进行科学研究。 Not Virtual Observatory. Should be Digital Observatory. Or Computing Observatory.

Difference 源于网格计算,广泛用于生物信息学、经济学的处理。 天文需要有特殊的科学工作流引擎吗? Lots of data (although individual data items might be bigger) Distributed data Chains of analyses MORE standards for data formatting/exchange

Scientific Workflows: Some Findings 比业务流更多的数据流 需要“编程扩展” 需要抽象与嵌套工作流

Data-flow vs Control-flow Rough classification: Control Don’t know when data arrive (quick reaction) Time of arrival often matters more than value Data Data arrive in regular streams (samples) Value matters most

Data-flow vs. Control-flow Specification, synthesis, and validation methods tend to emphasize… 控制相关 - For Control: 事件响应相关 应答时间 针对”deadline”的实时调度) 事件和处理优先

Data-flow vs. Control-flow For Data: 基于input和output的功能依赖 内存/时间 有效性 针对有效的流水线思想的数据流调度 所有的事件与处理是平等的。

Business Workflows vs. Scientific Workflows 面向任务: travel reservations, credit-approval, etc. Tasks, documents, etc undergo modifications (e.g., flight reservation from reserved to ticketed), but modified WF objects still identifiable throughout Complex control flow, complex process composition Dataflow and control-flow are often divorced

Business Workflows vs. Scientific Workflows Dataflow and data transformations Data problems: volume, complexity, heterogeneity Grid aspects: Distributed computation Distributed data User-interactions/WF steering Data, tool, and analysis integration Dataflow and control-flow are often married

SWF Data Driven BWF Task Driven

一句话。。。 把云南的Mushroom和四川的花椒,丢到重庆小天鹅的汤中,再用中石化的天然气加热,结果给存到碗里去。 12:40才吃中饭,2:30就开会,要坚持到6:00才可以奔向小天鹅打望。

What is C-SWF (China VO SWF) C-SWF is : 基于数据流模型的一个工作流语言; 基于图态的可编程环境 一个可以有效集成分布服务、数据,并可以有机执行的任务调度系统。

Tree view of workflow structure Workflow diagram Available services Data query Soaplab Tree view of workflow structure

关注点 VO: 可计算的访问服务 C-SWF必须集成所有可计算的访问服务 ,并使之形成工作流。 一个服务的输出可以成为其它服务的输入,数据需要支持分支、合并等。 处理 并行,线程,监控和服务发现

关键的问题 服务发现 数据出处跟踪- Provenance tracking Free text search over ‘known’ services. 基于语义的检索,如何有效的快速地找到所需要的服务. 科学家如何理解功能? 数据出处跟踪- Provenance tracking 结果数据的全程跟踪,与恐怖的天文海量数据的矛盾 如何实现自动的、语义的数据与数据服务注释. Possible as the workflow engine creates a ‘managed environment’ with an overview of all data movement.

结果可视化展现 Result visualization Common renderers included in base distribution include 3d structure, images, graph rendering。但天文学家到底需要什么? 可扩展性 Extensibility New service classes New renderer types New UI elements

友好人机界面 After all, not all astronomers are computer scientists. CLI ???? GUI???? 友好Re-run 天文研究是探索过程,本质上无明确需求。 服务的暂停、重运行、参数调整

进展 1. 数据接口: 支持所有主流格式,(FITS, Excel, Plain Text…) Distributed Data Format (VO-DAS) 2. 框架 Use Taverna(http://www.mygrid.org.uk) as our reference model.

进展

3. 提供一定程度的命令行(CLI)与图形用户接口(GUI) 4. 实现了Service的调用,与数据接口。 5. 支持第三方开发,自定义Plug-in接口标准

Services 实现的目标: 通过扩展,实现其它服务的整合。 SOAP based web services Soaplab wrapped command line tools Astrogrid and object constructors Inline interpreted scripting (Java based) 通过扩展,实现其它服务的整合。

Stateful SOAP service support Add service to services list by pointing Taverna to Web Service Description Language (WSDL) document online Taverna inspects WSDL, extracts operations Add operations to workflow, right click to automatically add document builders and splitters for doc/literal style services Use nested workflow to define polling logic, sub-workflow fails, waits and retries if data is not ready Document builders Service invocation (creates job) Polling loop (check status, fail if not ready) Get results *SOAP is the Simple Object Access Protocol - http://www.w3.org/TR/soap/ & http://www.w3.org/TR/wsdl

Soaplab Support Individual tool within category Soaplab server in services list Soaplab services support rich descriptive metadata Soaplab是Web服务生成器,提供了一个以编程方式访问远程计算机上应用。因为这样的应用,特别是在科学的环境,通常是分析数据, Soaplab通常称为分析Web服务 http://www.ebi.ac.uk/Tools/webservices/soaplab/guide

Project management 预计在2010年3 -4月完成Engine的原型,并提供开源下载。 支持Plug-in模式,鼓励开源编程与协作 支持Windows, Linux, Mac OS Written in JAVA (JDK 1.5 or up)

正在开展的。。。 1、通用数据访问接口 2、流程与服务调用 3、引擎 4、数据出处 5、可编程的任务描述

问题与思考 当前无可用天文服务可以调用。 迫切需要标准。 迫切需要天文数据处理服务。 标准天文可用处理模块、服务等的建设 可用服务部署

天文服务 目前,国内基本还没有对天文数据提供服务类借口,没有自定制服务。 与Bioinformation学科相比,基础差距较大。

缺乏相关标准 VO的标准是什么? 如何在China-VO中,来明确支持可定义数据接口、可定义的数据流描述。 服务的申明与基于语义的搜索模式 与天文学家的融合

标准处理服务 迫切需要在国内,构建开放的数据处理标准服务 (Web Service) 将传统的桌面科学数据处理软件功能网络化、网格化,特别是天文学家迫切需要的功能。 Plugin – Open source

Thank you for your attention. Q&A