高速運算於生物資訊之應用 HPC for Bioinformatics 高速運算於生物資訊之應用 Jazz Wang Yao-Tsung Wang Jazz Wang Yao-Tsung Wang

Slides:



Advertisements
Similar presentations
云计算辅助教学风云录 黎加厚 上海师范大学教育技术系 2010年8月9日.
Advertisements

云计算及安全 ——Cloud Computing & Cloud Security
北京工业云的实践与思考 曾宇 2010年10月.
职业教育网络学习空间建设的实践与思考 江苏省南京工程高等职业学校.
DATE: 14/10/2009 陳威宇 格網技術組 雲端運算相關應用 (Based on Hadoop)
Presented By: 王信傑 Ricky Wang Date:2010/10/6
网络资源 (1)Oracle中国网址: (2)Oracle中国用户讨论组
Haduzilla - Building hadoop cluster with Debian preseed 黑肚龍:無人值守自動安裝 Hadoop 叢集 Haduzilla - Building hadoop cluster with Debian preseed 黑肚龍:無人值守自動安裝 Hadoop.
Foundations of Computer Science
第三章 網際網路和全球資訊網 : 電子商務基礎建設
教育雲端科技的現況與未來發展 臺北市政府教育局聘任督學 韓長澤.
VMWARE 大藍圖 SOFTWARE-DEFINED ENTERPRISE
网格 及其应用的一些相关技术 高能所计算中心 于传松
當企鵝龍遇上小飛象DRBL-Hadoop當企鵝龍遇上小飛象DRBL-Hadoop Jazz Wang Yao-Tsung Wang Jazz Wang Yao-Tsung Wang
台灣雲端運算應用實驗中心研發計畫 計 畫 期 間:自98年7月1日至99年6月30日止 執行單位名稱 :財團法人資訊工業策進會 國立中山大學.
计算机网络 暨南大学计算机科学系 学年 第一学期.
第8章 系統架構.
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
計算機概論 1001課後輔導教材 單元 4:電腦網路 主講老師:徐培倫.
第 1 章 資訊新未來.
大数据在医疗行业的应用.
桂小林 西安交通大学电子与信息工程学院 计算机科学与技术系
“服务器服务于Internet”报告会 倪光南 1999年7月6日
第一章 令人惊奇的计算机.
第5章 网络软件 开发技术 (一) 软件开发技术基础 计算机教学实验中心.
Introduction to MapReduce
Homework 4 an innovative design process model TEAM 7
當企鵝龍遇上小飛象 DRBL-Hadoop Jazz Wang Yao-Tsung Wang
YARN & MapReduce 2.0 Boyu Diao
生物資訊 bioinformatics 林育慶.
Microsoft Access 第十二組 黃彥維 陳重嘉.
高级软件工程 云计算 主讲:李祥 QQ: 年12月.
雲端運算虛擬主機技術的發展.
3G时代的云计算 中国云计算专家委员会 刘鹏 中国网格: 中国云计算:
分布式系统中的关键概念及Hadoop的起源、架构、搭建
形式语言与网络 计算环境构建 1.
程式語言的基礎 Input Output Program 世代 程式語言 第一世代 Machine language 第二世代
佐登妮斯大樓監控系統簡介 圓 泰 科 技 1.
Review Question 安裝 or 管理過 Windows Server? 安裝 or 管理過 Unix-like Server?
高效能運算服務 (High Performance Computing) 建置之經驗分享
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
作業系統 補充: 雲端運算.
實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務
开源云计算系统简介 电子工业出版社 刘鹏主编《云计算》教材配套课件11.
Cloud Computing(雲端運算) 技術的現況與應用
Chapter7 全球資訊網與瀏覽器介紹 網路應用入門(一) Chapter7 全球資訊網與瀏覽器介紹
國立屏東高級工業職業學校 雲端網路及 雲端開系統介紹
An Introduction to Computer Science (計算機概論)
第7單元 網路和資料通訊 McGraw-Hill Education.
淺談雲端運算 (Cloud Computing)
「寬頻匯流網路管理」教材 模組四: 第一章 網路管理架構
邹佳恒 第十八届全国科学计算与信息化会议 • 威海,
软件工程基础 云计算概论 刘 驰.
第4章(1) 空间数据库 —数据库理论基础 北京建筑工程学院 王文宇.
第二章 資訊管理的科技觀點.
服務於中國研究的網絡基礎設施 A Cyberinfrastructure for Historical China Studies
電腦基本概念 張森 高階 適合程度 初學.
資料結構 Data Structures Fall 2006, 95學年第一學期 Instructor : 陳宗正.
資料庫 靜宜大學資管系 楊子青.
Real-Time System Software Group Lab 408 Wireless Networking and Embedded Systems Laboratory Virtualization, Parallelization, Service 實驗室主要是以系統軟體設計為主,
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
虚 拟 仪 器 virtual instrument
3.2 網絡.
百万亿次超级计算机诞生记 姓名 Xiangyu Ye 职务 微软中国技术中心资深HPC顾问 公司 微软中国
雲端架構對企業外部管理與內部管理的改變.
11 Overview Cloud Computing 2012 NTHU. CS Che-Rung Lee
中国区部分高性能计算行业用户名单 中石油北京勘探开发 研究院 中海油南方基地 中石化物探研究院 中石油东方物探(BGP) 中科院数学所
Operating System Software School of SCU
第三章 计算机体系结构.
Section 1 Basic concepts of web page
Presentation transcript:

高速運算於生物資訊之應用 HPC for Bioinformatics 高速運算於生物資訊之應用 Jazz Wang Yao-Tsung Wang Jazz Wang Yao-Tsung Wang

高速運算於生物資訊之應用 HPC for Bioinformatics 高速運算於生物資訊之應用 ( 60 % ) HPC = High Performance Computing What is HPC? Types of HPC ? Can I solve my problem with HPC ? ( 30% ) HPC & Bioinformatics Application ( 10% ) Open Source for Bioinformatics PART 1 : PART 2 : PART 3 :

HPC 101 Jazz Wang Yao-Tsung Wang Jazz Wang Yao-Tsung Wang PART 1 :

What is HPC ? Why HPC ? &

Source:

Source:

Source:

Source:

Source:

Types of HPC ?

Back to Year 1960s... Source:

Brief History of Computing (1/5) Mainframe MainframeSuperComputer SuperComputer Source: PDP PDP st Unix 1960 PDP PDP st Unix

Evolution of Computing Architecture (1/5) Mainframe MainframeSuperComputer SuperComputer Single Super Computer Single MultipleUsersMultipleUsersSingleCPUSingleCPUSharedMemorySharedMemoryOneAdmin.OneAdmin.

使用者心裡的『謎之聲』 (1/5) 可惡,程式又死掉了,又得重排一次可惡,程式又死掉了,又得重排一次 等執行程式,要排隊排好久喔 ~ 超級電腦是有錢人才玩得起的玩具~超級電腦是有錢人才玩得起的玩具~ 真希望自己有一台電腦可以跑 !!

Back to Year 1970s Apple II 1981 IBM 1 st PC 5150

Back to Year 1980s TCP/IP 1983 GNU 1991 Linux

Brief History of Computing (2/5) Mainframe MainframeSuperComputer SuperComputer PC / Linux PC / LinuxClusterParallel ClusterParallel Source:

Multiple PC in One Location Multiple PC in One Location Evolution of Computing Architecture (2/5) MultipleUsersMultipleUsers Separat e CPU CPUSeparateMemorySeparateMemory OneAdmin.OneAdmin. Mainframe MainframeSuperComputer SuperComputer PC / Linux PC / LinuxClusterParallel ClusterParallel

使用者心裡的『謎之聲』 (2/5) 奇怪,我的程式為什麼不能跑?奇怪,我的程式為什麼不能跑? 可惡,記憶體不夠大,程式又死掉了可惡,記憶體不夠大,程式又死掉了 管理員老大,可以幫我裝 LiBT 嗎? 真希望自己有一組叢集可以跑 !!

Back to Year 1990s World Wide Web by CERN …… 1993 Web Browser Mosaic by NCSA 1990 World Wide Web by CERN …… 1993 Web Browser Mosaic by NCSA 1991 CORBA... Java RMI Microsoft DCOM... Distributed Objects 1991 CORBA... Java RMI Microsoft DCOM... Distributed Objects

Brief History of Computing (3/5) Mainframe MainframeSuperComputer SuperComputer PC / Linux PC / LinuxClusterParallel ClusterParallelInternet Distributed DistributedComputingInternet Computing Source:

Network Evolution of Computing Architecture (3/5) PC / Linux PC / LinuxClusterParallel ClusterParallelInternet Distributed DistributedComputingInternet Computing Single Powerful Server Single Singl e CPU CPU Share d Memo ry Share d Memo ry Single Powerful Server Single Singl e CPU CPU Share d Memo ry Share d Memo ry Multipl e Users Users One Adm in. One Multipl e Users Users One Adm in. One One One Single Broker

使用者心裡的『謎之聲』 (3/5) 啊!網路斷線了~不能動了~啊!網路斷線了~不能動了~ 分散式物件怎麼這麼抽象啊~XD分散式物件怎麼這麼抽象啊~XD 給我網路遊戲,其餘免談!給我網路遊戲,其餘免談! 大家把閒置電腦都貢獻出來吧 !!

2002 Berkley BOINC Back to Year 2000s Volunteer Computing Volunteer Computing Globus Toolkit EGEE gLite

Brief History of Computing (4/5) Mainframe MainframeSuperComputer SuperComputer PC / Linux PC / LinuxClusterParallel ClusterParallelInternet Distributed DistributedComputingInternet Computing Virtual Org. GridComputing GridComputing Source:

Network Evolution of Computing Architecture (4/5) Internet Distributed DistributedComputingInternet Computing Multiple PC in one location Multiple PC in one location Multiple PC in other location Multiple PC in other location Multipl e Users Users One Adm in. One Multipl e Users Users One Adm in. One Grid Middleware Virtual Org. GridComputing GridComputing Virtual Organization HeterogeneousHeterogeneous CyberInfrastructureCyberInfrastructure

使用者心裡的『謎之聲』 (4/5) 啥?可用資源在美國,慢慢搬檔案吧!啥?可用資源在美國,慢慢搬檔案吧! 已給我認證了,為什麼要不到資源?已給我認證了,為什麼要不到資源? 長官,請幫我們去談好資源共享政策吧!長官,請幫我們去談好資源共享政策吧! 為什麼人家 Google 那麼會算 ?!

2005 Utility Computing Amazon EC2 / S Utility Computing Amazon EC2 / S3 Back to Year Autonomic Computing IBM IBM 2007 Cloud Computing Google + IBM 2007 Cloud Computing Google + IBM 2006 Apache Hadoop

Brief History of Computing (5/5) Mainframe MainframeSuperComputer SuperComputer PC / Linux PC / LinuxClusterParallel ClusterParallelInternet Distributed DistributedComputingInternet Computing Virtual Org. GridComputing GridComputing Data Explode CloudComputing CloudComputing Source:

Evolution of Computing Architecture (5/5) Multiple PC in different location s Multiple PC in different location s EachUser|| Virtua l Admin. EachUser|| Virtua l Admin. Multipl e Admin. Admin. Virtual Org. GridComputing GridComputing Data Explode CloudComputing CloudComputing Physical World Virtual World Acces s anytime,anywherewith mobil e device Acces s anytime,anywherewith mobil e device What is NEXT ?! Mobile Computing ?! What is NEXT ?! Mobile Computing ?!

使用者心裡的『謎之聲』 (5/5) 按使用時間計費,真的比較省?按使用時間計費,真的比較省? 雲端運算合適我用嗎?雲端運算合適我用嗎? 我們自己可以架雲端運算的環境嗎?我們自己可以架雲端運算的環境嗎? Google 到底有沒有偷窺我的信 ?!

Source:

Source: Falling to the Ground...

Which Type of HPC is the Right ONE to solve My Problem ? Which Type of HPC is the Right ONE to solve My Problem ?

不負責解析

HPC & Bioinformatics Application Jazz Wang Yao-Tsung Wang Jazz Wang Yao-Tsung Wang PART 2 :

BLAST (Basic Local Alignment Search Tool) National Center for Biotechnology Information BLAST is an algorithm for comparing primary biological sequence information. ( BLAST 用來比對生物序列的主要結構 ) amino-acid – the amino-acid sequences of different proteins – the nucleotides of DNA sequences 氨基酸 – ( 例如:不同蛋白質的氨基酸序列 DNA 序列的核甘酸 ) 用途:搜尋其他物種 ( 如:老鼠 ) 未知基因,是否也存在人類基因中 優點:使用啟發式搜索來找出相關的序列,比動態規劃快上 50 倍。 缺點:不能夠保證搜尋到的序列和所要找的序列之間的相關性。 巨大的序列資料庫 技術問題:巨大的序列資料庫需要進行比對,怎樣計算才快? Source: 生物資訊學 )&variant=zh-twhttp://zh.wikipedia.org/w/index.php?title=BLAST_( 生物資訊學 )&variant=zh-tw

Cluster 101 & mpiBLAST Jazz Wang Yao-Tsung Wang Jazz Wang Yao-Tsung Wang PART 2.1 :

At First, We have “ ” PC Cluster It'd better be 2 n It'd better be 2 n Manage Schedule r Manage

GiE Switch WANWAN Then, We connect 5 PCs with Gigabit Ethernet Switch Then, We connect 5 PCs with Gigabit Ethernet Switch 10/100/1000MBps10/100/1000MBps Add 1 NIC for WAN Add 1 NIC for WAN

LAN Switch WANWAN 4 Compute Nodes will communicate via LAN Switch. Only Manage Node have Internet Access for Security! Compute Nodes Manage Node

Linux Kernel Kernel Module GNU Libc Boot Loader MPICHMPICH BashBash PerlPerl MessagingMessaging YPYPNISNIS Account Mgnt. SSH D GCCGCC Compute Nodes BasicSystemSetupforClusterBasicSystemSetupforCluster

Linux Kernel Kernel Module GNU Libc Boot Loader MPICHMPICHOpenPBSOpenPBS BashBash PerlPerl MessagingMessaging YPYPNISNIS Account Mgnt. SSH D GCCGCC Job Mgnt. NFSNFS File Sharing Ex tra On Manage Node, We need to install Scheduler and Network File System for sharing Files with Compute Node On Manage Node, We need to install Scheduler and Network File System for sharing Files with Compute Node

An open-source, parallel implementation of NCBI BLAST 特點: – Database fragmentation – Query segmentation – Parallel input/output 設計理念: – The Design, Implementation, and Evaluation of mpiBLAST. – 類似工具: – TurboWorx TurboBLAST – Parallel BLAST by Caltech Parallel BLAST mpiBLASTmpiBLAST

mpiBLASTmpiBLAST BLASTBLAST GenBank

Grid 101 & mpiBLAST-G2 Jazz Wang Yao-Tsung Wang Jazz Wang Yao-Tsung Wang PART 2.2 :

Grid =~ Cluster of Cluster

mpiBLAST-G2 is an enhanced parallel program of LANL's mpiBLAST. It is based on Globus Toolkit 2.x and MPICH-g2. Bioinformatics Technology and Service (BITS) team of Academia Sinica Computing Centre (ASCC), Taiwan 參考: – The MPIBLAST-g2 Introduction The MPIBLAST-g2 Introduction – MPIBLAST-g2 Example MPIBLAST-g2 Example – mpiBlast-G2 with GT4 mpiBlast-G2 with GT4mpiBLAST-G2mpiBLAST-G2

Cloud 101 & CloudBLAST Jazz Wang Yao-Tsung Wang Jazz Wang Yao-Tsung Wang PART 2.3 :

Cloud =~ Virtualization + Cluster

RunBLAST : mpiBLAST in Amazon EC2 Video:

Map/ReduceMap/Reduce Ref. MapReduce: Simplified Data Processing on Large Clusters, GoogleMapReduce: Simplified Data Processing on Large Clusters

“CloudBLAST: Combining MapReduce and Virtualization on Distributed Resources for Bioinformatics Applications”, eScience 2008 特點:採用 MapReduce 演算法進行 BLAST 運算 CloudBLASTCloudBLAST

Open Source for Bioinformatics Jazz Wang Yao-Tsung Wang Jazz Wang Yao-Tsung Wang PART 3 :

自由軟體 ( Free Software ) Stand On the Shoulder of Giants 站在巨人的肩膀上,是自由軟體發展 的理念。其靈活、可自由複製、分享 的價值,將有效解決資訊教育的管理 成本及商業軟體高成本負擔的問題。

Open Bioinformatics Foundation - – BioPerl - – BioPython - – BioPHP- – BioJava - C++ Bio Sequence Library – – C++ 版本的序列分析函式庫 Bio-SPICE - BioEra - – 跟腦科學有蠻強的關聯性,主要功能是在做訊號處理。 NCBI Viewer - Open Source is your Friend !!

ConclusionConclusion HOW BIG CAN YOU CAN YOU THINK ?? THINK ?? 找個好題目 高速計算的工具很多,困難的是找個好題目 !! HOW BIG CAN YOU CAN YOU THINK ?? THINK ?? 找個好題目 高速計算的工具很多,困難的是找個好題目 !!

Questions? Slides Questions? Slides Jazz Wang Yao-Tsung Wang Jazz Wang Yao-Tsung Wang

Research topics about PC Cluster Ref: Cluster Computing in the Classroom: Topics, Guidelines, and Experiences SystemArchitectureSystemArchitecture ParallelComputingParallelComputing ParallelAlgorithmsAndApplicationsParallelAlgorithmsAndApplications ProcessArchitectureProcessArchitecture NetworkArchitectureNetworkArchitecture StorageArchitectureStorageArchitecture System-levelMiddlewareSystem-levelMiddleware Share Memory Programming Programming Distributed Memory Programming Programming Application-level Middleware Programming Application-level