High Performance Computing Service in NTUCC 2006/12/22 高效能運算服務推廣說明會 計算機及資訊網路中心 作業管理組 助理程式設計師 張傑生 jsc@ntu.edu.tw
簡報大綱 歷史演進 現有設備 系統架構 使用狀況 申請規範 未來展望 心得交流
歷史演進 1990~年代 2000~年代 Cray XMP Cray J916 They were retired several years ago. 2000~年代 2003 first cluster with 50 nodes(100 cpus) 2005 second cluster with 78 nodes(156 cpus) 2006 IBM P595 SMP server with 64 cpus HP cluster with 106 nodes(424 cpu cores)
現有設備 建置日期:2003 運算節點:50 效能 未來計畫移做教育訓練用途 Nexcom Blade Server Dual Intel Xeon 2.0GHz 1GB memory 效能 Rpeak: 400GFlops Rmax: 200GFlops 未來計畫移做教育訓練用途
現有設備 建置日期:2005 運算節點:78 效能: 適合對象: IBM Blade Server Dual Intel Xeon 3.2GHz 5GB memory 效能: Rpeak: 998GFlops Rmax: 500GFlops 適合對象: 已透過 MPI 平行化之程式
卓越計算中心 經費來源:邁向頂尖大學(五年伍佰億) 2006 重點建設 2007 規劃建設 以硬體採購為主 改善機房基礎建設 高效能計算設備 IBM SMP p595 HP cluster 2007 規劃建設 軟硬體採購並重 軟體採購政策 普遍性、一致性、滿足大多數使用者需求。 一次買斷,非租賃。 將部分負擔納入採購優先權考量。 歡迎踴躍提供軟體建議。
建置中 建置日期:2006 運算節點: 效能: 適合對象: IBM p595 64*Power5 1.9GHz CPU 256GB memory AIX 5.3 效能: Rpeak: 486GFlops Rmax: 418GFlops 適合對象: 已透過 OpenMP 平行化之程式 單一程式需要大量記憶體
建置中 建置日期:2006 運算節點:106 效能: 適合對象: HP DL145G3 Server Dual Intel Xeon 3.0GHz 4GB memory 效能: Rpeak: 4900GFlops Rmax: 2900GFlops 適合對象: 已透過 MPI 平行化之程式
系統架構
軟體列表 Nexcom blade 2003 IBM blade 2005 HP cluster 2006 IBM SMP P595 2006 Operating System Debian 3.0 kernel 2.4.x Debian 3.1 kernel 2.6.8 Redhat 4 u3 AS kenrel 2.6.9 AIX 5.3 Compiler Gnu/Intel C/C++/Fortran Gnu/Intel/PGI C/C++/Fortran Gnu/Intel/PGI/Pathscale IBM XL Library MPICH Open Srouce Atlas,Blas,cernlib,clhep,grass,gsl, Lapack Open Srouce Atlas,Blas,cernlib,clhep,grass,gsl, Lapack HP-MPI Intel MKL ACML HP-MLIB OpenMP PE ESSL/PESSL IMSL Application SAS Job Scheduler OpenPBS (Torque) LSF LoadLevel
Job Queue Policy IBM Blade (2005) Long queue Short queue 3 concurrent execution jobs maximum For each job 1152 hours(48days) maximum if using 1 cpu 36 hours maximum if using 32 cpus Short queue 4 concurrent execution jobs maximum 144 hours maximum if using 1 cpu 9 hours maximum if using 16 cpus
研究團隊 服務對象 遍及校內物理系、化學系、凝態中心、土木系、機械系、工科系、農藝系、光電所、電子所、資工系與藥學系等單位之研究團隊約二十組 研究團隊介紹 系所 指導教授 研究內容 物理系 趙挺偉 具精確手則對稱費米子之研究 郭光宇 國家奈米計畫 葉平 卓越計畫之「宇宙學與粒子天文物理學」 凝態中心 白偉武 碳球單層膜在銅(111)表面上之電荷轉移及表面重構 農藝系 廖振鐸 雙染色微陣列穩健設計之研究
使用狀況 綠線為 78,也就是「平均」每一組運算節點 load 都為1。 盡量讓每一顆 CPU load 維持在 0.5,也就是讓所有 CPU 都有工作計算,盡量降低閒置CPU。以提升整體利用率。 2006/05額外擴充40組計算節點。
使用狀況 紅線代表總記憶體量,也就是 5*78 = 390GB。 目前記憶體使用量大約為 50%。 2006/05 額外擴充40組計算節點。 2006/07 將每組計算節點之記憶體由 2GB 擴充為 5GB。
使用統計(2006/01~2006/10) Username #jobs days Percent #nodes q-days TOTAL 53746 28498.05 100 7.54 0.29 t*****h 329 8612.67 30.22 14.53 2.95 h****g 160 3717.81 13.05 9.98 0.07 p**h 413 3657.32 12.83 7.45 0.95 j**n 327 1574.74 5.53 6.25 0.09 s**w 223 1111.84 3.9 8.34 2.4 j****g 1158 1009.25 3.54 6.24 0.04 m****n 38 939.51 3.3 10 0.12 p****n 48462 831.65 2.92 4.6 0.25 k****i 331 690.01 2.42 1 1.44
申請規範 由於資源有限,目前僅開放學術研究用途。 請先與計中方面聯絡,討論需求與程式內容。 以研究團隊為單位申請。 後續將依學校要求,訂定收費辦法,落實使用者付費觀念。 未來發表論文時,請 Acknowledge 計資中心。
時程規劃 2007/01 IBM SMP 主機教育訓練。 2007/02 開放 IBM SMP 主機帳號申請。 2007/03 HP cluster 主機教育訓練。 2007/03 開放 HP cluster 主機帳號申請。
教育訓練 IBM SMP 與 HP cluster 廠商提供 IMSL 廠商提供 2007/01~03 於計中電腦教室 高效能環境介紹與平行化程式寫作 進階平行化程式寫作與偵錯技巧 系統管理維護之教育訓練 程式開發環境之教育訓練 未來將放置課程錄影於網站上,提供線上學習。 IMSL 廠商提供 2007/02 於計中電腦教室舉辦教育訓練 每月定期於該公司(忠孝東路五段)舉辦教育推廣活動,全程免費且附午餐便當。
教育訓練 後續規劃 計資中心教學研究組開課 邀約校內教授專家不定期開課
未來展望 定期舉辦服務推廣活動,發掘潛在使用者。 透過教育訓練,提升使用者技術能力。 平行化程式設計、MPI/OpenMP 使用說明 監控系統狀態,調整 queuing policy,以兼顧整體使用率與滿足使用者需求。 持續爭取經費,擴充計算設備。 廣徵各方意見,滿足軟硬體需求。
心得交流 謝謝大家 請踴躍發言