王耀聰 <jazz@narlabs.org.tw> 高通量運算技術與平台 High Throughput Computing Technologies and NCHC's Platform Service 國家高速網路與計算中心王耀聰 <jazz@narlabs.org.tw> 2013/09/13.

Slides:

Advertisements

Similar presentations

大数据基础技术和应用. 大纲大数据概述大数据基础技术工程技术策略技术典型应用我们处于数据爆炸的时代数据库文字记录照片线下数据信息化网页数据用户行为记录数字图像互联网 - 移动互联网设备监控智能家居摄像头传感器地球上至今总共的数据量：在 2006 年，个人用户才刚刚迈.

Advertisements

EpiC elastic power-aware data intensive Cloud. LOGO epiC 大规模数据处理的难点 Page  2 如何查询处理海量数据？如何存储海量数据？如何降低硬件成本？如何取得一劳永逸的解决方案？

ArchSummit 全球架构师峰会深圳站移动大数据平台架构实践阎志涛关于 TalkingData TalkingData( 北京腾云天下科技有限公司 ) 成立于 2011 年 9 月， 2013 年完成千万美元 A 轮融资 ( 北极光领投 ) ， 2014 年完成数千万美元的.

第5讲索引构建 Index construction 授课人：高曙明

中华字库的云输入法王勇基础软件国家工程研究中心

電子商務：數位時代商機‧梁定澎總編輯‧前程文化出版

DATE: 14/10/2009 陳威宇格網技術組雲端運算相關應用 (Based on Hadoop)

Big Data Ecosystem – Hadoop Distribution

淘宝海量数据产品技术架构张轩丞（朋春）淘宝网-数据平台与产品部.

第八讲基于Hadoop的数据仓库Hive （PPT版本号：2016年4月6日版本）

Business Model and Core Technologies of Cloud Computing

“大云”大数据平台及应用中国移动通信研究院郭磊涛 2013年11月.

E-Mapreduce培训系列基本介绍.

PB级科研数据集的管理和应用曙光信息产业（北京）有限公司.

云计算学习报告报告人: 陈霁大规模数据处理软件Apache Hadoop.

云计算业务应用-数据挖掘.

巨量資料平台： Hadoop的生態系.

大數據的解決方案 (以Hadoop為中心) 目前做不到的：機率性太高的(博奕) 大數據的核心：預測預測來自於：分析及樣本樣本的產生及收集

面向海量数据的高效天文交叉证认的研究答辩人：赵青指导老师：孙济洲教授天津大学计算机学院

第11章海量信息存储主讲：刘方明副教授华中科技大学计算机学院

云梯的多namenode和跨机房之路

HADOOP的高能物理分析平台孙功星高能物理研究所/计算中心

大数据革命与大众生活变革黄欣荣博士教授江西财经大学马克思主义学院

为教师开展大数据课程教学提供全方位、一站式服务

基于hadoop的数据仓库技术.

大数据在医疗行业的应用.

CHT Project Progress Report

王耀聰陳威宇國家高速網路與計算中心(NCHC)

當企鵝龍遇上小飛象 DRBL-Hadoop Jazz Wang Yao-Tsung Wang

設置Hadoop環境王耀聰陳威宇楊順發國家高速網路與計算中心(NCHC)

YARN & MapReduce 2.0 Boyu Diao

電子商務未卜先知的利器大數據 Big Data

分布式系统中的关键概念及Hadoop的起源、架构、搭建

第2章大数据处理架构Hadoop （PPT版本号：2017年2月版本）

程式語言的基礎 Input Output Program 世代程式語言第一世代 Machine language 第二世代

云计算之分布式计算.

李亚康，齐法制，洪剑书，计算中心同事中国科学院高能物理研究所中国散裂中子源 2017/6/5，成都

王耀聰陳威宇國家高速網路與計算中心(NCHC)

基于Hadoop的数据仓库Hive.

實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務

第一篇 Unix/Linux 操作介面第 1 章 Unix/Linux 系統概論第 2 章開始使用 Unix/Linux

Hadoop平台使用计算中心

第九讲 Hadoop架构再探讨（2016春季学期）

CHAPTER 6 認識MapReduce.

Spark在智慧图书馆建设中的应用探索 2017年12月22日.

开源云计算系统简介电子工业出版社刘鹏主编《云计算》教材配套课件11.

Cloud Computing(雲端運算) 技術的現況與應用

斯巴達帶大家上雲端.

文字探勘與知識工程 Text Mining & Knowledge Engineering

Hadoop平台與應用規劃實作報告者：劉育維.

運用雲端工具提升教學及研究的效率 Victor Gau 5/31/2014.

R教學安裝RStudio 羅琪老師.

从TDW-Hive到TDW-SparkSQL

《大数据技术原理与应用》第十二讲图计算（2016春季学期）

基于大数据的物流资源整合福建师范大学协和学院沈庆琼.

OpenID與WordPress使用說明

大数据介绍及应用案例分享 2016年7月华信咨询设计研究院有限公司.

大数据与物流沈庆琼物流教研室.

斯坦福大学调研蒋达晟.

基于大数据平台数据管理研究何家乐 2013年7月中国科学院高能物理研究所.

A Big Data Framework for u-Healthcare Systems Utilizing Vital Signs

Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian

Apache Flink 刘驰.

2011清大電資院學士班「頂尖企業暑期實習」經驗分享心得報告實習企業：工研院實習學生：電資院學士班楊博旭.

IIS Internet Information Services

密级：亿赞普Hadoop应用浅析 IZP 肖燕京.

(Mobile User music–Sharing Innovation Center)

Chapter 4 Multi-Threads (多執行緒).

Experimental Analysis of Distributed Graph Systems

大数据发展的问题与方向中国信通院云大所.

Presentation transcript:

王耀聰 <jazz@narlabs.org.tw> 高通量運算技術與平台 High Throughput Computing Technologies and NCHC's Platform Service 國家高速網路與計算中心王耀聰 <jazz@narlabs.org.tw> 2013/09/13 - 2013 Big Data前瞻論壇

知識源自彙整過去，智慧在能預測未來資料多寡不是重點，重點是我們想要產生什麼價值呢？時效合理嘛？成本合理嘛？知識源自彙整過去，　　　　智慧在能預測未來資料多寡不是重點，重點是我們想要產生什麼價值呢？時效合理嘛？成本合理嘛？ http://www.pursuantgroup.com/blog/tag/dikw-model/ 2

大家都說「資料是金礦」，那就讓我們拿採礦當類比吧！大家都說「資料是金礦」，　　那就讓我們拿採礦當類比吧！國際金價提供給客戶的價值產品通路開採成本總擁有成本軟硬體投資提煉廠分析平台與工具軟體 SMAQ 含金度資料鑑價？商業模式開採權分析資料的合法性個資法金礦資料集 Open Data 3

巨量資料的三大挑戰 3 Vs of Big Data 參考來源： [1] Laney, Douglas. "3D Data Management: Controlling Data Volume, Velocity and Variety" (6 February 2001) [2] Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data, June 2011 Volume 資料數量 (amount of data) Velocity 資料增加率 (speed of data in/out) Variety 資料多樣性 (data types, sources) Batch (批次作業) Realtime (即時資料) TB EB Unstructured 非結構化資料 Semi-structured 半結構化資料 Structured 結構化資料 PB 巨量資料的挑戰在於如何管理「數量」、「增加率」與「多樣性」 4

處理巨量資料的三類技術(1) Data at Rest – MapReduce Framework Volume Velocity Variety TB EB PB Realtime Batch Structured MapReduce Framework Petabyte File System Hadoop HPCC Unstructured 5

巨量資料處理的資訊架構 The SMAQ stack for big data 未來處理海量資料的人必需知道SMAQ（Storage, MapReduce and Query）做網頁相關的人可能聽過LAMP 參考來源：The SMAQ stack for big data，Edd Dumbill，22 September 2010，　　　　　　　　http://radar.oreilly.com/2010/09/the-smaq-stack-for-big-data.html 圖片來源：http://smashingweb.ge6.org/wp-content/uploads/2011/10/apache-php-mysql-ubuntu.png

高資料通量處理平台 Hadoop Key Concept : Data Locality 執行處理海量資料應用程式的軟體平台。亦可以想像成一個處理海量資料的生產線，只須學會定義 map 跟 reduce 工作站該做哪些事情。生產機台就像工廠的倉庫存放生產原料跟待售貨物 HDFS存放待處理的非結構化資料與處理後的結構化資料包裝機台 Map Reduce 一進一出多進一出

批次作業的運算時間 Processing Time of Batch Jobs

處理巨量資料的三類技術(2) Data in Motion – In-Memory Processing Volume Velocity Variety TB EB PB Realtime Batch Structured HBase / Drill / Impala Unstructured 9

Google的技術演進 vs Apache 專案 Dremel (2010) Apache Drill (2012) Big Query (JSON, SQL-like) Percolator (2010) Incremental Index Update (Caffeine) Pregel (2009) Apache Giraph (2011) Graph Database BigTable (2006) Apache HBase (2007) MapReduce (2004) Hadoop MapReduce (2006) Google File System (2003) HDFS (2006)

令人眼花撩亂的多樣化資料庫選擇 NoSQL vs NewSQL http://www.infoq.com/news/2011/04/newsql 11

In-Memory Processing的運算時間以HBase為例

處理巨量資料的三類技術(3) Streaming Data Collection Volume Velocity Variety TB EB PB Realtime Batch Structured Unstructured Message Queue Storm / Kafka 13

巨量資料的奇幻漂流 Life of Big Data 14

Twitter Storm + Apache Kafka http://blog.infochimps.com/2012/10/30/next-gen-real-time-streaming-storm-kafka-integration/

混合模式的巨量資料處理架構 Lambda Architecture HBase Storm ElephantDB Or Voldemort Source: Lambda Architecture, 8. March 2013 http://www.ymc.ch/en/lambda-architecture-part-1

王耀聰 <jazz@narlabs.org.tw> 高通量運算平台現況與未來規劃國家高速網路與計算中心王耀聰 <jazz@narlabs.org.tw> 2013/09/13 - 2013 Big Data前瞻論壇

hadoop.nchc.org.tw 現況 2009-04-13 對外開放申請帳號，12台 2010-10-20 完成升級，21台截至2013-09-10，共計4012人次申請系統現況：6台故障，15台繼續服務中累計服務對象數：(根據註冊資料整理結果) 94所大學 33間民間公司 3所醫院(國泰/童綜合/龍泉榮民醫院) 18

目前系統架構 Current Architectre

全台首座公用Hadoop實驗叢集 On-Demand Self Service Powered by Zterm http://zhouer.org/ZTerm/

讓網路受限的用戶更便利 - Web-based Console

便利熟悉高階語言的資料分析用戶 - RStudio 開發環境 http://hadoop.nchc.org.tw/rstudio/

營運經驗分享 Lesson Learned 大量帳號的管理：使用者預設HDFS家目錄安全性：設定使用者HDFS權限善用CDH或HDP2的套件:好處是易於管理跟升級大量帳號的管理：用DRBL內建指令大量建立帳號 /opt/drbl/sbin/drbl-useradd 超過5000+帳號該怎麼管理？LDAP + OpenID帳號整合生命週期管理！(多人共用環境，由生到滅，要訂好遊戲規則) 使用者預設HDFS家目錄跑迴圈切換使用者，下 hadoop fs -mkdir tmp 安全性：設定使用者HDFS權限跑迴圈切換使用者，下hadoop dfs -chown $(id) /usr/$(id) 然後跑hadoop dfs -chmod -R 700 /usr/$(id)

營運經驗分享 Lesson Learned 硬碟規劃記憶體規劃規劃黃金法則@ 2013 JBOD架構，不用硬體RAID。 I/O分流：HDFS一顆(以上)硬碟，MapReduce一顆硬碟記憶體規劃面對記憶體怪物，記得切SWAP Partition 未來面對In-Memory Processing的需求，記得多買記憶體規劃黃金法則@ 2013 1 core : 2~8 GB RAM : 2 TB Disk

用戶需求分享 Lesson Learned from Users 使用者不熟悉該如何使用我們提供的服務對外開辦教育訓練還不夠，直接深入各個需求單位會更好！應用為王：資料庫、網頁服務與Mobile App整合需求頗高該挑選NoSQL還是NewSQL呢？端看I/O特性！上游：Open Data，下游：統計分析應用 Data as a Service ：資料集提供本身就是一種服務不要期待使用者改變寫程式的方法，儘量迎合他們熟悉的工具整合虛擬化許多論文都需要跑不同節點數的效能比較個人研究資料如何保密？網路如何切割？透過虛擬化作隔離！

未來規劃 Future Plan 分散式儲存(HDFS,MooseFS,提升同時讀寫資料通量) 支援在地運算的工作排程(MapReduce) 分散式資料庫(Ex. HBase) 資料倉儲 (Ex. Hive) 高階語言介面 (Ex. Pig) 資料探勘工具庫 (Ex. Nutch, Lucene , Solr) 分析預測工具庫 (Ex. R, Mahout) 多租戶帳號管理與系統監控自動化安裝佈署使用者介面( Web-based GUI / IDE ) 網路化虛擬(Ex. Open vSwitch) 虛擬化管理軟體(Ex. KVM + OpenNebula)

ATA over Ethernet (AoE) 虛擬化雲端服務平台 (晶片組須支援虛擬化) vSwitch Power User For Analytics Hadoop Cluster VM#1 VM#2 VM#3 8 VCPU 4 VCPU 16G RAM 32G RAM 4 SATA MooseFS ( for VM ) ATA over Ethernet (AoE) DN NM NN 1 RM NN 2 YARN 高通量資料分析平台 (JBOD儲存架構)

問題與討論 Questions?