王耀聰 陳威宇 國家高速網路與計算中心(NCHC)

Slides:



Advertisements
Similar presentations
雲端運算基礎課程 王耀聰 陳威宇 楊順發 國家高速網路與計算中心(NCHC)
Advertisements

CSpace安装管理与系统配置管理 中科院兰州文献情报中心 信息系统部
云计算平台Hadoop的部署.
台灣雲端運算應用實驗中心研發計畫 計 畫 期 間:自98年7月1日至99年6月30日止 執行單位名稱 :財團法人資訊工業策進會 國立中山大學.
云梯的多namenode和跨机房之路
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
Map-Reduce Programming
陳維魁 博士 儒林圖書公司 第九章 資料抽象化 陳維魁 博士 儒林圖書公司.
CHAPTER 8 Hadoop設定與配置.
一种基于Hadoop的视频大数据分布式解码方法 冯强
Made by Feng Nie 开源机器学习库&Hadoop介绍 Made by Feng Nie
Introduction to MapReduce
Cloud Computing for Big Data – Monitoring & Resource Management
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
設置Hadoop環境 王耀聰 陳威宇 楊順發 國家高速網路與計算中心(NCHC)
YARN & MapReduce 2.0 Boyu Diao
Hadoop 單機設定與啟動 step 1. 設定登入免密碼 step 2. 安裝java step 3. 下載安裝Hadoop
第3章 分布式文件系统HDFS (PPT版本号:2017年2月版本)
分布式系统中的关键概念及Hadoop的起源、架构、搭建
第2章 大数据处理架构Hadoop (PPT版本号:2017年2月版本)
快速学习环境搭建 安装前预备工作(Linux相关配置) 实操演示(hadoop、hbase为例) 总结&练习题(课后练练手)
雲端計算 參考書籍:Python+Spark 2.0+Hadoop 機器學習與大數據分析實戰
臺北市立大學 資訊科學系(含碩士班) 賴阿福
VMware Player 安裝說明 2018/11/14.
Spark零基础入门——Spark入门基础
Java簡介.
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
雲端運算檔案系統HDFS.
基于Hadoop的数据仓库Hive.
Q101 在701 SDX Linux上的標準安裝與使用程序v2
實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務
JDK 安裝教學 (for Win7) Soochow University
《大数据技术原理与应用》 第七章 MapReduce (2016春季学期) 林子雨 厦门大学计算机科学系 主页:
Unit 06 雲端分散式Hadoop實驗 -II
第二章 Linux基本指令與工具操作 LINUX 按圖施工手冊.
CHAPTER 6 認識MapReduce.
Hadoop平台與應用規劃實作 報告者:劉育維.
R教學 安裝RStudio 羅琪老師.
《大数据技术原理与应用》 第十二讲 图计算 (2016春季学期)
Hadoop.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
安裝JDK 安裝Eclipse Eclipse 中文化
Windoop操作步驟 於作業系統Windows 10 專業版.
2017 Operating Systems 作業系統實習 助教:陳主恩、林欣穎 實驗室:720A.
檔案與磁碟的基本介紹.
雲端分散式計算平台 Hadoop安裝使用.
雲端計算.
Java程式設計 Eclipse.
VS.NET 2003 IDE.
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
Linux作業系統 電腦教室Linux使用說明.
雲端計算.
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
密级: 亿赞普Hadoop应用浅析 IZP 肖燕京.
VS.NET 2003 IDE.
FTP使用教學 簡介: 軟體名稱:FileZilla 軟體性質:Freeware 版本: 繁體中文版
網路資源的建立--LINUX系統 系統管理
Unix 安裝過程 使用2個磁片 到 rawwrite bootnet.img drvnet.img 利用rawwrite 將image檔寫入磁片.
基本指令.
程式移植.
ZigBee PRO教學系統 CC2530 實驗.
Cloud Operating System - Unit 03: 雲端平台建構實驗
2018 Operating Systems 作業系統實習 助教:林欣穎 實驗室:720A.
安裝JDK 配置windows win7 環境變數
ABAP Basic Concept (2) 運算子 控制式與迴圈 Subroutines Event Block
大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编.
Unix指令4-文字編輯與程式撰寫.
Develop and Build Drives by Visual C++ IDE
ABAP Basic Concept (2) 運算子 控制式與迴圈 Subroutines Event Block
Presentation transcript:

王耀聰 陳威宇 jazz@nchc.org.tw waue@nchc.org.tw 國家高速網路與計算中心(NCHC) Hadoop 叢集安裝設定解析 王耀聰 陳威宇 jazz@nchc.org.tw waue@nchc.org.tw 國家高速網路與計算中心(NCHC)

Hadoop Package Topology 資料夾 說明 bin / 各執行檔:如 start-all.sh 、stop-all.sh 、 hadoop conf / 預設的設定檔目錄:設定環境變數 hadoop-env.sh 、各項參數 hadoop-site.conf 、工作節點 slaves。(可更改路徑) docs / Hadoop API 與說明文件 ( html & PDF) contrib / 額外有用的功能套件,如:eclipse的擴充外掛、Streaming 函式庫 。 lib / 開發 hadoop 專案或編譯 hadoop 程式所需要的所有函式庫,如:jetty、kfs。但主要的hadoop函式庫於hadoop_home src / Hadoop 的原始碼。 build / 開發Hadoop 編譯後的資料夾。需搭配 ant 程式與build.xml logs / 預設的日誌檔所在目錄。(可更改路徑)

設定檔:hadoop-env.sh 設定Linux系統執行Hadoop的環境參數 export xxx=kkk # string… 將kkk這個值匯入到xxx參數中 # string… 註解,通常用來描述下一行的動作內容 # The java implementation to use. Required. export JAVA_HOME=/usr/lib/jvm/java-6-sun export HADOOP_HOME=/opt/hadoop export HADOOP_LOG_DIR=$HADOOP_HOME/logs export HADOOP_SLAVES=$HADOOP_HOME/conf/slaves ……….

設定檔: hadoop-site.xml (0.18) <property> <name> mapred.map.tasks</name> <value> 1</value> <description> define mapred.map tasks to be number of slave hosts </description> </property> <name> mapred.reduce.tasks</name> <description> define mapred.reduce tasks to be number of slave hosts </description> <name> dfs.replication</name> <value> 3</value> </configuration> <configuration> <property> <name> fs.default.name</name> <value> hdfs://localhost:9000/</value> <description> … </description> </property> <name> mapred.job.tracker</name> <value> localhost:9001</value> <description>… </description> <name> hadoop.tmp.dir </name> <value> /tmp/hadoop/hadoop-${user.name} </value> <description> </description>

設定檔:hadoop-default.xml (0.18) 沒在hadoop.site.xml設定的話就會用此檔案的值 更多的介紹參數:http://hadoop.apache.org/core/docs/current/cluster_setup.html#Configuring+the+Hadoop+Daemons

Hadoop 0.18 到 0.20 的轉變 core-site.xml hadoop-site.xml mapreduce-core.xml hdfs-site.xml src/core/core-default.xml hadoop-site.xml src/mapred/mapred-default.xml src/hdfs/hdfs-default.xml

設定檔: core-site.xml (0.20) 詳細 hadoop core 參數, <configuration> <property> <name> fs.default.name</name> <value> hdfs://localhost:9000/</value> <description> … </description> </property> <name> hadoop.tmp.dir </name> <value> /tmp/hadoop/hadoop-${user.name} </value> <description> … </description> 詳細 hadoop core 參數, 請參閱 http://hadoop.apache.org/common/docs/current/core-default.html 7 7

設定檔: mapreduce-site.xml (0.20) <configuration> <property> <name> mapred.job.tracker</name> <value> localhost:9001</value> <description>… </description> </property> <name> mapred.map.tasks</name> <value> 1</value> <description> … </description> <property> <name> mapred.reduce.tasks</name> <value> 1</value> <description> … </description> </property> </configuration> 詳細 hadoop mapreduce 參數, 請參閱 http://hadoop.apache.org/common/docs/current/mapred-default.html 8

設定檔: hdfs-site.xml (0.20) 詳細 hadoop hdfs 參數, <configuration> <property> <name> dfs.replication </name> <value> 3</value> <description>… </description> </property> <name> dfs.permissions </name> <value> false </value> <description> … </description> </configuration> 詳細 hadoop hdfs 參數, 請參閱 http://hadoop.apache.org/common/docs/current/hdfs-default.html 9

設定檔: slaves 給 start-all.sh , stop-all.sh 用 被此檔紀錄到的節點就會附有兩個身份: datanode & tasktracker 一行一個hostname 或 ip 192.168.1.1 …. 192.168.1.100 Pc101 Pc152

設定檔: masters 給 start-*.sh , stop-*.sh 用 會被設定成 secondary namenode 可多個 192.168.1.1 …. Pc101

常用設定值一覽表 描述名稱 設定名稱 所在檔案 JAVA安裝目錄 hadoop-env.sh HADOOP家目錄 設定檔目錄 日誌檔產生目錄 JAVA_HOME hadoop-env.sh HADOOP家目錄 HADOOP_HOME 設定檔目錄 HADOOP_CONF_DIR 日誌檔產生目錄 HADOOP_LOG_DIR HADOOP工作目錄 hadoop.tmp.dir hadoop-site.xml JobTracker mapred.job.tracker Namenode fs.default.name TaskTracker (hostname) slaves Datanode 第二Namenode masters 其他設定值 詳可見hadoop-default.xml 常用設定值一覽表

控制 Hadoop 的指令 格式化 全部開始 ( 透過 SSH ) 全部結束 ( 透過 SSH ) 獨立啟動/關閉( 不會透過 SSH ) $ bin/hadoop Δ namenode Δ -format 全部開始 ( 透過 SSH ) $ bin/start-all.sh $ bin/start-dfs.sh $ bin/start-mapred.sh 獨立啟動/關閉( 不會透過 SSH ) $ bin/hadoop-daemon.sh [start/stop] namenode $ bin/hadoop-daemon.sh [start/stop] secondarynamenode $ bin/hadoop-daemon.sh [start/stop] datanode $ bin/hadoop-daemon.sh [start/stop] jobtracker $ bin/hadoop-daemon.sh [start/stop] tasktracker 全部結束 ( 透過 SSH ) $ bin/stop-all.sh $ bin/stop-dfs.sh $ bin/stop-mapred.sh

Hadoop 的操作與運算指令 使用hadoop檔案系統指令 使用hadoop運算功能 $ bin/hadoop Δ fs Δ -Instruction Δ … 使用hadoop運算功能 $ bin/hadoop Δ jar Δ XXX.jar Δ Main_Function Δ …

Hadoop 使用者指令 指令 用途 舉例 fs 對檔案系統進行操作 jar 啟動運算功能 archive 封裝hdfs上的資料 $ bin/hadoop Δ指令 Δ選項 Δ參數 Δ …. 指令 用途 舉例 fs 對檔案系統進行操作 hadoopΔfsΔ–putΔinΔinput jar 啟動運算功能 hadoopΔjarΔexample.jarΔwcΔinΔout archive 封裝hdfs上的資料 hadoopΔarchiveΔfoo.harΔ/dir Δ/user/hadoop distcp 用於叢集間資料傳輸 hadoopΔdistcpΔhdfs://nn1:9000/aa Δhdfs://nn2:9000/aa fsck hdfs系統檢查工具 hadoopΔfsckΔ/aaΔ-filesΔ-blocks Δ-locations job 操作正運算中的程序 hadoopΔ job Δ–kill ΔjobID version 顯示版本 hadoopΔversion

Hadoop 管理者指令 指令 用途 舉例 balancer 平衡hdfs覆載量 dfsadmin 配額、安全模式等管理員操作 $ bin/hadoop Δ指令 Δ選項 Δ參數 Δ …. 指令 用途 舉例 balancer 平衡hdfs覆載量 hadoopΔbalancer dfsadmin 配額、安全模式等管理員操作 hadoopΔdfsadminΔ –setQuotaΔ3 Δ/user1/ namenode 名稱節點操作 hadoopΔnamenodeΔ-format $ bin/hadoop Δ指令 datanode 成為資料節點 hadoopΔdatanode jobtracker 成為工作分派者 hadoopΔ jobtracker tasktracker 成為工作執行者 hadoopΔtasktracker

Yahoo’s Hadoop Cluster ~10,000 machines running Hadoop in US The largest cluster is currently 2000 nodes Nearly 1 petabyte of user data (compressed, unreplicated) Running roughly 10,000 research jobs / week Hadoop Cluster不可不會 17

Hadoop 單機設定與啟動 step 1. 設定登入免密碼 step 2. 安裝java step 3. 下載安裝Hadoop step 4.1 設定 hadoop-env.sh export JAVA_HOME=/usr/lib/jvm/java-6-sun step 4.2 設定 hadoop-site.xml 設定Namenode-> hdfs://localhost:9000 設定Jobtracker -> localhost:9001 step 5.1 格式化HDFS bin/hadoop namenode -format step 5.2 啟動Hadoop bin/start-all.sh step 6. 完成!檢查運作狀態 Job admin http://localhost:50030/ HDFS http://localhost:50070/ 18

Hadoop 單機環境示意圖 Node 1 Localhost Namenode JobTracker Datanode conf /hadoop-site.xml: fs.default.name -> hdfs://localhost:9000 mapred.job.tracker -> localhost:9001 Namenode localhost:50070 JobTracker localhost:50030 conf/slaves: Datanode Tasktracker localhost 19

Hadoop 叢集設定與啟動 step 4.2 設定 hadoop-site.xml step 4.3 設定slaves 檔 step 2. 安裝java step 3. 下載安裝Hadoop step 4.1 設定 hadoop-env.sh export JAVA_HOME=/usr/lib/jvm/java-6-sun step 4.2 設定 hadoop-site.xml 設定Namenode-> hdfs://x.x.x.1:9000 設定Jobtracker -> x.x.x.2:9001 step 4.3 設定slaves 檔 step 4.4 將叢集內的電腦Hadoop都做一樣的配置 step 5.1 格式化HDFS bin/hadoop namenode -format step 5.2 啟動Hadoop nodeN執行: bin/start-dfs.sh ; nodeJ執行: bin/start-mapred.sh step 6. 完成!檢查運作狀態 Job admin http://x.x.x.2:50030/ HDFS http://x.x.x.1:50070/ 20

情況一 Node 1 Node 2 x.x.x.1 Namenode JobTracker x.x.x.2 Datanode conf / hadoop-site.xml: x.x.x.1 http://x.x.x.1:50070 fs.default.name -> hdfs://x.x.x.1:9000 mapred.job.tracker -> x.x.x.1:9001 Namenode http://x.x.x.1:50030 JobTracker Node 2 x.x.x.2 conf/slaves: Datanode Tasktracker Datanode Tasktracker x.x.x.1 x.x.x.2 21

情況二 Node 1 Node 2 x.x.x.1 x.x.x.2 Namenode JobTracker Datanode conf / hadoop-site.xml: x.x.x.1 x.x.x.2 http://x.x.x.1:50070 fs.default.name -> hdfs://x.x.x.1:9000 mapred.job.tracker -> x.x.x.2:9001 Namenode JobTracker http://x.x.x.2:50030 conf/slaves: Datanode Tasktracker Datanode Tasktracker x.x.x.1 x.x.x.2 22

情況三 … Node 1 Node 2 Node N Namenode JobTracker x.x.x.2 x.x.x.n conf / hadoop.site.xml: Node 1 x.x.x.1 fs-default.name -> hdfs://x.x.x.1:9000 mapred.job.tracker -> x.x.x.1:9001 http://x.x.x.1:50070 Namenode JobTracker http://x.x.x.1:50030 Node 2 Node N conf/slaves: x.x.x.2 x.x.x.n x.x.x.2 ….. x.x.x.n Datanode Tasktracker Datanode Tasktracker … 23

情況四 conf / hadoop-site.xml: mapred.job.tracker-> x.x.x.2:9001 fs.default.name -> hdfs://x.x.x.1:9000 http://x.x.x.2:50030 http://x.x.x.1:50070 conf/slaves: x.x.x.3 ……. x.x.x.n 24