大数据应用人才培养系列教材大数据实践刘鹏张燕总主编袁晓东主编黄必栋副主编.

大数据应用人才培养系列教材大数据实践刘鹏张燕总主编袁晓东主编黄必栋副主编

第二章 Hadoop基础 2.1 Hadoop简介 2.2 Hadoop部署 2.3 Hadoop常用命令 2.4 HDFS常用命习题
大数据应用人才培养系列教材第二章 Hadoop基础 2.1　Hadoop简介 2.2　Hadoop部署 2.3　Hadoop常用命令 2.4　HDFS常用命习题

2.1Hadoop简介 8 Aug 2018: Release 3.1.1 available
31 May 2018: Release available 本教材：2.7.3 解决海量数据存储（HDFS）海量数据分析（MapReduce）资源管理调度问题（YARN）

2.1Hadoop简介第二章 Hadoop基础

2.1Hadoop简介 MapReduce1.0原理图
分布式计算框架，基于它写出来的应用程序能够运行在Hadoop集群上。MapReduce采用“分而治之”的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个从节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是“任务的分解与结果的汇总”。

2.1Hadoop简介第二章 Hadoop基础 HDFS结构图 HDFS是主从结构的，有主节点（NameNode）和从节点（DataNode）。一个主节点可关联多个从节点，一个从节点也可关联多个主节点。从节点又称数据节点。每一个block会在多个DataNode上存储多份副本

2.1Hadoop简介 YARN结构第二章 Hadoop基础组件功能 ResourceManager(RM)
负责对各NM上的资源进行统一管理和调度。将AM分配空闲的Container运行并监控其运行状态。对AM申请的资源请求分配相应的空闲Container。 NodeManager (NM) NM是每个节点上的资源和任务管理器。它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态；同时会接收并处理来自AM的Container 启动/停止等请求。 ApplicationMaster (AM) 应用框架，它负责向ResourceManager协调资源，并且与NodeManager协同工作完成Task的执行和监控 Container Container是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等，当AM向RM申请资源时，RM为AM返回的资源便是用Container 表示的。

2.1Hadoop简介其它Hadoop生态圈组件功能第二章 Hadoop基础 HBase
一个建立在HDFS之上，面向列的针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。 Hive Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行，通常用于离线分析。 Spark 一种与 Hadoop 相似的开源集群计算环境，它基于内存计算，数据分析速度更快。 Mahout 创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。 Pig 提供一种基于MapReduce的数据分析工具。 Zookeeper 解决分布式环境下的数据管理问题 Sqoop 主要用于传统数据库和Hadoop之间传输数据。

2.2Hadoop部署单节点部署基础知识：熟悉虚拟机（virtualbox/vmware）
熟悉Linux基本命令（下载文件，使用vi/vim编辑文件，创建文件和创建目录）准备工作：在虚拟机中安装好Linux(centos7) 使用桥接模式配好网络

2.2Hadoop部署 1.单节点部署安装步骤：在虚拟机中安装Centos7 安装ssh 安装rsync。安装openJDK
在Hadoop的配置文件（etc/hadoop/hadoop-env.sh）中增加环境变量JAVA_HOME 验证配置运行MapReduce任务

2.2Hadoop部署 2.伪分布式部署安装步骤： SSH免密码登录安装ssh 产生公钥和私钥
将公钥放到目标机器的~/.ssh/authorized_keys中验证修改配置文件 core-site.xml、hdfs-site.xml 格式化NameNode 启动NameNode和DataNode的守护进程通过web检查dfs状态验证dfs是否正常工作配置YARN

2.2Hadoop部署 3.集群部署集群部署架构编号常见集群部署架构特点 Hadoop版本 1 传统方式
NameNode加SecondaryNameNod 1.x和2.x 2 HA Active Namenode加Standby Namenode 2.x 3 HA + Federation 两组Active Namenode和Standby Namenode

2.2Hadoop部署 3.集群部署集群规划编号机器名 IP 进程 1 m1 10.17.147.101 NameNode 2 m2
SecondaryNamenode 3 m3 ResourceManager,JobHistory 4 m4 DataNode，DataNodeManager 5 m5 6 m6

2.2Hadoop部署 3.集群部署准备工作准备6台Linux服务器分别配置6台机器的名字为m1~m6，并指定静态IP地址
所有机器配置本地机器名解析所有机器之间配置ssh免密码登录关闭防火墙下载Hadoop安装包，并解压到适当的位置所有机器上使用相同版本的jdk和Hadoop版本，并且保证Hadoop的目录在相同的位置

2.2Hadoop部署 3.集群部署准备工作的验证验证本地机器名解析正常验证ssh免密码配置成功
在每台机器上运行java -version检查jdk版本在每台机器上检查防火墙状态

2.2Hadoop部署 3.集群部署配置Hadoop参数配置etc/hadoop/hadoop-env.sh
配置core-site.xml 配置etc/hadoop/hdfs-site.xml 配置etc/hadoop/mapred-site.xml 配置etc/hadoop/yarn-site.xml 配置etc/hadoop/slaves 分发配置文件。

2.2Hadoop部署 3.集群部署启动集群格式化NameNode 启动NameNode 启动DataNode 启动全部dfs进程
启动ResourceManager 启动NodeManager 启动JobHistory Server 用浏览器检查web接口工作是否正常关闭集群

2.3Hadoop常用命令 1. 用户命令命令功能 $bin/hadoop 显示帮助 $bin/hadoop fs 文件操作
$bin/hadoop jar 运行MapReduce程序 $bin/hadoop version 查看Hadoop版本 $bin/hadoop checknative 检查Hadoop的本地库

2.3Hadoop常用命令 1. 用户命令 bin/hadoop fs可用的常用参数列表第二章 Hadoop基础编号命令功能 1
-cat path/file 输出文本文件的内容 2 -appendToFile 本地文件集群文件将本地文件的内容追加到集群文件结尾 3 -copyFromLocal 本地文件集群文件将本地文件复制到集群 4 -copyToLocal集群文件本地文件将集群文件复制到本地 5 -cp 集群原文件集群目标文件复制集群文件 6 -mv集群原文件集群目标文件移动或重命名文个 7 -ls 路径列出集群文件或者目录 8 -mkdir 路径在集群中创建目录 9 -setrep [参数] [副本数] [路径] 设置文件副本数

2.3Hadoop常用命令 2.管理命令功能：动态调整日志级别。
$bin/hadoop daemonlog -getlevel <host:httpport> <classname> $bin/hadoop daemonlog -setlevel <host:httpport> <classname> <level> DEBUG < INFO < WARN < ERROR < FATAL

2.3Hadoop常用命令 3.启动关闭命令第二章 Hadoop基础命令功能
$sbin/start-all.sh $sbin/stop-all.sh 启动集群所有服务/关闭集群所有服务 $sbin/start-dfs.sh $sbin/stop-dfs.sh 启动dfs;关闭dfs $sbin/start-yarn.sh $sbin/stop-yarn.sh 启动YARN;关闭YARN $sbin/hadoop-daemon.sh [start|stop] 服务名单个Hadoop服务启动或者关闭 $sbin/hadoop-daemons.sh [start|stop] 服务名全部slaves上的Hadoop服务启动或者关闭 $sbin/yarn-daemon.sh [start|stop] 服务名单个yarn服务的启动或者关闭 $sbin/yarn-daemons.sh [start|stop] 服务名全部slaves上的yarn服务启动或者关闭 $bin/hdfs secondarynamenode 以控制台的方式启动SecondaryNameNode $bin/hdfs namenode 以控制台的方式启动NameNode $bin/hdfs datanode 以控制台的方式启动DataNode

2.4HDFS常用命令 1.用户命令命令功能 $bin/hdfs 显示帮助 $bin/hdfs dfs [参数]
第二章 Hadoop基础 1.用户命令命令功能 $bin/hdfs 显示帮助 $bin/hdfs dfs [参数] 文件操作，与$bin/hadoop fs的参数完全一样 $bin/hdfs namenode -format 格式化NameNode $bin/hdfs getconf 从配置文件中获取配置信息 $bin/hdfs fsck [路径] [参数] 处理损坏的文件

2.4HDFS常用命令 1.用户命令 fsck参数编号参数功能 1 -list-corruptfileblocks
第二章 Hadoop基础 1.用户命令 fsck参数编号参数功能 1 -list-corruptfileblocks 输出损坏的文件及丢失的块 2 -move 将文件移动到/lost+found目录 3 -delete 删除损坏的文件 4 -openforwrite 输出以写方式打开的文件 5 -files 输出该目录及子目录下所有文件的状态 6 -files -blocks 输出该目录及子目录下所有文件的块信息 7 -files –blocks -locations 输出该目录及子目录下所有文件在DataNode的存储信息 8 -files -blocks -racks 输出该目录及子目录下所有文件机架感知信息

2.4HDFS常用命令 2.管理命令命令功能 $bin/hdfs dfsadmin -report 查看HDFS的基本统计信息
第二章 Hadoop基础 2.管理命令命令功能 $bin/hdfs dfsadmin -report 查看HDFS的基本统计信息 $bin/hdfs dfsadmin -safemode <enter | leave | get | wait> 配置安全模式 $bin/hdfs dfsadmin -saveNamespace 将内存信息保存到磁盘，并重置edits文件 $bin/hdfs dfsadmin - refreshNodes 刷新节点和排除文件 $bin/hdfs dfsadmin – setBalancerBandwidth [byte per second] 设置负载均衡带宽 $bin/hdfs secondarynamenode [参数] 操作SecondaryNameNode $bin/hdfs balancer 平衡集群中DataNode的数据

习题： 1.简述Hadoop的三种部署方式。 2.简述单机SSH免密码登录的配置方式。
5.查阅资源，学习Hadoop集群HA和HA 加Federaion的配置方法.

AIRack人工智能实验平台 ——一站式的人工智能实验平台 DeepRack深度学习一体机 ——开箱即用的AI科研平台 BDRack大数据实验平台——一站式的大数据实训平台

云创公众号推荐刘鹏看未来云计算头条中国大数据深度学习世界云创大数据订阅号云创大数据服务号高校大数据与人工智能
微信号：lpoutlook 云计算头条微信号：chinacloudnj 中国大数据微信号：cstorbigdata 深度学习世界微信号：dl-world 云创大数据订阅号微信号：cStor_cn 云创大数据服务号微信号：cstorfw 高校大数据与人工智能微信号：data_AI

手机APP推荐我的PM2.5 随时随地准确查看身边的 PM2.5值同声译支持26种语言互译的实时翻译软件我的南京
云创大数据为路况大数据应用提供技术支持科技头条汇聚前沿资讯的科技情报站

网站推荐万物云智能硬件大数据免费托管平台环境云环境大数据开放共享平台

感谢聆听

大数据应用人才培养系列教材大数据实践刘鹏张燕总主编袁晓东主编黄必栋副主编.

Similar presentations

Presentation on theme: "大数据应用人才培养系列教材大数据实践刘鹏张燕总主编袁晓东主编黄必栋副主编."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编.

Similar presentations

Presentation on theme: "大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编."— Presentation transcript:

Similar presentations

About project

反馈

大数据应用人才培养系列教材大数据实践刘鹏张燕总主编袁晓东主编黄必栋副主编.

Presentation on theme: "大数据应用人才培养系列教材大数据实践刘鹏张燕总主编袁晓东主编黄必栋副主编."— Presentation transcript: