Presentation is loading. Please wait.

Presentation is loading. Please wait.

大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编.

Similar presentations


Presentation on theme: "大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编."— Presentation transcript:

1 大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编

2 第二章 Hadoop基础 2.1 Hadoop简介 2.2 Hadoop部署 2.3 Hadoop常用命令 2.4 HDFS常用命 习题
大数据应用人才培养系列教材 第二章 Hadoop基础 2.1 Hadoop简介 2.2 Hadoop部署 2.3 Hadoop常用命令 2.4 HDFS常用命 习题

3 2.1Hadoop简介 8 Aug 2018: Release 3.1.1 available
31 May 2018: Release available 本教材:2.7.3 解决海量数据存储(HDFS) 海量数据分析(MapReduce) 资源管理调度问题(YARN)

4 2.1Hadoop简介 第二章 Hadoop基础

5 2.1Hadoop简介 第二章 Hadoop基础

6 2.1Hadoop简介 MapReduce1.0原理图
分布式计算框架,基于它写出来的应用程序能够运行在Hadoop集群上。MapReduce采用“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个从节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是“任务的分解与结果的汇总”。

7 2.1Hadoop简介 第二章 Hadoop基础 HDFS结构图 HDFS是主从结构的,有主节点(NameNode)和从节点(DataNode)。一个主节点可关联多个从节点,一个从节点也可关联多个主节点。从节点又称数据节点。每一个block会在多个DataNode上存储多份副本

8 2.1Hadoop简介 YARN结构 第二章 Hadoop基础 组件 功能 ResourceManager(RM)
负责对各NM上的资源进行统一管理和调度。将AM分配空闲的Container运行并监控其运行状态。对AM申请的资源请求分配相应的空闲Container。 NodeManager (NM)  NM是每个节点上的资源和任务管理器。它会定时地向RM汇报本节点上的资源使用情况和各个Container的运行状态;同时会接收并处理来自AM的Container 启动/停止等请求。 ApplicationMaster (AM) 应用框架,它负责向ResourceManager协调资源,并且与NodeManager协同工作完成Task的执行和监控 Container Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等,当AM向RM申请资源时,RM为AM返回的资源便是用Container 表示的。

9 2.1Hadoop简介 其它Hadoop生态圈组件 功能 第二章 Hadoop基础 HBase
一个建立在HDFS之上,面向列的针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。 Hive Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行,通常用于离线分析。 Spark 一种与 Hadoop 相似的开源集群计算环境,它基于内存计算,数据分析速度更快。 Mahout 创建一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。 Pig 提供一种基于MapReduce的数据分析工具。 Zookeeper 解决分布式环境下的数据管理问题 Sqoop 主要用于传统数据库和Hadoop之间传输数据。

10 第二章 Hadoop基础 2.1 Hadoop简介 2.2 Hadoop部署 2.3 Hadoop常用命令 2.4 HDFS常用命 习题
大数据应用人才培养系列教材 第二章 Hadoop基础 2.1 Hadoop简介 2.2 Hadoop部署 2.3 Hadoop常用命令 2.4 HDFS常用命 习题

11 2.2Hadoop部署 单节点部署 基础知识: 熟悉虚拟机(virtualbox/vmware)
熟悉Linux基本命令(下载文件,使用vi/vim编辑文件,创建文件和创建目录) 准备工作: 在虚拟机中安装好Linux(centos7) 使用桥接模式配好网络

12 2.2Hadoop部署 1.单节点部署 安装步骤: 在虚拟机中安装Centos7 安装ssh 安装rsync。 安装openJDK
在Hadoop的配置文件(etc/hadoop/hadoop-env.sh)中增加环境变量JAVA_HOME 验证配置 运行MapReduce任务

13 2.2Hadoop部署 2.伪分布式部署 安装步骤: SSH免密码登录安装ssh 产生公钥和私钥
将公钥放到目标机器的~/.ssh/authorized_keys中 验证 修改配置文件 core-site.xml、hdfs-site.xml 格式化NameNode 启动NameNode和DataNode的守护进程 通过web检查dfs状态 验证dfs是否正常工作 配置YARN

14 2.2Hadoop部署 3.集群部署 集群部署架构 编号 常见集群部署架构 特点 Hadoop版本 1 传统方式
NameNode加SecondaryNameNod 1.x和2.x 2 HA Active Namenode加Standby Namenode 2.x 3 HA + Federation 两组Active Namenode和Standby Namenode

15 2.2Hadoop部署 3.集群部署 集群规划 编号 机器名 IP 进程 1 m1 10.17.147.101 NameNode 2 m2
SecondaryNamenode 3 m3 ResourceManager,JobHistory 4 m4 DataNode,DataNodeManager 5 m5 6 m6

16 2.2Hadoop部署 3.集群部署 准备工作 准备6台Linux服务器 分别配置6台机器的名字为m1~m6,并指定静态IP地址
所有机器配置本地机器名解析 所有机器之间配置ssh免密码登录 关闭防火墙 下载Hadoop安装包,并解压到适当的位置 所有机器上使用相同版本的jdk和Hadoop版本,并且保证Hadoop的目录在相同的位置

17 2.2Hadoop部署 3.集群部署 准备工作的验证 验证本地机器名解析正常 验证ssh免密码配置成功
在每台机器上运行java -version检查jdk版本 在每台机器上检查防火墙状态

18 2.2Hadoop部署 3.集群部署 配置Hadoop参数 配置etc/hadoop/hadoop-env.sh
配置core-site.xml 配置etc/hadoop/hdfs-site.xml 配置etc/hadoop/mapred-site.xml 配置etc/hadoop/yarn-site.xml 配置etc/hadoop/slaves 分发配置文件。

19 2.2Hadoop部署 3.集群部署 启动集群 格式化NameNode 启动NameNode 启动DataNode 启动全部dfs进程
启动ResourceManager 启动NodeManager 启动JobHistory Server 用浏览器检查web接口工作是否正常 关闭集群

20 第二章 Hadoop基础 2.1 Hadoop简介 2.2 Hadoop部署 2.3 Hadoop常用命令 2.4 HDFS常用命 习题
大数据应用人才培养系列教材 第二章 Hadoop基础 2.1 Hadoop简介 2.2 Hadoop部署 2.3 Hadoop常用命令 2.4 HDFS常用命 习题

21 2.3Hadoop常用命令 1. 用户命令 命令 功能 $bin/hadoop 显示帮助 $bin/hadoop fs 文件操作
$bin/hadoop jar 运行MapReduce程序 $bin/hadoop version 查看Hadoop版本 $bin/hadoop checknative 检查Hadoop的本地库

22 2.3Hadoop常用命令 1. 用户命令 bin/hadoop fs可用的常用参数列表 第二章 Hadoop基础 编号 命令 功能 1
-cat path/file 输出文本文件的内容 2 -appendToFile 本地文件 集群文件 将本地文件的内容追加到集群文件结尾 3 -copyFromLocal 本地文件 集群文件 将本地文件复制到集群 4 -copyToLocal集群文件 本地文件 将集群文件复制到本地 5 -cp 集群原文件 集群目标文件 复制集群文件 6 -mv集群原文件 集群目标文件 移动或重命名文个 7 -ls 路径 列出集群文件或者目录 8 -mkdir 路径 在集群中创建目录 9 -setrep [参数] [副本数] [路径] 设置文件副本数

23 2.3Hadoop常用命令 2.管理命令 功能:动态调整日志级别。
$bin/hadoop daemonlog -getlevel <host:httpport> <classname> $bin/hadoop daemonlog -setlevel <host:httpport> <classname> <level> DEBUG < INFO < WARN < ERROR < FATAL

24 2.3Hadoop常用命令 2.管理命令 功能:动态调整日志级别。
$bin/hadoop daemonlog -getlevel <host:httpport> <classname> $bin/hadoop daemonlog -setlevel <host:httpport> <classname> <level> DEBUG < INFO < WARN < ERROR < FATAL

25 2.3Hadoop常用命令 3.启动关闭命令 第二章 Hadoop基础 命令 功能
$sbin/start-all.sh $sbin/stop-all.sh 启动集群所有服务/关闭集群所有服务 $sbin/start-dfs.sh $sbin/stop-dfs.sh 启动dfs;关闭dfs $sbin/start-yarn.sh $sbin/stop-yarn.sh 启动YARN;关闭YARN $sbin/hadoop-daemon.sh [start|stop] 服务名 单个Hadoop服务启动或者关闭 $sbin/hadoop-daemons.sh [start|stop] 服务名 全部slaves上的Hadoop服务启动或者关闭 $sbin/yarn-daemon.sh [start|stop] 服务名 单个yarn服务的启动或者关闭 $sbin/yarn-daemons.sh [start|stop] 服务名 全部slaves上的yarn服务启动或者关闭 $bin/hdfs secondarynamenode 以控制台的方式启动SecondaryNameNode $bin/hdfs namenode 以控制台的方式启动NameNode $bin/hdfs datanode 以控制台的方式启动DataNode

26 第二章 Hadoop基础 2.1 Hadoop简介 2.2 Hadoop部署 2.3 Hadoop常用命令 2.4 HDFS常用命 习题
大数据应用人才培养系列教材 第二章 Hadoop基础 2.1 Hadoop简介 2.2 Hadoop部署 2.3 Hadoop常用命令 2.4 HDFS常用命 习题

27 2.4HDFS常用命令 1.用户命令 命令 功能 $bin/hdfs 显示帮助 $bin/hdfs dfs [参数]
第二章 Hadoop基础 1.用户命令 命令 功能 $bin/hdfs 显示帮助 $bin/hdfs dfs [参数] 文件操作,与$bin/hadoop fs的参数完全一样 $bin/hdfs namenode -format 格式化NameNode $bin/hdfs getconf 从配置文件中获取配置信息 $bin/hdfs fsck [路径] [参数] 处理损坏的文件

28 2.4HDFS常用命令 1.用户命令 fsck参数 编号 参数 功能 1 -list-corruptfileblocks
第二章 Hadoop基础 1.用户命令 fsck参数 编号 参数 功能 1 -list-corruptfileblocks 输出损坏的文件及丢失的块 2 -move 将文件移动到/lost+found目录 3 -delete 删除损坏的文件 4 -openforwrite 输出以写方式打开的文件 5 -files 输出该目录及子目录下所有文件的状态 6 -files -blocks 输出该目录及子目录下所有文件的块信息 7 -files –blocks -locations 输出该目录及子目录下所有文件在DataNode的存储信息 8 -files -blocks -racks 输出该目录及子目录下所有文件机架感知信息

29 2.4HDFS常用命令 2.管理命令 命令 功能 $bin/hdfs dfsadmin -report 查看HDFS的基本统计信息
第二章 Hadoop基础 2.管理命令 命令 功能 $bin/hdfs dfsadmin -report 查看HDFS的基本统计信息 $bin/hdfs dfsadmin -safemode <enter | leave | get | wait> 配置安全模式 $bin/hdfs dfsadmin -saveNamespace 将内存信息保存到磁盘,并重置edits文件 $bin/hdfs dfsadmin - refreshNodes 刷新节点和排除文件 $bin/hdfs dfsadmin – setBalancerBandwidth [byte per second] 设置负载均衡带宽 $bin/hdfs secondarynamenode [参数] 操作SecondaryNameNode $bin/hdfs balancer 平衡集群中DataNode的数据

30 第二章 Hadoop基础 2.1 Hadoop简介 2.2 Hadoop部署 2.3 Hadoop常用命令 2.4 HDFS常用命 习题
大数据应用人才培养系列教材 第二章 Hadoop基础 2.1 Hadoop简介 2.2 Hadoop部署 2.3 Hadoop常用命令 2.4 HDFS常用命 习题

31 习题: 1.简述Hadoop的三种部署方式。 2.简述单机SSH免密码登录的配置方式。
5.查阅资源,学习Hadoop集群HA和HA 加Federaion的配置方法.

32 AIRack人工智能实验平台 ——一站式的人工智能实验平台 DeepRack深度学习一体机 ——开箱即用的AI科研平台 BDRack大数据实验平台——一站式的大数据实训平台

33 云创公众号推荐 刘鹏看未来 云计算头条 中国大数据 深度学习世界 云创大数据订阅号 云创大数据服务号 高校大数据与人工智能
微信号:lpoutlook 云计算头条 微信号:chinacloudnj 中国大数据 微信号:cstorbigdata 深度学习世界 微信号:dl-world 云创大数据订阅号 微信号:cStor_cn 云创大数据服务号 微信号:cstorfw 高校大数据与人工智能 微信号:data_AI

34 手机APP推荐 我的PM2.5 随时随地准确 查看身边的 PM2.5值 同声译 支持26种语言 互译的实时翻 译软件 我的南京
云创大数据为路 况大数据应用提 供技术支持 科技头条 汇聚前沿资讯 的科技情报站

35 网站推荐 万物云 智能硬件大数据免费托管平台 环境云 环境大数据开放共享平台

36 感谢聆听


Download ppt "大数据应用人才培养系列教材 大数据实践 刘 鹏 张 燕 总主编 袁晓东 主编 黄必栋 副主编."

Similar presentations


Ads by Google