Presentation is loading. Please wait.

Presentation is loading. Please wait.

Hadoop平台使用 计算中心 2016.10.12.

Similar presentations


Presentation on theme: "Hadoop平台使用 计算中心 2016.10.12."— Presentation transcript:

1 Hadoop平台使用 计算中心

2 提纲 Hadoop计算平台 Hadoop平台使用方式 -作业管理 -文件管理 -资源管理 2018/11/22

3 Hadoop介绍 目前hadoop集群由1个主节点和5个从节点组成,网络配置为千兆以太网。可用计算资源为120 CPU核,140TB存储空间。目前支持宇宙线模拟(corsika)、ARGO探测器模拟(Geant4)以及数据分析,有5个用户正在使用。 2U HP ProLiant DL380 Gen9服务器:配置2颗Intel Xeon E CPU (2.4GHz,8Cores),64GB 内存,千兆网络。 2U HP ProLiant DL380 Gen9服务器:配置2颗Intel Xeon E CPU (2.5 GHz,12Cores),64GB 内存,6块6TB硬盘,支持RAID5,千兆网络。 2018/11/22

4 Hadoop优势 节省系统造价 不需要昂贵的网络设备和磁盘阵列 扩展性好 可以很容易的扩展到上千、上万节点 提升性能
本地数据读写,无网络延迟。 不受网络限制,可以充分利用本地磁盘的IO性能。 应用广泛 互联网领域广泛应该,众多相关工具可以使用。 2018/11/22

5 当前计算集群架构 vs Hadoop架构 2018/11/22 ~10000CPU Cores ~5PB 当前计算集群 Hadoop集群
网络 万兆网络 千兆网络 存储 磁盘阵列 本地磁盘 数据读写 网络传输,受网络限制 本地磁盘读写 2018/11/22

6 Hadoop作业执行 Hadoop作业的执行流程如下: 2018/11/22

7 Hadoop集群使用 1.AFS账号申请 2.Hadoop账号申请 黄秋兰:huangql@ihep.ac.cn
2.Hadoop账号申请 发送邮件到:注明AFS账号用户名 3.登陆Hadoop客户端节点 ybjslc05.ihep.ac.cn 4.提交作业 使用 hsub 命令提交作业 2018/11/22

8 作业管理 提交前准备-编写jobOptionFile 作业的jobOptionFile文件可分为5个部分:
1)InputFile/InputPath e.g. Hadoop_InputDir=/hdfs/user/liqiang/input/file1 2)OutputPath e.g. Hadoop_OutputDir=/hdfs/user/liqiang/output 3)Job Environment settings e.g. source /workfs/cc/liqiang/set_gcc.sh 4)Executable commands e.g. 软件名+参数 5)LogOutputDir e.g. 日志输出目录 2018/11/22

9 作业管理 提交前准备-编写jobOptionFile InputFile/InputPath
-可以是目录或者具体的文件,支持部分正则表达式,见附录1。 -有些应用没有输入文件(如corsika),这种情况下需要针对应用特点设计jobOptionFile文件。 OutputPath -需要指定输出文件名,由于软件原因,不同的应用程序有不同的输出方式。 分析作业或Geant4作业:改变文件扩展名的方式,扩展名由参数Name_Ext指定 如:输入为DAT gz输出为DAT root 模拟作业(corsika):Prefix(DAT)+I值+Ext(.long) 定义方式: Nam_Prefix={“file1_prefix”,”file2_prefix”,”file3_prefix”} Nam_Ext={“file1_ext”,”file2_ext”,”file3_ext”} 2018/11/22

10 作业管理 jobOptionFile示例1: 2018/11/22

11 作业管理 jobOptionFile示例2: 2018/11/22

12 作业管理 作业提交 hsub + queue + jobType+jobOptionFile + jobname 参数说明:
queue:作业队列(ybj、default); jobTpye:作业类型,MC(模拟作业),REC(重建作业),DA(分析作业); jobOptionFile:作业的配置选项; jobname:作业名; 2018/11/22

13 作业管理 作业监控 web监控: 2018/11/22

14 作业管理 查询正在运行的作业: mapred job –list 作业查询 查看作业状态 :mapred job –status jobId
查询所有作业: mapred job –list all 查看作业状态 :mapred job –status jobId 杀死作业: mapred job –kill jobId 杀死任务: mapred job -kill-task task-id 2018/11/22

15 文件管理 HDFS监控: 2018/11/22

16 文件管理 HDFS文件系统浏览 方法一:web方式
在HDFS监控页面上,选择“Utilities””Browse the file system” 2018/11/22

17 文件管理 HDFS文件系统浏览 方法二:把HDFS挂载到客户端节点。 在ybjslc05.ihep.ac.cn上的/hdfs目录下
2018/11/22

18 文件管理 HDFS文件系统浏览 方法三:命令方式。 在ybjslc05.ihep.ac.cn上的执行命令:hadoop fs -ls /
2018/11/22

19 文件管理 目录创建 hadoop fs -mkdir /tmp/input 文件目录查看
hadoop fs -ls -l /tmp/output  文件上传 hadoop fs –put/-copyFromLocal input1.txt /tmp/input 文件下载 hadoop fs –get/-copyToLocal  input1.txt /tmp/input1.txt 文件读取 hadoop fs -cat /tmp/ouput/output1.txt  hadoop fs -tail /tmp/ouput/output1.txt

20 文件管理 文件删除 删除目录 hadoop fs –rm -r /user/liqiang/output
删除文件 hadoop fs –rm -f /user/liqiang/output/file 权限管理  修改权限 hadoop fs –chmod -R 755 /tmp/test/file 修改所有者 hadoop fs –chown -R user:group /tmp/file 其他 改变文件副本数目 Hadoop fs –setrep -R /tmp/file 2018/11/22

21 资源管理 CPU资源(队列资源) 方式1 通过web监控页面查看 2018/11/22

22 资源管理 CPU资源(队列资源) 方式2 通过命令查询 查看所有队列信息 mapred queue –list 查看某个队列信息
mapred queue –info 队列名 2018/11/22

23 资源管理 存储资源 查看HDFS存储情况 hadoop fs –df -h 查看某个目录下所有文件大小
通过命令 hadoop fs –df -h Web页面监控 查看某个目录下所有文件大小 hadoop fs –du –h /user/liqiang/input 2018/11/22

24 欢迎大家使用! Q&A? 2018/11/22

25 附录1:HDFS支持的正则表达式 2018/11/22


Download ppt "Hadoop平台使用 计算中心 2016.10.12."

Similar presentations


Ads by Google