Hadoop平台使用 计算中心 2016.10.12.

Slides:



Advertisements
Similar presentations
定 格 入 格 破 格 —— 新诗仿写复习训练 仿照下列句子,再把 “ 人生 ” 比喻成 “ 大海 ”“ 天空 ” , 造两个句子。 如果说人生是一首优美的乐曲,那么痛苦则 是其中一个不可或缺的音符。 参考答案: 1 、如果说人生是一望无际的大海,那么挫折则 是其中一个骤然翻起的浪花。 2 、如果说人生是一片湛蓝的天空,那么失意则.
Advertisements

大数据基础技术和应用. 大纲 大数据概述 大数据基础技术 工程技术 策略技术 典型应用 我们处于数据爆炸的时代 数据库 文字记录 照片 线下数据信息化 网页数据 用户行为记录 数字图像 互联网 - 移动互联网 设备监控 智能家居 摄像头 传感器 地球上至今总共的数据量: 在 2006 年,个人用户才刚刚迈.
不要叫我外籍新娘 小組名單 張婉娟 卓莉秋 廖敬萱 廖敬萱 余淑釩 余淑釩.
(一)辦桌文化起始略說: 1. 祭祀宗教 2. 生命禮儀 3. 外燴 --- 老師、師公、師傅、總鋪師 4. 搬桌搬椅時代 (二) 食物食材 1. 靠山考海 2. 基本:炒米粉、糍、檳榔 3. 小吃搬上桌 (三) 變變變 1. 調味不同 2. 師承不同 3. 地點也變.
一、老师申请题目,以下指导老 师操作。 1. 登录教务系统 web 端. 2. 点击 “ 毕业设计 ” 工具栏下拉菜单中的 “ 论文 _ 教师申请题目 ”
第5讲 索引构建 Index construction 授课人:高曙明
第4章 交易性金融资产与可供出售金融资产 学习目标
如何準備社工師考試 講 師:張雅惠 社工師 演講日期:
王同学的苦恼﹗ MC 4.1 诚可贵﹗.
(4F01) 陳可兒 (4F03) 張令宜 (4F05) 何秀欣 (4F14) 潘美玲
时间与我们的世界 Pb 段心蕊.
劳动关系法务-实操篇 规章制度修审与员工手册撰写.
淘宝海量数据产品技术架构 张轩丞(朋春) 淘宝网-数据平台与产品部.
急難救助措施簡介 內政部社會司 99年6月7日.
北京中医药大学东直门医院 把握“癌”的命脉 祁烁 血液肿瘤科.
精品开放课程的 建设与应用 谢幼如 教授 广东省高校教育技术中心 华南师范大学教育信息技术学院
职业生涯规划与择业求职 雅虎口碑高级分析师 杨玲 2008年10月31日.
珠海市夏湾中学 曾雪静 引言: 清朝是中国最后一个封建王朝,共有12位皇帝。他们各有个的故事,有的开创了“盛世”有的则把清朝推向灭亡。下面,请看清朝列位皇帝简介 清朝皇帝史.
性理釋疑(1—30題) 後學 阮章輝 學講.
短歌行.
做好就业与自主创业的准备.
华为2路机架服务器产品售前培训 作者:陈星颖/
小学《人•自然•社会》 五年级教材解读 浙江省教育厅教研室 李 荆 -
第十六章 股票交易資訊分析與試算 課前指引 目前最熱門的理財方式莫過於投資股票市場,因此本章首先講解如何從美國股市匯入重要資料,之後教授使用WEB查訊功能,匯入台灣股市即時或盤後交易資訊到Excel工作表中,再利用資料分析工具來協助瞭解個股。最後再利用Excel圖表功能來繪製成股票K線圖,這是不是很有趣及實用呢?
輕歌妙舞送黃昏 組員名單 組長:程鵬飛 組員:黎達華 劉展鵬 邱迦欣.
集群作业管理系统简介 报告人:罗正平 导 师:肖炳甲研究员.
技术支持部 张新凤( ) 并行机群系统安装、使用和管理 技术支持部 张新凤( )
云计算学习报告 报告人: 陈 霁 大规模数据处理软件Apache Hadoop.
2013 澎湖自助旅行講座 澎湖,其實就是一片海洋 主辦:沿著菊島旅行 協辦: 台北澎湖同鄉會、台中澎湖同鄉會、高雄澎湖同鄉會
期考議題 單元一:資訊科技(eg上網活動)與人際關係 單元二:青少年社政參與(80後) 單元二:郊野公園與房屋政策/問題
大學多元入學方案 財務金融二 王詩茹.
第八章 网络课程的设计与开发.
计算中心2002年总结.
共产党员致力 新疆油田信息化建设 数据公司信息业务党支部 2013年6月.
第2章:企業組織 張緯良 世新大學資訊管理系.
第11章 海量信息存储 主讲:刘方明 副教授 华中科技大学计算机学院
云梯的多namenode和跨机房之路
HADOOP的高能物理分析平台 孙功星 高能物理研究所/计算中心
人地關係 ── 熱帶雨林 人文活動對環境的影響.
第8章 机床操作 主讲:臧红彬 博士.
定风波.
鸿门宴 司马迁.
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
互联网时代班主任的挑战 万玮 2014年9月20日.
权力的行使:需要监督 北京市京源学校 冯 悦.
一 二 三 四 五 六 七 项目建设总体情况 建设工作机制与举措 项目建设进展 建设经费投入与使用 贡献与示范 典型案例
伯裘書院 環保廣告能否有效 地推動環保意識.
4H (1)歐宛曈 (9)李熹漩 (12)吳紀芙 (14)唐曉筠
Confidential Property
組員:蔡惠雅 494D0032 楊雅惠494B0079 蔡騏鴻 葉時宇 余建霖495B0002 陳瑛淑495B0021
第3章 分布式文件系统HDFS (PPT版本号:2017年2月版本)
分布式系统中的关键概念及Hadoop的起源、架构、搭建
雲端計算 參考書籍:Python+Spark 2.0+Hadoop 機器學習與大數據分析實戰
台灣大學計算機及資訊網路中心 教學研究組 張傑生
實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務
第二章 行程管理 朱肇明 資管系 講師 大華技術學院.
鄉村尋根-農具篇.
曙光集群简明使用手册 技术支持中心.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
李恒锐 北京景行锐创软件有限公司 2017年6月 西北农林科技大学 超算系统现状和调度系统使用 讲解 李恒锐 北京景行锐创软件有限公司 2017年6月.
系统管理员培训(I期) 浙江省基层人民法院 -V8版介绍及系统管理培训 二OO八年四月二十三日 法院事业部经理:周春宏
香港傳統的農村生活.
设岗申请 审核发布 岗位申请 助教培训 津贴发放 工作考核 授课教师 岗位要求 工作内容 开课单位 确定课程、岗位 发布需求 研究生
“修身成材” 班级干部培训班 黑龙江大学党委学工部.
百艳图.
進行員工胸部X光 主講人:黃宜玟感控師 林新醫院
下列各句没有语病的一项是 A.布什政府在陷入伊战泥潭不能自拔的情况下,美国国会通过决议要求政府限期从伊拉克撤军。 B.自上世纪70年代开始,心脏病急剧上升,该病已成为威胁人类健康的主要杀手之一。 C.尊重事实,追求真理是专家的天职,任何违背科学真理的行为都应成为其禁区都不可踏入。 D.北京时间2007年9月14日,9时33分,日本第一颗绕月探测卫星“月亮女神”号在日本九州种子岛宇宙中心发射升空。
聖經的獨特.
第六章 文件系统与文件管理 6.4 Linux文件管理 1、比较MS DOS 与 Linux的目录结构 一、Linux文件系统的树形结构
Presentation transcript:

Hadoop平台使用 计算中心 2016.10.12

提纲 Hadoop计算平台 Hadoop平台使用方式 -作业管理 -文件管理 -资源管理 2018/11/22

Hadoop介绍 目前hadoop集群由1个主节点和5个从节点组成,网络配置为千兆以太网。可用计算资源为120 CPU核,140TB存储空间。目前支持宇宙线模拟(corsika)、ARGO探测器模拟(Geant4)以及数据分析,有5个用户正在使用。 2U HP ProLiant DL380 Gen9服务器:配置2颗Intel Xeon E5-2630 CPU (2.4GHz,8Cores),64GB 内存,千兆网络。 2U HP ProLiant DL380 Gen9服务器:配置2颗Intel Xeon E5-2680 CPU (2.5 GHz,12Cores),64GB 内存,6块6TB硬盘,支持RAID5,千兆网络。 2018/11/22

Hadoop优势 节省系统造价 不需要昂贵的网络设备和磁盘阵列 扩展性好 可以很容易的扩展到上千、上万节点 提升性能 本地数据读写,无网络延迟。 不受网络限制,可以充分利用本地磁盘的IO性能。 应用广泛 互联网领域广泛应该,众多相关工具可以使用。 2018/11/22

当前计算集群架构 vs Hadoop架构 2018/11/22 ~10000CPU Cores ~5PB 当前计算集群 Hadoop集群 网络 万兆网络 千兆网络 存储 磁盘阵列 本地磁盘 数据读写 网络传输,受网络限制 本地磁盘读写 2018/11/22

Hadoop作业执行 Hadoop作业的执行流程如下: 2018/11/22

Hadoop集群使用 1.AFS账号申请 2.Hadoop账号申请 黄秋兰:huangql@ihep.ac.cn http://afsapply.ihep.ac.cn:86/ccapply/userapplyaction.action 2.Hadoop账号申请 发送邮件到:注明AFS账号用户名 黄秋兰:huangql@ihep.ac.cn 李强:liqiang88@ihep.ac.cn 3.登陆Hadoop客户端节点 ybjslc05.ihep.ac.cn 4.提交作业 使用 hsub 命令提交作业 2018/11/22

作业管理 提交前准备-编写jobOptionFile 作业的jobOptionFile文件可分为5个部分: 1)InputFile/InputPath e.g. Hadoop_InputDir=/hdfs/user/liqiang/input/file1 2)OutputPath e.g. Hadoop_OutputDir=/hdfs/user/liqiang/output 3)Job Environment settings e.g. source /workfs/cc/liqiang/set_gcc.sh 4)Executable commands e.g. 软件名+参数 5)LogOutputDir e.g. 日志输出目录 2018/11/22

作业管理 提交前准备-编写jobOptionFile InputFile/InputPath -可以是目录或者具体的文件,支持部分正则表达式,见附录1。 -有些应用没有输入文件(如corsika),这种情况下需要针对应用特点设计jobOptionFile文件。 OutputPath -需要指定输出文件名,由于软件原因,不同的应用程序有不同的输出方式。 分析作业或Geant4作业:改变文件扩展名的方式,扩展名由参数Name_Ext指定 如:输入为DAT140001.gz输出为DAT140001.root 模拟作业(corsika):Prefix(DAT)+I值+Ext(.long) 定义方式: Nam_Prefix={“file1_prefix”,”file2_prefix”,”file3_prefix”} Nam_Ext={“file1_ext”,”file2_ext”,”file3_ext”} 2018/11/22

作业管理 jobOptionFile示例1: 2018/11/22

作业管理 jobOptionFile示例2: 2018/11/22

作业管理 作业提交 hsub + queue + jobType+jobOptionFile + jobname 参数说明: queue:作业队列(ybj、default); jobTpye:作业类型,MC(模拟作业),REC(重建作业),DA(分析作业); jobOptionFile:作业的配置选项; jobname:作业名; 2018/11/22

作业管理 作业监控 web监控:http://lhaaso01.ihep.ac.cn:50030,能够查看每个作业的执行进度,执行日志等信息。 2018/11/22

作业管理 查询正在运行的作业: mapred job –list 作业查询 查看作业状态 :mapred job –status jobId 查询所有作业: mapred job –list all 查看作业状态 :mapred job –status jobId 杀死作业: mapred job –kill jobId 杀死任务: mapred job -kill-task task-id 2018/11/22

文件管理 HDFS监控:http://lhaaso01.ihep.ac.cn:50070 2018/11/22

文件管理 HDFS文件系统浏览 方法一:web方式 在HDFS监控页面上,选择“Utilities””Browse the file system” 2018/11/22

文件管理 HDFS文件系统浏览 方法二:把HDFS挂载到客户端节点。 在ybjslc05.ihep.ac.cn上的/hdfs目录下 2018/11/22

文件管理 HDFS文件系统浏览 方法三:命令方式。 在ybjslc05.ihep.ac.cn上的执行命令:hadoop fs -ls / 2018/11/22

文件管理 目录创建 hadoop fs -mkdir /tmp/input 文件目录查看 hadoop fs -ls -l /tmp/output  文件上传 hadoop fs –put/-copyFromLocal input1.txt /tmp/input 文件下载 hadoop fs –get/-copyToLocal  input1.txt /tmp/input1.txt 文件读取 hadoop fs -cat /tmp/ouput/output1.txt  hadoop fs -tail /tmp/ouput/output1.txt

文件管理 文件删除 删除目录 hadoop fs –rm -r /user/liqiang/output 删除文件 hadoop fs –rm -f /user/liqiang/output/file 权限管理  修改权限 hadoop fs –chmod -R 755 /tmp/test/file 修改所有者 hadoop fs –chown -R user:group /tmp/file 其他 改变文件副本数目 Hadoop fs –setrep -R /tmp/file 2018/11/22

资源管理 CPU资源(队列资源) 方式1 通过web监控页面查看 2018/11/22

资源管理 CPU资源(队列资源) 方式2 通过命令查询 查看所有队列信息 mapred queue –list 查看某个队列信息 mapred queue –info 队列名 2018/11/22

资源管理 存储资源 查看HDFS存储情况 hadoop fs –df -h 查看某个目录下所有文件大小 通过命令 hadoop fs –df -h Web页面监控 查看某个目录下所有文件大小 hadoop fs –du –h /user/liqiang/input 2018/11/22

欢迎大家使用! Q&A? 2018/11/22

附录1:HDFS支持的正则表达式 2018/11/22