密级: 亿赞普Hadoop应用浅析 IZP 肖燕京.

Slides:



Advertisements
Similar presentations
模板的使用 教育学 江西教育学院教育系 冯芳 2012 - 10. 第二章 教育学的产生和发展 第一节 教育学的研究对象和任务 第二节 教育学的产生与发展 第三节 学习教育学的意义与方法.
Advertisements

第七組古文閱讀報告 組長:秀惠 組員:孟筑、雅曼、雅文、盈蓁. 《朱買臣苦學有成》之原文翻譯 朱買臣,字翁子,吳人也。 朱買臣,字翁子,吳國人。 家貧,好讀書,不治產業,常刈(一ˋ)薪 樵,賣以給 (ㄐㄧ ˇ ) 食。 家裡雖然很窮困,但是他還是很喜歡讀書,因 不懂得如何治理產業,只能靠著上山砍材去城.
你不知道的 3M P 班級 : 創意二甲 指導老師 : 袁又華 組長 : 林毓茹 組員 : 林以軒 林欣汝 陳盈羽 陳怡如 劉玉婷.
用 藥 安 全 用 藥 安 全 護 理 師 張 嘉 芬. 前 言 前 言 正確用藥的方法 藥袋上的秘辛 為了減少重大疾病或是醫療處理、 用藥不當的相關事件發生。
阿尔伯特亲王 阿尔伯特亲王纪念碑 维多利亚女王夫妇 维多利亚女王一家 建造水晶宫 水晶宫初建时的照片.
梦想启航 ——大学生活与职业规划专题讲座.
河北保定外国语学校 高三家长会.
五所交大是一家 演讲: 孔谐和 尹天威.
以信息化带动教育现代化,打造教育的“南山质量”
个体税收征管政策讲解 浏阳市地方税务局.
封面 2015易驾考最新分享: 科目二考试方法秘诀 文章来源:易驾考官网.
基于行业的 企业技术创新信息保障体系研究 刘 华 博士 中国科学技术信息研究所.
第四讲 1949—1991年的中苏关系 及其经验教训.
民主國家的政府體制 我國的中央政府體制 我國中央政府的功能 地方政府組織與功能
“鼠标加水泥”的百货公司——武汉中百 朱巧巧 陆嘉怡 田泽宇.
合理控制索道游客流量 确保景区可持续发展 云南丽江玉龙雪山索道 陈加林 二0一五年十一月.
千里挑一的“征途” ——浅谈中国“国考”热.
做好就业与自主创业的准备.
研修4组 学习简报(第3期) 主编:左文玲 2015年2月7日.
“大云”大数据平台及应用 中国移动通信研究院 郭磊涛 2013年11月.
經費結報認證制度 種子人員講習會 主辦:汪憶芳 協辦:陳蓮萍 鄭曉雲 江一帆 日期:2012/09/04(二) 時間:09:00~12:15
潘集小学英语班 学习简报(第5期) 主编:吴婷 2016年2月28日.
鞘翅目 生科四乙 蘇俊融.
与领导、下级、同事的 沟通技巧.
潜能宇宙平衡法则 ——启动11.11天地人合新生命工程(分类系统) 凛然智慧(北京)教育咨询有限公司.
失眠的饮食及调理 北京国济中医院
中餐烹調實習Ⅲ 第九章中國菜系介紹 林可薇 製作.
共产党员致力 新疆油田信息化建设 数据公司信息业务党支部 2013年6月.
新高考研究介绍 湖北省教育考试院项目研究组.
如东中专 学校文化课现状及提升举措的思考
監察院公職人員財產申報處 編製 報告人:林世忠
第3讲 时间管理.
云梯的多namenode和跨机房之路
数据采集与Hadoop框架 报告人:黄文君 导 师:王华忠 BEA Confidential.
续班指导.
高等教育出版社 工作汇报 化学化工分社 翟怡.
******班班级学习简报(第*期) 主编:*** ****年**月**日.
采购控制程序 2008年9月.
单位:十堰离退休职工服务中心 时间:2016年2月1日
俄语字母的发音体系 阅读规则.
为教师开展大数据课程教学提供全方位、一站式服务
基于hadoop的数据仓库技术.
中国家电企业如何打造全球化品牌 黄 辉.
四川信托-汇誉10号集合资金信托计划.
《现代大学 英语》 说课程 公共课部 臧朝晖 益阳医学高等专科学校.
保大人还是保小孩 ---产房里的伦理学问题 小组成员 蔡婷 基础医学系 郭灵飞 基础医学系
超星尔雅 tsk.erya100.chaoxing.com 网络通识课程学习指导.
發展東華特色課程 期末成果發表 呂進瑞 國立東華大學財金系.
中药学 第十一章 祛风湿药.
形势与政策 2016年上.
核心价值观记心中 主题班会
一 二 三 四 五 六 七 项目建设总体情况 建设工作机制与举措 项目建设进展 建设经费投入与使用 贡献与示范 典型案例
幼儿园班务管理实践.
一种基于Hadoop的视频大数据分布式解码方法 冯强
王耀聰 陳威宇 國家高速網路與計算中心(NCHC)
設置Hadoop環境 王耀聰 陳威宇 楊順發 國家高速網路與計算中心(NCHC)
YARN & MapReduce 2.0 Boyu Diao
Hadoop 單機設定與啟動 step 1. 設定登入免密碼 step 2. 安裝java step 3. 下載安裝Hadoop
第2章 大数据处理架构Hadoop (PPT版本号:2017年2月版本)
快速学习环境搭建 安装前预备工作(Linux相关配置) 实操演示(hadoop、hbase为例) 总结&练习题(课后练练手)
基于Hadoop的数据仓库Hive.
實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務
第九讲 Hadoop架构再探讨 (2016春季学期)
CHAPTER 6 認識MapReduce.
基于大数据的物流资源整合 福建师范大学协和学院 沈庆琼.
大数据介绍及应用案例分享 2016年7月 华信咨询设计研究院有限公司.
学做统一 清香四溢 两学一做学习教育总结汇报 ——第七党总支 刘红平.
基于大数据平台数据管理研究 何家乐 2013年7月 中国科学院高能物理研究所.
Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian
技專校院多元入學管道 國立臺北科技大學 教務處 涂雅筑.
Presentation transcript:

密级: 亿赞普Hadoop应用浅析 IZP 肖燕京

密级: 目录 一 IZP Hadoop集群现状 Hadoop应用 Hadoop集群维护及出现的问题 Hadoop为什么要这么做?

一:IZP Hadoop集群现状 集群规模 共大、小 2个集群:数据中心和实验室集群 密级: 一:IZP Hadoop集群现状 集群规模 共大、小 2个集群:数据中心和实验室集群 数据中心: 1台NameNode, 1台SecondNameNode, 1台JobTracker,100来台DataNode 共100多台高配服务器; 数据中心又分为10多个机架,每个机架上10多台服务器; 实验室集群:共10几台普通微型机. 机器配置 名称节点和第二名称节点内存不小于90G,硬盘约1TB JobTracker内存不小于20G,硬盘约1TB 数据节点内存不小于20G,硬盘不小于10TB 槽位分配:每台机器十多个Map槽位,四至六个Reduce槽位 Hadoop为什么要这么做?

一:IZP Hadoop集群现状 集群一天新增数据 包括新上传数据和作业产生的新数据 一天新增数据不小于4TB 集群使用现状 密级: 一:IZP Hadoop集群现状 集群一天新增数据 包括新上传数据和作业产生的新数据 一天新增数据不小于4TB 集群使用现状 一天提交约2000个Job 所有Job输入日志为60-80 TB 平均每天Hadoop集群的使用率为20-25% Hadoop为什么要这么做?

二:IZP Hadoop应用 数据挖掘 网页库 爬取的网页存入Hbase 从数据中提取网页关键词信息,并对网页进行兴趣组分类 密级: 二:IZP Hadoop应用 数据挖掘 网页库 爬取的网页存入Hbase 从数据中提取网页关键词信息,并对网页进行兴趣组分类 CTR (网页的广告点击率 预测) 用户兴趣组 根据用户的历史行为对用户进行标签分类; 不同的用户在同一个页面看到不同的广告; Hadoop为什么要这么做?

二:IZP Hadoop应用 商业智能 数据分析 对日志进行统计汇总,进行商业分析,提取商业价值 数据产品 将相关业务需求整理成一个产品; 密级: 二:IZP Hadoop应用 商业智能 数据分析 对日志进行统计汇总,进行商业分析,提取商业价值 数据产品 将相关业务需求整理成一个产品; 与CTR等公司合作 比如联合CTR公司对春节联欢晚会网络直播进行了满意度调查 Hadoop为什么要这么做?

二:IZP Hadoop应用 数据平台 转码 中间数据 分成5个维度; User维度:统计用户的属性,行为; 密级: 二:IZP Hadoop应用 数据平台 转码 中间数据 分成5个维度; User维度:统计用户的属性,行为; url维度:统计url来源、去向、pv、uv等 Host维度,Query维度,Ad维度 分词在Hadoop中的使用 爬取到的网页内容如此之大,如何进行分词! 分词涉及到多个c++库,而且是个c++可执行程序; Pscp 的使用: pscp -h hostlist.txt -l user src.xml /target Hadoop为什么要这么做?

三:Hadoop维护与出现的问题 哥们,你今天使了多大力?(槽位监控) 每台节点上布置程序统计该节点的槽位利用率信息 密级: 三:Hadoop维护与出现的问题 哥们,你今天使了多大力?(槽位监控) 每台节点上布置程序统计该节点的槽位利用率信息 将上述信息导入Mysql 汇总,在网页上展示 Hadoop为什么要这么做?

密级: 三:Hadoop维护与碰到的问题 Hadoop为什么要这么做?

三:Hadoop维护与出现的问题 你今天做了几个俯卧撑? 每天提交的作业数也是衡量Hadoop利用率的一个指标 密级: 你今天做了几个俯卧撑? 每天提交的作业数也是衡量Hadoop利用率的一个指标 对JobTracker上的日志进行分析提取 统计Job提交数 统计成功运行Job数 这些Job的总输入数据规模 Hadoop为什么要这么做?

三:Hadoop维护与出现的问题 妙手回春 (死节点自动重启) 包括datanode与tasktracker的守护进程 密级: 妙手回春 (死节点自动重启) 包括datanode与tasktracker的守护进程 从JobTracker页面抽取死掉的tasktracker 从NameNode页面抽取死掉的datanode 分别对上述的死节点执行重启操作 将上述程序放入定时器让其每隔一定时间执行一次 Hadoop为什么要这么做?

三:Hadoop维护与出现的问题 我的地盘听我的 1) Hadoop权限管理 用户与组别设置: 对应客户端的用户与组名吗? 密级: 我的地盘听我的 1) Hadoop权限管理 用户与组别设置: 对应客户端的用户与组名吗? /user/xxx权限管理 2) Hadoop资源分组 capacity-scheduler 每个用户限制Job个数 每个组限制系统资源 Hadoop为什么要这么做?

三:Hadoop维护与出现的问题 后继有人(NameNode镜像备份) 1) 设置定时器自动拷贝镜像 使用expect 密级: 后继有人(NameNode镜像备份) 1) 设置定时器自动拷贝镜像 使用expect 2) 网络文件系统备份 新建NFS hdfs-site.xml 中 dfs.name.dir Hadoop为什么要这么做?

三:Hadoop维护与出现的问题 机架感知 1) 设置core-site.xml中topology.script.file.name属性 密级: 机架感知 1) 设置core-site.xml中topology.script.file.name属性 2) rack.py 可执行权限 输入ip 输出机架名 Hadoop为什么要这么做?

三:Hadoop维护与出现的问题 有只拦路虎(集群负载不均衡) 根据槽位数分配任务 用了少数几个槽位也可能会导致机器负载高 密级: 三:Hadoop维护与出现的问题 有只拦路虎(集群负载不均衡) 根据槽位数分配任务 用了少数几个槽位也可能会导致机器负载高 如果还往这台机器分配任务…… JobTracker死锁 Hadoop为什么要这么做?

Thanks for listening and thinking! 密级: 欢迎有识之士加入亿赞普 Thanks for listening and thinking! xiaoyanjing@izptec.com