密级：亿赞普Hadoop应用浅析 IZP 肖燕京.

Slides:

Advertisements

Similar presentations

模板的使用教育学江西教育学院教育系冯芳 2012 － 10. 第二章教育学的产生和发展第一节教育学的研究对象和任务第二节教育学的产生与发展第三节学习教育学的意义与方法.

Advertisements

第七組古文閱讀報告組長：秀惠組員：孟筑、雅曼、雅文、盈蓁. 《朱買臣苦學有成》之原文翻譯朱買臣，字翁子，吳人也。朱買臣，字翁子，吳國人。家貧，好讀書，不治產業，常刈（一ˋ）薪樵，賣以給（ㄐㄧ ˇ ）食。家裡雖然很窮困，但是他還是很喜歡讀書，因不懂得如何治理產業，只能靠著上山砍材去城.

你不知道的 3M P 班級 : 創意二甲指導老師 : 袁又華組長 : 林毓茹組員 : 林以軒林欣汝陳盈羽陳怡如劉玉婷.

用藥安全用藥安全護理師張嘉芬. 前言前言正確用藥的方法藥袋上的秘辛為了減少重大疾病或是醫療處理、用藥不當的相關事件發生。

阿尔伯特亲王阿尔伯特亲王纪念碑维多利亚女王夫妇维多利亚女王一家建造水晶宫水晶宫初建时的照片.

梦想启航 ——大学生活与职业规划专题讲座.

河北保定外国语学校高三家长会.

五所交大是一家演讲：孔谐和尹天威.

以信息化带动教育现代化，打造教育的“南山质量”

个体税收征管政策讲解浏阳市地方税务局.

封面 2015易驾考最新分享：科目二考试方法秘诀文章来源：易驾考官网.

基于行业的企业技术创新信息保障体系研究刘华博士中国科学技术信息研究所.

第四讲 1949—1991年的中苏关系及其经验教训.

民主國家的政府體制我國的中央政府體制我國中央政府的功能地方政府組織與功能

“鼠标加水泥”的百货公司——武汉中百朱巧巧陆嘉怡田泽宇.

合理控制索道游客流量确保景区可持续发展云南丽江玉龙雪山索道陈加林二0一五年十一月.

千里挑一的“征途” ——浅谈中国“国考”热.

做好就业与自主创业的准备.

研修4组学习简报(第3期) 主编：左文玲 2015年2月7日.

“大云”大数据平台及应用中国移动通信研究院郭磊涛 2013年11月.

經費結報認證制度種子人員講習會主辦:汪憶芳協辦:陳蓮萍鄭曉雲江一帆日期:2012/09/04(二) 時間:09:00~12:15

潘集小学英语班学习简报(第5期) 主编：吴婷 2016年2月28日.

鞘翅目生科四乙蘇俊融.

与领导、下级、同事的沟通技巧.

潜能宇宙平衡法则 ——启动11.11天地人合新生命工程（分类系统）凛然智慧（北京）教育咨询有限公司.

失眠的饮食及调理北京国济中医院

中餐烹調實習Ⅲ 第九章中國菜系介紹林可薇製作.

共产党员致力新疆油田信息化建设数据公司信息业务党支部 2013年6月.

新高考研究介绍湖北省教育考试院项目研究组.

如东中专学校文化课现状及提升举措的思考

監察院公職人員財產申報處編製報告人:林世忠

第3讲时间管理.

云梯的多namenode和跨机房之路

数据采集与Hadoop框架报告人：黄文君导师：王华忠 BEA Confidential.

高等教育出版社工作汇报化学化工分社翟怡.

******班班级学习简报(第*期) 主编：*** ****年**月**日.

采购控制程序 2008年9月.

单位：十堰离退休职工服务中心时间：2016年2月1日

俄语字母的发音体系阅读规则.

为教师开展大数据课程教学提供全方位、一站式服务

基于hadoop的数据仓库技术.

中国家电企业如何打造全球化品牌黄辉.

四川信托-汇誉10号集合资金信托计划.

《现代大学英语》说课程公共课部臧朝晖益阳医学高等专科学校.

保大人还是保小孩 ---产房里的伦理学问题小组成员蔡婷基础医学系郭灵飞基础医学系

超星尔雅 tsk.erya100.chaoxing.com 网络通识课程学习指导.

發展東華特色課程期末成果發表呂進瑞國立東華大學財金系.

中药学第十一章祛风湿药.

形势与政策 2016年上.

核心价值观记心中主题班会

一二三四五六七项目建设总体情况建设工作机制与举措项目建设进展建设经费投入与使用贡献与示范典型案例

幼儿园班务管理实践.

一种基于Hadoop的视频大数据分布式解码方法冯强

王耀聰陳威宇國家高速網路與計算中心(NCHC)

設置Hadoop環境王耀聰陳威宇楊順發國家高速網路與計算中心(NCHC)

YARN & MapReduce 2.0 Boyu Diao

Hadoop 單機設定與啟動 step 1. 設定登入免密碼 step 2. 安裝java step 3. 下載安裝Hadoop

第2章大数据处理架构Hadoop （PPT版本号：2017年2月版本）

快速学习环境搭建安装前预备工作（Linux相关配置）实操演示（hadoop、hbase为例) 总结&练习题（课后练练手）

基于Hadoop的数据仓库Hive.

實現雲端運算 Hadoop HDFS 磁碟及記憶體之即時分級服務

第九讲 Hadoop架构再探讨（2016春季学期）

CHAPTER 6 認識MapReduce.

基于大数据的物流资源整合福建师范大学协和学院沈庆琼.

大数据介绍及应用案例分享 2016年7月华信咨询设计研究院有限公司.

学做统一清香四溢两学一做学习教育总结汇报 ——第七党总支刘红平.

基于大数据平台数据管理研究何家乐 2013年7月中国科学院高能物理研究所.

Unit 05 雲端分散式Hadoop實驗 -I M. S. Jian

技專校院多元入學管道國立臺北科技大學教務處涂雅筑.

Presentation transcript:

密级：亿赞普Hadoop应用浅析 IZP 肖燕京

密级：目录一 IZP Hadoop集群现状 Hadoop应用 Hadoop集群维护及出现的问题 Hadoop为什么要这么做？

一：IZP Hadoop集群现状集群规模共大、小 2个集群：数据中心和实验室集群密级：一：IZP Hadoop集群现状集群规模共大、小 2个集群：数据中心和实验室集群数据中心: 1台NameNode, 1台SecondNameNode, 1台JobTracker，100来台DataNode 共100多台高配服务器; 数据中心又分为10多个机架，每个机架上10多台服务器; 实验室集群：共10几台普通微型机. 机器配置名称节点和第二名称节点内存不小于90G，硬盘约1TB JobTracker内存不小于20G，硬盘约1TB 数据节点内存不小于20G，硬盘不小于10TB 槽位分配：每台机器十多个Map槽位，四至六个Reduce槽位 Hadoop为什么要这么做？

一：IZP Hadoop集群现状集群一天新增数据包括新上传数据和作业产生的新数据一天新增数据不小于4TB 集群使用现状密级：一：IZP Hadoop集群现状集群一天新增数据包括新上传数据和作业产生的新数据一天新增数据不小于4TB 集群使用现状一天提交约2000个Job 所有Job输入日志为60-80 TB 平均每天Hadoop集群的使用率为20-25% Hadoop为什么要这么做？

二：IZP Hadoop应用数据挖掘网页库爬取的网页存入Hbase 从数据中提取网页关键词信息，并对网页进行兴趣组分类密级：二：IZP Hadoop应用数据挖掘网页库爬取的网页存入Hbase 从数据中提取网页关键词信息，并对网页进行兴趣组分类 CTR (网页的广告点击率预测) 用户兴趣组根据用户的历史行为对用户进行标签分类；不同的用户在同一个页面看到不同的广告； Hadoop为什么要这么做？

二：IZP Hadoop应用商业智能数据分析对日志进行统计汇总，进行商业分析，提取商业价值数据产品将相关业务需求整理成一个产品；密级：二：IZP Hadoop应用商业智能数据分析对日志进行统计汇总，进行商业分析，提取商业价值数据产品将相关业务需求整理成一个产品；与CTR等公司合作比如联合CTR公司对春节联欢晚会网络直播进行了满意度调查 Hadoop为什么要这么做？

二：IZP Hadoop应用数据平台转码中间数据分成5个维度； User维度：统计用户的属性，行为；密级：二：IZP Hadoop应用数据平台转码中间数据分成5个维度； User维度：统计用户的属性，行为； url维度：统计url来源、去向、pv、uv等 Host维度，Query维度，Ad维度分词在Hadoop中的使用爬取到的网页内容如此之大，如何进行分词！分词涉及到多个c++库,而且是个c++可执行程序； Pscp 的使用: pscp -h hostlist.txt -l user src.xml /target Hadoop为什么要这么做？

三：Hadoop维护与出现的问题哥们，你今天使了多大力？(槽位监控) 每台节点上布置程序统计该节点的槽位利用率信息密级：三：Hadoop维护与出现的问题哥们，你今天使了多大力？(槽位监控) 每台节点上布置程序统计该节点的槽位利用率信息将上述信息导入Mysql 汇总，在网页上展示 Hadoop为什么要这么做？

密级：三：Hadoop维护与碰到的问题 Hadoop为什么要这么做？

三：Hadoop维护与出现的问题你今天做了几个俯卧撑? 每天提交的作业数也是衡量Hadoop利用率的一个指标密级：你今天做了几个俯卧撑? 每天提交的作业数也是衡量Hadoop利用率的一个指标对JobTracker上的日志进行分析提取统计Job提交数统计成功运行Job数这些Job的总输入数据规模 Hadoop为什么要这么做？

三：Hadoop维护与出现的问题妙手回春 (死节点自动重启) 包括datanode与tasktracker的守护进程密级：妙手回春 (死节点自动重启) 包括datanode与tasktracker的守护进程从JobTracker页面抽取死掉的tasktracker 从NameNode页面抽取死掉的datanode 分别对上述的死节点执行重启操作将上述程序放入定时器让其每隔一定时间执行一次 Hadoop为什么要这么做？

三：Hadoop维护与出现的问题我的地盘听我的 1) Hadoop权限管理用户与组别设置: 对应客户端的用户与组名吗？密级：我的地盘听我的 1) Hadoop权限管理用户与组别设置: 对应客户端的用户与组名吗？ /user/xxx权限管理 2) Hadoop资源分组 capacity-scheduler 每个用户限制Job个数每个组限制系统资源 Hadoop为什么要这么做？

三：Hadoop维护与出现的问题后继有人(NameNode镜像备份) 1) 设置定时器自动拷贝镜像使用expect 密级：后继有人(NameNode镜像备份) 1) 设置定时器自动拷贝镜像使用expect 2) 网络文件系统备份新建NFS hdfs-site.xml 中 dfs.name.dir Hadoop为什么要这么做？

三：Hadoop维护与出现的问题机架感知 1) 设置core-site.xml中topology.script.file.name属性密级：机架感知 1) 设置core-site.xml中topology.script.file.name属性 2) rack.py 可执行权限输入ip 输出机架名 Hadoop为什么要这么做？

三：Hadoop维护与出现的问题有只拦路虎(集群负载不均衡) 根据槽位数分配任务用了少数几个槽位也可能会导致机器负载高密级：三：Hadoop维护与出现的问题有只拦路虎(集群负载不均衡) 根据槽位数分配任务用了少数几个槽位也可能会导致机器负载高如果还往这台机器分配任务…… JobTracker死锁 Hadoop为什么要这么做？

Thanks for listening and thinking! 密级：欢迎有识之士加入亿赞普 Thanks for listening and thinking! xiaoyanjing@izptec.com