Presentation is loading. Please wait.

Presentation is loading. Please wait.

大数据应用人才培养系列教材 大数据系统运维 刘 鹏 张 燕 总主编 姜才康 主编 陶建辉 副主编.

Similar presentations


Presentation on theme: "大数据应用人才培养系列教材 大数据系统运维 刘 鹏 张 燕 总主编 姜才康 主编 陶建辉 副主编."— Presentation transcript:

1 大数据应用人才培养系列教材 大数据系统运维 刘 鹏 张 燕 总主编 姜才康 主编 陶建辉 副主编

2 大数据应用人才培养系列教材 第三章 故障管理 3.1 集群结构 3.2 故障报告 3.3 故障处理 3.4 故障后期管理 习题

3 3.1 集群结构 第三章 故障管理 CDH(Cloudera Distribution Hadoop)版的HADOOP集群介绍集群结构。

4 3.1 集群结构 第三章 故障管理 CDH功能模块 系统部署和管理 处理引擎 数据存储 安全、数据管理 资源管理 工具库

5 3.1 集群结构 集群的结构组成 Cloudera Manager Cloudera Director HDFS HBase YARN
第三章 故障管理 集群的结构组成 模块 组件名称 系统部署和管理 Cloudera Manager Cloudera Director 数据存储 HDFS HBase 资源管理 YARN 处理引擎 Spark Impala Search 安全、数据管理 Cloudera Navigator 工具款 Hive

6 3.1 集群结构 硬件配置组成 硬件名称 管理节点 工作节点 处理器 内核数 内存 硬盘 网络 硬件尺寸 接入交换机 聚合交换机(可选)
第三章 故障管理 硬件配置组成 硬件名称 管理节点 工作节点 处理器 两路Intel®至强处理器,可选用E5-2630处理器 两路Intel®至强处理器,可选用E5-2660处理器 内核数 6核/CPU(或者可选用8核/CPU),主频2.3GHz或以上 6核/CPU(或者可选用8核/CPU),主频2.0GHz或以上 内存 64GB ECC DDR3 硬盘 2个2TB的SAS硬盘(3.5寸), 7200RPM, RAID1 4-12个4TB的SAS硬盘(3.5寸), 7200RPM,不使用RAID 网络 至少两个1GbE以太网电口,推荐使用光口提高性能。 可以两个网口链路聚合提供更高带宽。 硬件尺寸 1U或2U 接入交换机 48口千兆交换机,要求全千兆,可堆叠 聚合交换机(可选) 4口SFP+万兆光纤核心交换机,一般用于50节点以上大规模集群

7 大数据应用人才培养系列教材 第三章 故障管理 3.1 集群结构 3.2 故障报告 3.3 故障处理 3.4 故障后期管理 习题

8 3.2 故障报告 第三章 故障管理 在故障发现之后,需要精确描述,包括如何发现的故障(如果是用户,用户的联系方式要保留,便于后期回访)故障发生的时间点,故障的现象,故障暂时的影响等,只有把这些描述清楚了,才有可能在后续的流程中提升效率,一个典型的故障记录单如下表所示: 发现 分类 记录 单号 状态 已指派 等待代码 等待管理员接单 记录人员 张三 分析员 李四 报告时间 :18:20 客户 王五 客户组织 业务一部 客户电话 XXX 客户邮箱 VIP属性 VIP 故障来源 用户报告 摘要 大数据分析系统X无法登录 详细信息 今天10:00,李四使用Chrome浏览器访问X系统时,在输入用户名和密码之后,页面出现错误信息“服务器内部故障308,请联系管理员”,截图如附件所示 故障分类 大数据分析系统/X系统/用户登录故障 故障级别

9 3.2 故障报告 第三章 故障管理 影响分析 在运维部门,一般会有一二三线的人员划分:一线人员指的是客服人员或者监控值班人员,负责处理日常性的用户询问和故障处理;二线人员指的是专业的系统管理员,如网络管理员,服务器管理员,应用管理员等,当一线人员处理不了故障,会有二线的管理员跟进;三线指的是系统开发人员,产品供应商,当是比较深层的故障,例如是软件开发的问题,操作系统缺陷或者深层故障,会交给三线人员处理。

10 大数据应用人才培养系列教材 第三章 故障管理 3.1 集群结构 3.2 故障报告 3.3 故障处理 3.4 故障后期管理 习题

11 3.3 故障处理 第三章 故障管理 故障诊断 参考大数据系统的系统架构,从故障发生的位置来看,可以分为:应用层故障,系统层故障,网络层故障,硬件层故障,机房环境故障,客户端故障等。从故障的原因出发,在运维过程中的的常见故障主要有:

12 3.3 故障处理 第三章 故障管理 故障诊断 1、故障的完整描述 如前文3.3.1所述,准确的故障描述至关重要,能帮助管理员把故障的范围缩小,对故障的发生源有个预判定位,避免在大范围内浪费资源。通过故障的完整描述,应该能核实以下信息,该问题的具体报错码,具体报错时间,是不是首次发生等。如果信息比较模糊,还需要反复确认。 2、监控信息,dump文件,日志等现场快照 故障发生时的现场信息是排查故障的关键,如同车祸现场的视频记录一样,日志,监控信息,dump文件,网路抓包情况是故障现场的记录数据。一些没有经验的开发者往往由于开发的应用输出的日志太少,在生产环境出现问题时,没有任何记录,排查故障时也毫无头绪。大多数故障都可以通过日志发现端倪,一些复杂的故障要依靠多种手段才能定位原因。如果当时无法定位原因,则需要考虑通过降低日志输出的级别,在关键位置增加日志,部署一些详细监控的策略,等待故障再次发生时,能够捕获更多的信息。 3、文档,经验和知识 通过现场快照发现了错误的具体信息后,还要结合系统本身的文档,知识库或者管理员的经验,进行进一步分析。例如已经发现了服务器应用输出的日志有明显的错误信息,显示网络连接失败。可能该问题过去已经发生过,是由于访问量上升时,服务端无法再创建新的连接造成的。如果该经验没有记录到文档或者知识库中,而人员又不是当时处理故障的人员,则还需要花费资源进行诊断。一般的大型组织,都会建立自己的知识库或者文档库,各种开源软件也会有相应的文档或者论坛在互联网上开放,可以通过搜索引擎检索到软件相关的问题记录和解决情况。

13 3.3 故障处理 第三章 故障管理 故障排除 故障排除通常有两种做法,变通解决和根本解决。变通解决指的是,当故障造成了系统不可用,恢复服务是第一要务,如同医生抢救病人一样,先救活再说。根本解决指的是找到的故障的深层原因,在源头上予以解决。例如,应用程序的缺陷造成了程序运行了一段时间会崩溃退出,此时先将程序重新启动恢复服务,重启动作就是变通解决,等找到了程序的缺陷,通过升级变更予以消除,这就是根本解决。 排除方法 适应场景 重启服务 软件或者硬件不明原因的故障,通过重启相关模块来恢复服务,但要注意的是,复杂系统尤其是分布式系统包含多台服务器,多个应用模块,按照怎样的顺序重启,重启哪些模块也都是需要注意的点; 性能调度 当访问量激增的时候,系统会出现卡顿,一些模块可能会由于资源耗尽而无法再服务,可以通过扩充系统性能,如果系统是部署在云上,可以通过云管理平台动态地增加cpu,内存,甚至整个服务器等来解决性能问题; 修补数据 当故障造成了数据错误,丢失,重复的情况,故障的处理就会变的异常麻烦,如果数据特别重要,一定需要修复,则需要安排资源对数据进行逐笔核对,识别出错误的地方,这个工作量通常非常大; 升级变更 如果是硬件故障,通过升级变更更换硬件;如果是软件问题,通过升级变更修复缺陷; 隔离,重置等其他应急操作 当系统存在冗余的模块,为了避免流量仍然导向到故障模块,则可以彻底手工隔离故障模块;一些系统可能由于自身结构原因,会有一些常发性故障,例如用户登录状态错误,则可以将重置用户登录状态做成一个功能,方便在排除故障的时候使用; 自动化 在有了一定故障处理经验和原则之后,对于固定场景的故障,可以考虑开发成自动处理,在捕获到异常之后,由系统管理模块对故障进程自动隔离,自动重启,自动重置,自动扩容等;

14 大数据应用人才培养系列教材 第三章 故障管理 3.1 集群结构 3.2 故障报告 3.3 故障处理 3.4 故障后期管理 习题

15 3.4 故障后期管理 第三章 故障管理 建立和更新知识库 关于企业知识库的建立,是因为运维工作所需的大量知识分散保存在文档管理系统或者个人电脑中,需要时查找不便, 找到又发现版本不统一, 甚至陈旧过时。通过建设知识管理系统,对大量有价值的案例、规范、手册、经验等知识进行分类存储和管理,积累知识资产避免流失;规范知识的存储、分类,实现便捷高效的查询;通过记录并分析使用者的知识行为,促进知识的学习、共享、利用和传承;并与现有的管理系统、流程系统进行衔接,实现不同系统间知识的整合。而对于故障处理的经验,除了故障处理流程记录之外,也可以针对一些典型故障,创建或者更新知识库,便于以后重复利用,减少排查故障时的工作量。

16 3.4 故障后期管理 故障预防 1、首先任何生产过程都要进行程序化,这样使整个生产过程都可以进行考量,这是发现事故征兆的前提。
第三章 故障管理 故障预防 1、首先任何生产过程都要进行程序化,这样使整个生产过程都可以进行考量,这是发现事故征兆的前提。 2、对每一个程序都要划分相应的责任,可以找到相应的负责人,要让他们认识到安全生产的重要性,以及安全事故带来的巨大危害性。 3、根据生产程序的可能性,列出每一个程序可能发生的事故,以及发生事故的先兆,培养员工对事故先兆的敏感性。 4、在每一个程序上都要制定定期的检查制度,及早发现事故的征兆。 5、在任何程序上一旦发现生产安全事故的隐患,要及时的报告,要及时的排除。 6、在生产过程中,即使有一些小事故发生,可能是避免不了或者经常发生,也应引起足够的重视,要及时排除。当事人即使不能排除,也应该向安全负责人报告,以便找出这些小事故的隐患,及时排除,避免安全事故的发生。

17 习题: 1.从故障的原因出发,故障可以分为哪些种类? 2.当发生故障时,需要记录哪些相关信息?
3.运维的一线,二线,三线人员的工作职责如何划分?

18 AIRack人工智能实验平台 ——一站式的人工智能实验平台 DeepRack深度学习一体机 ——开箱即用的AI科研平台 BDRack大数据实验平台——一站式的大数据实训平台

19 云创公众号推荐 刘鹏看未来 云计算头条 中国大数据 深度学习世界 云创大数据订阅号 云创大数据服务号 高校大数据与人工智能
微信号:lpoutlook 云计算头条 微信号:chinacloudnj 中国大数据 微信号:cstorbigdata 深度学习世界 微信号:dl-world 云创大数据订阅号 微信号:cStor_cn 云创大数据服务号 微信号:cstorfw 高校大数据与人工智能 微信号:data_AI

20 手机APP推荐 我的PM2.5 随时随地准确 查看身边的 PM2.5值 同声译 支持26种语言 互译的实时翻 译软件 我的南京
云创大数据为路 况大数据应用提 供技术支持 科技头条 汇聚前沿资讯 的科技情报站

21 网站推荐 万物云 智能硬件大数据免费托管平台 环境云 环境大数据开放共享平台

22 感谢聆听


Download ppt "大数据应用人才培养系列教材 大数据系统运维 刘 鹏 张 燕 总主编 姜才康 主编 陶建辉 副主编."

Similar presentations


Ads by Google