大数据应用人才培养系列教材 大数据系统运维 刘 鹏 张 燕 总主编 姜才康 主编 陶建辉 副主编
大数据应用人才培养系列教材 第四章 性能管理 6.1 高可用性概述 6.2 高可用性技术 6.3 业务连续性管理 习题
6.1 高可用性概述 第六章 高可用性管理 衡量系统运行稳定性的关键指标是系统的可用性,可用性(availability)指的是系统的无故障运行时间的百分比,计算公式为:无故障运行时间/计划对外服务时间*100%。 为了保证系统有较高的可用性,会采取一些高可用(High Availability,简称HA)技术来减少故障中断时间。高可用技术的核心思想是冗余,即关键部件要不止一个,在原部件故障或者维修的的时候,备用的零部件要能顶替原有部件的作用。 当发生大规模故障时,如机房整体电力故障,对外网络被物理切断,在一定区域内的部件冗余也失效,此时就需要考虑容灾相关的方案。通过在其他物理区域的数据中心建立备份系统,
大数据应用人才培养系列教材 第四章 性能管理 6.1 高可用性概述 6.2 高可用性技术 6.3 业务连续性管理 习题
6.2 高可用性技术 机房环境 网络、主机、存储 数据库 应用 系统架构 机房环境的高可用主要考虑的是电力和机柜分配的方面。 第六章 高可用性管理 系统架构 机房环境 机房环境的高可用主要考虑的是电力和机柜分配的方面。 网络、主机、存储 网络是数据中心的核心,主机是高可用方案的主要部分,主机层面的高可用技术分为主从模式、双机模式和集群模式。 数据库 在数据库领域,有一些经典的高可用技术,不同产品的原理和实现上都略有区别。 应用 在实现某个特定功能点时,应用程序可以通过多个实例完成该功能的服务。
6.2 高可用性技术 第六章 高可用性管理 容灾 一般情况下,谈到高可用技术时,讨论的范围都是在数据中心内部的各种保障技术,但当数据中心整体发生故障,或者称之为灾难时,就需要依靠容灾技术,在6.3的业务连续性管理中,会有详细阐述。
6.2 高可用性技术 监控指标项 应用自身状态:服务进程状况、服务状态、业务开关或可使用标志状态。 第六章 高可用性管理 监控指标项 应用自身状态:服务进程状况、服务状态、业务开关或可使用标志状态。 数据服务:数据及时、数据关键路径、数据完整性和正确性关键表记录变化情况、关键业务数据、关键数据按预期清空。 性能容量:用户数量(终端/API),内存加载量、消息并发量、事务响应时间。 批量作业:批量处理情况、批量开始时间、批量结束时间、批量加载时间、批处理状态。 应用占用系统资源:文件句柄数、应用分区空间、应用文件增长情况、网络连接、单个用户或请求进程占用的系统资源。 应用中间件(Weblogic、Tomcat):Weblogic Server、线程池、JVM、数据源、连接池、APP状态。 MQ:队列管理器、通道、队列、事件、(Event)。 WEB服务器(例如Apache):Apache吞吐率、Apache并发连接数、httpd 进程数、httpd线程数目、提供网站服务的字节数、处理连接的耗时时间。
6.2 高可用性技术 第六章 高可用性管理 故障转移 主机/存储/网络/数据库一般都是心跳包机制来进行健康状态的监控。由管理模块向各个模块之间按照一定时间间隔发送心跳包,或者两个模块之间互相发送心跳包,如果超过设定时间周期,某个模块没有响应,则判断该模块出现故障,备份模块接管该模块的服务,这个过程被称为故障转移(Failover)。 在主备机的高可用系统中,在特殊情况下会发生脑裂(split-brain)的故障。发生这种故障的原因是心跳线或者网络出现问题,造成主备机互相探测不到对方的心跳,都以为对方发生了故障,于是便主动获取存储或者服务IP等资源,双方都启动服务,造成服务异常。 为了解决脑裂问题,一般会在主备机之外,引入一个第三方模块,作为仲裁者,由它来判断到底是谁应该接管资源,对外提供服务。
大数据应用人才培养系列教材 第四章 性能管理 6.1 高可用性概述 6.2 高可用性技术 6.3 业务连续性管理 习题
6.3 业务连续性管理 灾备系统等级 类别 主要要求 第一级 每周一次的数据备份,场外存放备份介质。 第二级 第六章 高可用性管理 灾备系统等级 类别 主要要求 第一级 每周一次的数据备份,场外存放备份介质。 第二级 每周一次的数据备份,有备用的基础设施场地。 第三级 每天一次的数据备份,利用通信网络将关键数据定时批量传送至备用场地。 第四级 每天一次的数据备份,利用通信网络将关键数据定时批量传送至备用场地,配备灾难恢复所需的全部数据处理设备,并处于就绪状态或运行状态。 第五级 采用远程数据复制技术,并利用通信网络将关键数据实时复制到备用场地,配备灾难恢复所需的全部数据处理设备,并处于就绪状态或运行状态。 第六集 远程实时备份,实现数据零丢失,具备远程集群系统的实时监控和自动切换能力。
6.3 业务连续性管理 灾备恢复能力要求 要素 要求 数据备份系统 第六章 高可用性管理 灾备恢复能力要求 要素 要求 数据备份系统 ①完全数据备份至少每天一次;②备份介质场外存放; ③远程实时备份,实现数据零丢失。 备用数据处理系统 ①备用数据处理系统具备与生产数据处理系统一致的处理能力并完全兼容;②、应用软件是“集群的”,可实时无缝切换;③具备远程集群系统的实时监控和自动切换能力。 备用网络系统 ①配备与主系统相同等级的通信线路和网络设备;②备用网络处于运行状态;③最终用户可通过网络同时接入主、备中心。 备用基础设施 ①有符合介质存放条件的场地;②有符合备用数据处理系统和备用网络设备运行要求的场地;③有满足关键业务功能恢复运作要求的场地;④以上场地应保持7x24小时运作。 专业技术支持能力 在灾难备份中心7x24小时有专职的:① 计算机机房管理人员;②专职数据备份技术支持人员;③专职硬件、网络技术支持人员;④专职操作系统、数据库和应用软件技术支持人员。 运行维护管理能力 ①有介质存取、验证和转储管理制度;②按介质特性对备份数据进行定期的有效性验证;③有备用计算机机房运行管理制度;④有硬件和网络运行管理制度;⑤有实时数据备份系统运行管理制度;⑥有操作系统、数据库和应用软件运行管理制度。 灾难恢复预案 有相应的经过完整测试和演练的灾难恢复预案。
6.3 业务连续性管理 第六章 高可用性管理 数据复制 基于数据库的复制 基于应用的复制 基于存储的数据复制
6.3 业务连续性管理 第六章 高可用性管理 灾备切换 灾备切换是一系列操作的组合,不是单一的技术动作,服务的启动顺序也有严格的要求。比如数据库必须先启动,之后才能启动应用程序;应用服务器接管完成,才能进行网络的切换。如果应用程序先于数据库启动,会出现报错。最好通过操作手册和切换脚本对切换的步骤进行固化,并安排一定频率的灾备演练。
6.3 业务连续性管理 第六章 高可用性管理 应急预案 需要对系统可能出现的故障做出预案,以便发生故障时能够快速处理以恢复服务。应急预案中需要明确适用的故障场景,启动预案的触发条件,相关人员的职责,以及应急的操作步骤。其中,应急的操作步骤包括可能的技术操作步骤如重启进程,业务操作步骤如发出通知。
6.3 业务连续性管理 第六章 高可用性管理 日常演练 01 沙盘推演 02 模拟演练 03 真实切换
大数据应用人才培养系列教材 第四章 性能管理 6.1 高可用性概述 6.2 高可用性技术 6.3 业务连续性管理 习题
习题: 1.一个系统24*365小时对外服务,2017年度中断服务20小时,该系统的可用性为多少? 2.简述脑裂现象是如何产生的,怎么避免? 3.请列出三种数据复制技术。 4.请列出三种常见的监控指标项。
AIRack人工智能实验平台 ——一站式的人工智能实验平台 DeepRack深度学习一体机 ——开箱即用的AI科研平台 BDRack大数据实验平台——一站式的大数据实训平台
云创公众号推荐 刘鹏看未来 云计算头条 中国大数据 深度学习世界 云创大数据订阅号 云创大数据服务号 高校大数据与人工智能 微信号:lpoutlook 云计算头条 微信号:chinacloudnj 中国大数据 微信号:cstorbigdata 深度学习世界 微信号:dl-world 云创大数据订阅号 微信号:cStor_cn 云创大数据服务号 微信号:cstorfw 高校大数据与人工智能 微信号:data_AI
手机APP推荐 我的PM2.5 随时随地准确 查看身边的 PM2.5值 同声译 支持26种语言 互译的实时翻 译软件 我的南京 云创大数据为路 况大数据应用提 供技术支持 科技头条 汇聚前沿资讯 的科技情报站
网站推荐 万物云 智能硬件大数据免费托管平台 环境云 环境大数据开放共享平台
感谢聆听