Download presentation
Presentation is loading. Please wait.
1
基于Nagios的自动化集群服务监控系统的实现
报告人 胡庆宝
2
报告提纲 系统背景 Nagios介绍 基于Nagios的自动化监控 效果展示
3
报告提纲 系统背景 Nagios介绍 基于Nagios的自动化监控 效果展示
4
系统背景 计算中心机器上架流程 (1)上架申请 (2)初审 (3)审批 (4)机器上架 (5)网络连接 (6)系统安装 (7)监视部署
(8)设备确认
5
系统背景 计算中心机器上架流程 (1)上架申请 (2)初审 (3)审批 (4)机器上架 (5)网络连接 (6)系统安装 (7)监视部署
(8)设备确认
6
报告提纲 系统背景 Nagios介绍 基于Nagios的自动化监控 效果展示
7
Nagios 介绍 Nagios全名为(Nagios Ain’t Goona Insist on Saintood),最初项目名字是 NetSaint。它是一套比较成熟 的企业级开源监控系统,遵循GPL许可,可查阅全部源代码。 主程序通过调用系统定制或用户自定义的监控插件,实现对各 种资源的监控,如网络设备、主机资源、系统服务、工作站、 操作系统、数据库、应用程序以及特殊系统服务等,提供检测 收集、数据统计分析、可视化Web集中展示和灵活多样的告警 通知等一系列监控解决方案
8
Nagios主要功能 集中统一监控网页,实现查看与统计 监控网络服务(SMTP、POP3、HTTP、NNTP、PING等)
监控主机资源(处理器负荷、磁盘利用率等) 监控应用服务(网站运行状态、作业运行、存储服务等) 分组定义、并行检查 发现问题及时告警联系人(通过 、短信方式) 可配置报警通知设置(7*24小时,5*8小时) CGI功能,它可以在主机或服务的事件发生时获取更多问 题定 自动报警日志回滚 实现对报警事件处理的注释与查看
9
集群总体监控
10
集群服务监控
11
系统架构 基于Nagios框架的逻辑 结构,将大规模数据 中心监控系统按照实 现逻辑的不同,设计 为自下而上的三层总 体结构,分别为监控 实体层、监控抽象层、 监控逻辑层
12
监控原理
13
Nagios特点和优势 可自定义监控 可开发、可配置 权限管理 高可用监控 功能集成 实时报警 应用广泛
14
报告提纲 系统背景 Nagios介绍 基于Nagios的自动化监控 效果展示
15
使用Nagios的问题不足 当前的大规模集群监控系统,要实现大量的人工配置工作,即使 前期搭建好系统,在后期的运维过程中也需要管理员花费大量的 精力进行维护,主要问题如下 系统和监控对象的配置管理文本操作不利于后期维护 大规模集群初始化配置的时间长,效率低 监控对象动态变化较多,经常忘记增加或者删除监控造成监控信息与实 际环境不一致 管理员要有LINUX下的管理和维护经验
16
解决方案 目前市场上针对自动化监控探测的系统,主要是针对网络监控设计, 如cacti等,其原理是通过扫描网络端口和snmp 服务实现监控
在高性能计算集群中,除了基本的网络监控还需要实现对非标准的或 自定义的存储和作业等服务进行监控 本系统通过采用新的技术方案扫描服务器,判断目标主机监控状态, 自动化添加服务监控,缩短系统上架时间,进而能够迅速发现故障和 解决问题,提高集群系统的部署效率和维护效。
17
实现自动化服务监控技术 2018/12/1
18
自动扫描探测程序 工具:nmap. 其基本功能有三个,一是探测一组主机是否在线;其次是扫描 主机端 口,嗅探所提供的网络服务;还可以推断主机所用的操作系统 。 协议:TCP Connect 扫描 原理:对定义的网段内的IP进行逐个扫描,通过调用系统socket函数 connect()连接到目标计算机上,完成一次完整的三次握手过程。如果 目标端口5666 or 有程序在监听,那么connect()就能成功返 回。如果端口没有开放则返回RST/ACK复位报文。 应用:nmap -sT -p P0 –n
19
应用服务分类模块 对开放有5666或12489端口的客户端,通过对比程序,查看是否 在监控列表中。如果没有在监控范围内,则进行服务器分类监控 类比。将该机器加入对应的监控list里。
20
数据库设计 将扫描到机器信息通 过应用服务分类、分 组分析等在数据库中 生成相应表项
21
配置文件自动生成程序(服务定义) 生成配置文件 :通过mysql中定义各对象关系,生成Nagios监控对象的文本配置
检查配置程序:检查各个配置文件的依赖和对应关系 重启服务 :重启服务,配置生效,完成监控流程
22
API实现-基于网段 Usage: ./mscan -a add/del -p Port -S netseg example:
./mscan -a add –p S #对 网段 扫描添加监控 ./mscan -a del –p S #对 网段 扫描删掉监控 2018/12/1
23
API实现-基于IP Usage: ./remote_mom -a add/del -n nodename -i ipaddress
example: ./remote_mom -a add -n cloud0011 -i #添加 监控 ./remote_mom -a del -n cloud0012 -i #删除 监控 新增加的虚拟主机监控 自动加入到 “虚拟云服务器” 监控服务器 列表中 2018/12/1
24
报告提纲 系统背景 Nagios介绍 基于Nagios的自动化监控 效果展示
25
在云计算平台中应用
26
总体性能 监控平台平均监控 1500多个设备 1万多个服务 平均服务延迟30s
27
谢谢
Similar presentations