Download presentation
Presentation is loading. Please wait.
1
2018/9/22 SMSC实时监控工具
2
目录 1 2 3 4 5 6 7 8 消息产品维护上面临的问题 一线对产品可维护性的需求 Watchdog的实现原理及功能
已完成部署的局点清单 6 Watchdog一线部署案例 7 实时监控工具的获取方式 8 问题及建议反馈途径 Page 2
3
1、消息产品维护上面临的问题 一线维护人员人力紧张 客户网管系统能力不足 解决方案复杂、业务平台不稳定
一线工程师一人维护多产品,部分局点客户维护人力投入较少,无法及时发现系统隐患 系统问题及隐患无法及时发现,问题累积导致事故 一线维护人员人力紧张 因客户原因没有将系统接入到网管,或者某些局点虽然接入网管,但是无法做到实时告警通知 客户网管系统能力不足 SMS海外常见问题: CPU/内存/磁盘占用率高; 关键模块异常重启而无人知晓; 关键性能指标下降或存在业务积压; 解决方案复杂、业务平台不稳定 Page 3
4
2、一线对产品可维护性的需求 可维护性需求 能够通过短信,告警等方式及时通知到维护人员以便及时处理故障或者隐患 主要包括如下隐患:
能够自动定期对系统进行监控 及时通知维护人员 能及时发现影响业务的潜在隐患 能够通过短信,告警等方式及时通知到维护人员以便及时处理故障或者隐患 可维护性需求 主要包括如下隐患: 关键业务性能指标低; CPU、内存、磁盘使用率高; 数据库表空间满; 磁盘I/O长期过高; 关键业务模块曾经异常退出 对于系统隐患要能适当处理 发现模块异常后可以重启(在客户同意的前提下); Page 4
5
3、SMS Watchdog的实现原理及功能
主体是Shell脚本,分为系统监控和告警消息下发两部分; 监控完成对系统CPU、内存、磁盘、I/O、smsc应用程序状态及连接等的监控; 告警消息下发模块调用MsgSender程序进行告警消息下发; Page 5
6
3、SMS Watchdog的实现原理及功能
监控系统浮动IP是否丢失 监控配置文件同步是否正常 监控系统CPU, 内存, 系统IO, 磁盘占用率 监控系统是否正常写计费话单 监控系统内存消息数和实体数 监控短息中心系统处理性能 监控Gateway接口是否断连 监控系统是否存在重启和core文件 监控数据库表空间使用率 监控二级缓存模块与数据库连接情况 监控Dbdaemon模块与数据库连接情况 监控二级缓存文件是否积压 监控消息入库是否积压 监控Storage和fdb状态 监控计费话单,统计话单是否积压 一旦发生异常情况,将以短信实时通知配置的指定号码! 相比SMS-Component R001C01L01701,新增功能如蓝色字体所示。 Page 6
7
3、SMS Watchdog的实现原理及功能
优势和特点 SMC 系统 只监控,对现有系统业务无影响 占用资源少,监控项目多 不需新增设备,部署快速,仅一个脚本,一分钟完成 轻量级 实时性,准确性 对业务有针对性的监控 和现有告警、维护等系统有较强的互补性 watchdog Page 7 7
8
4、Watchdog运行平台及支持版本 运行平台 支持的短信版本 Windows 2000 AIX5.1 +HA4.4
SUSE Linux 9(SP2) +VERITAS Cluster Server 4.1 MP1 SUSE Linux 10(SP1)(64bit) + VERITAS 4.1 MP4 SUSE Linux 10(SP2)(64bit) + VERITAS 4.1 MP4 暂不支持上述列表以外的平台 infoX-SMSV300R002.1D系列版本 infoX-SMSV300R002.2D系列版本 infoX-SMSV300R002.3D系列版本 infoX-SMSV300R002.4D系列版本 SMSC V300R002C30系列版本 Page 8 8
9
5、目前已完成部署的局点清单 SMS 北京(联通) 上海(联通) 湖南(移动) 海南(电信) 陕西(移动) 宁夏(移动) 山西(移动)
河南(联通) 内蒙古(移动) 江西(电信) 福建(联通) 秘鲁(Movistar) 俄罗斯(Megafon) 坦桑尼亚(TIGO) 利比亚(GPTC) 阿尔及利亚(OTA,Mobilis) 尼日尔(Orange) 马拉维(TNM) 南非(Telkom) 罗马尼亚(RCS&RDS) 印度(BPL,Sistema) 智利(Movistar) 印尼(Indosat,XL,STI) 爪哇(Indosat) 巴布亚新几内亚(PNG) 菲律宾(Bayantel, Globe) 越南(Vinaphone) 土耳其(AVEA) 巴基斯坦(CMPAK) 冰岛(Nova) Page 9
10
6、SMC Watchdog监控工具部署案例--坦桑尼亚
坦桑尼亚TIGO有三套SMSC分别与多套SCP相连,且三套SMSC安装在不同的机房,由于客户传输问题经常会出现其中一套或两SMSC与SCP断连,导致部分短信业务异常。 Watchdog分别部署在三套SMSC的主备机上,一旦发现异常,及时通知客户和一线维护人员。 短信告警工具在坦桑的部署情况 一线的痛点 短信告警工具的部署效果 在部署SMC Watchdog软件后,能第一时间通知客户SMSC与SCP连接异常,及时解决问题,降低现网运行风险,客户对此工具的问世非常满意。 Page 10
11
7、SMC Watchdog监控工具部署案例—印尼
如果磁盘发生故障,将会导致双机切换失败,业务中断,如果一线人员不及时发现问题并投入处理,将导致重大事故。 印尼积极响应部署Watchdog,基本上所有局点所有的SMC主备机都完成了部署。 短信告警工具在印尼的部署情况 一线的痛点 短信告警工具的部署效果 2010年12月27日,印尼XL局点VCS监控磁盘S2300超时,触发双机资源下线,下线过程umount磁盘失败,导致双机切换失败,业务中断。 一线维护人员收到watchdog发出的告警短信后,马上介入处理,迅速恢复了业务,避免了重大中断事故的发生。一线对watchdog关键时刻的表现感到满意。 Page 11
12
8、实时监控工具的获取方式 SMS Watchdog获取方式
1、从 起,Watchdog将随版本一起发布在support包中。 2、Support网站下载地址: 中文版: English Version: Page 12
13
8、问题及建议反馈途径 反馈人 问题 建议(可选)
如果您使用或者了解SMS的实施监控工具后,有任何的意见、建议、需求,欢迎填写RM电子流(使用w3帐号登陆),或者直接反馈给我们。以便我们做进一步的改进。 安装问题:谭镇锟 tanzhenkun KF22950/KF/huawei01, 优化建议:夏凡 42358,杨志军 63508 RM电子流地址: 反馈人 问题 建议(可选) Page 13 13
Similar presentations