许多老师都对南京农业大学的运行监控工具和背后的服务体系充满好奇。你不知道的是:这套神器及其背后的服务体系,已经守护了包括同济大学、东南大学、南京师范大学、中国矿业大学、上海工程技术大学、华侨大学在内的80多所高校、700多个应用系统的稳定运行。而这大范围的服务上线仅仅发生在2个月内。
安心守护到底是个什么鬼,又有哪些服务内容?本期,我们就通过一组图片,揭开它的神秘面纱。
首先我们来看下菜单,共有5个部分组成:
(菜单界面图)
菜单项1:首页
清晰展示业务动态
首页
实时展示所有上线系统的运行动态,并用色块显示系统运行情况及健康度。“红黄绿”分别表示"不可用、预警、可用"。其中,“预警”表示系统存在潜在风险,“可用”表示系统运行正常。
(安心守护检测首页)
我们可以清晰的看到:南京农业大学将19个业务系统纳入安心守护服务的监控范围。其中,8个业务系统处于预警状态,1个业务系统不可用状态,其他均为正常。
点击“数据库平台”
进入第2步详情页面
详情
点击任一黄色预警色块,此业务系统运行所涉及的所有IT资源架空指标及状态(如主机、数据库、链路等)便尽收眼底。
其中,“告警所在”将提示风险及故障的具体分类,下表可看到不同分类中故障所在的指标状态。
(数据库平台详情界面图)
上图中针对“数据库平台”提示“告警所在”为“主机”。点击“主机”按钮,下表显示所有主机相关指标项,具体风险点是3、6、9三项。
查看分析
展开了该指标项的历史运行状态,并对故障现场实时轮询。
(查看分析图)
菜单项2:资源汇总
运筹帷幄显神通
资源汇总
直观的了解有多少主机、主机的使用情况和效率,以及每台主机对应的业务系统是哪些。
(资源汇总界面图)
从上图我们可以看到:第1、2两项中,数据库1以及数据库2的内存使用率接近100%,数据库平台运行存在隐患。
菜单项3:告警聚合
面面俱到解疑难
告警汇总
直观的看到何时报警、何时处理、是否已处理完成,并提供相关问题处理的历史纪录,帮助学校形成自己的知识库。
(告警汇总界面图)
菜单项4:URL汇总
集群节点尽在掌握
URL汇总
小工具摆脱大烦恼,不用再每天点开收藏夹内的每个业务系统的url地址查看状态了,一眼就能看到负责的业务系统的运行状态。
(URL汇总图)
菜单项5:数据汇总
盘点数据一二三
分析统计页面下,可以查看7大类型的数据分析图表,分别是:告警分布统计、告警时间分布、告警业务系统TopN、业务系统告警分类统计、业务系统告警环比统计、应用可用性统计、业务系统平均故障恢复时间统计。
所有统计图均可导出,一方面作为学校阶段汇报的依据,另一方面为整体调优提供数据依据,并实现调优前后的结果数据对比。
以下展开介绍最常见的3个统计图。
告警分布统计
统计选定的时间段内,所有业务系统告警在不同底层环境的分布状况。
(告警分布统计图)
告警时间分布
直观地展示故障发生的集中时间段。学校可以根据不同时间段的业务系统访问需求,对硬件以及应用系统层面的调整,综合地设计优化方案。
(告警时间分布图)
告警业务系统TOP N
对业务系统故障总数进行排名,提醒管理人员重点关注排名靠前业务系统。
(告警业务系统TOPN图)