暑假刚刚过去,学校的各大业务系统即将迎接师生用户的重新使用。信息办老师们也陆陆续续地忙碌起来,面对那些应接不暇的业务系统故障,信息化中心的老师们,你们准备好了么?你们是否向往这样的状态呢?
“居家办公,
却可纵览校园业务系统全局动态!”
“短信通知告警信息,
问题出在哪,我心里有数!”
“问题解决有流程,应急恢复来帮忙。
业务中断时间缩短一大半!”
“第一时间主动发现问题,
报障&投诉电话都去哪了?”
……
以上种种,便是南京农业大学信息办老师在这个暑期的缩影。
是什么让业务系统运维变得简单呢?近期,小编走访了学校,了解其中的始末缘由。
去年的时候,南农的运维却非如此轻松。
学校信息化部门由用户服务部、信息应用部、网络运营部组成。用户服务部担当着学校信息化报障服务台的角色。简单地说,用户服务部是全校师生在遇到系统问题时第一个联系的部门,一旦问题爆发,它便成了众矢之的。信息应用部则是负责校数据中心的建设与管理及学校业务系统的开发与维护工作。
彭其军老师是用户服务部负责人,他告诉我们,过往学校发生系统故障时,宕机虽然仅仅2个小时,但却严重影响了师生的正常办公,一时间各个科室的电话蜂拥而至,用户服务部的电话几乎被“打爆了”!部门的工作人员承担着巨大的压力。
信息应用部陈宏原老师主管负责业务系统的日常运行维护。他向我们详细介绍了学校过往至今信息应用部的运维基本情况:
南京农业大学数字化校园自2011年启动第一期建设。
从硬件设备的建设情况来看,应用于数字化校园业务的服务器由4台刀片式及1台机架式组成,搭建的虚拟机环境达到167台。
软件方面,业务系统总计上线40个,其中核心业务包括人事、办公、研究生、图书馆、宿舍管理、资产大厅、网站群、科研在内共计19个,还建立了信息门户、统一身份认证、公共数据库等底层平台。
随着应用的不断深入,业务系统联接了全校师生的参与和关注,与他们的日常生活及工作息息相关,其影响力无出其右。现在成千上万的师生用户几乎7*24小时不间断的在使用业务系统,在使用体验上提出了刚性的需求。
在实际运维的工作过程中,他们遇到了问题:业务系统多达40个,真正负责业务系统运维只是信息应用部人员,仅5人。在与陈老师的交流中,他告诉我们,每天查看业务系统状态的方法就是打开浏览器,逐个点击收藏夹下各URL地址,看看业务系统是否可用。这种耗费大量精力的“URL轮巡”方式让陈老师着实头疼不已:既没有实现全局监控,也没有实现实时动态监控。
同时,他还表示:“目前随着云计算、VMware虚拟化、存储云化等技术的发展,为了满足多样的服务,底层的硬件架构与上层应用的部署架构都逐渐复杂化。纵然发现系统异常,也不知道问题出在哪?”可以看出,软硬件的复杂化让学校在故障定位的效率上越来越低。
事情总是有办法处理的。
在往期的运维过程中,可以看出,学校急需在运维规章制度及流程建设上的完善以及自动化的实现。其中,规章制度及流程涉及到运维服务能否有序进行,能否覆盖到每个上线的硬件资源与业务系统的问题。自动化的实现,含义很广,寻求自动化工具及服务团队是捷径。对此,南京农业大学在实现运维建设中,是这样实践的:
在具体运维工作流程中,南农努力尝试做到“横向要理顺,纵向要打通”。所谓“横向要理顺”,即在硬件管理与业务系统运行责任分配上,采取责任落实到个人,理顺每个硬件及业务系统责任关系。而“纵向要打通”,是基于问题解决层面,通过“首问责任制”实现,一旦业务系统出现问题,责任分配到位,责任人通过自身能力解决系统故障,或者联络驻场服务经理协助处理。在重大故障问题解决上,“虽然有分工,但不分家”,协同合作完成处理。
2015年3月1日,经过反复的市场考察和选型,南京农业大学最终看中了“安心守护服务”。
整个系统实施及部署工作在2天内就完成了,总共连接了学校19个业务类及平台类系统,更让陈老师惊喜的是:在安心守护部署不久,我们就推出了学校的全局业务视图,直观方便的展现所有上线系统的运行状态。过去手工执行的业务系统“URL轮巡”工作终于宣告结束。
![案例 | “故障”都去哪儿啦? 南京农业大学暑期运维经验 案例 | “故障”都去哪儿啦? 南京农业大学暑期运维经验]()
(业务系统首页图)
不仅如此,还能实时监控业务系统运行状态,一旦被监控系统出现异常,便采用“逐层下钻”的方式快速定位故障所在。
现在的陈老师,“秀才不出门,知尽天下事。”即使居家办公,打开安心守护客户端,便可纵览业务全局,第一时间发现故障告警,从而减少业务中断时间。
安心守护上线后,初次考验悄然而至。2015年05月31日:
12时28分,安心守护监控中心发出告警,“南京农业大学门户首页访问报500错”。 运维工程师汤雁飞的邮箱也收到该讯息。
意识到事态的严重性,他立即登录学校环境进行应急恢复操作。
12时31分,通过QQ通知负责人陈老师,告知故障现象,故障处理过程及预计恢复时间。当时正值周日中午,老师们都放假在家休息。
通过安心守护告警信息定位,原来是门户与一卡通通讯存在异常,直接定位到故障原因,守护工程师立即通过重启server执行应急恢复操作,并且将待办提醒栏目撤掉,保证门户运行。
![案例 | “故障”都去哪儿啦? 南京农业大学暑期运维经验 案例 | “故障”都去哪儿啦? 南京农业大学暑期运维经验]()
(QQ方式通知截图)
12点59分,服务恢复正常,历时28分钟。
13点整,陈老师收到信息:“故障已经恢复,业务可正常使用。”
事后,陈老师说:“如果周末没有发现这个潜在的风险,门户和一卡通业务系统极有可能会出现无法登陆的情况,影响面会非常广,届时估计又是无数的投诉和批评了,感谢安心守护的提前告警和快速恢复,化解了险情。”
在信息应用部引入安心守护后,在整个守护期间内,3个月运行守护,告警400余次,主动发现宕机风险12次,应急恢复宕机故障10起,业务中断时间减少58%,异常问题平均30分钟内解决。业务系统的可用性得到保证,用户服务部的投诉电话也随之骤减。
“OA系统突然访问慢了”,这是个难题——影响系统访问速度的因素很多,可能是CPU、内存或网络。
陈老师淡定的打开安心守护客户端,查看OA系统的资源及告警汇总信息,即故障定位库。它是根据运维经验积累整理,汇总业务系统常见故障问题及解决方案,记录并分类,备案存储至客户端。
原来,OA系统的数据库存储空间占用率已经接近100%。随后和沈老师一同商量,加大数据库存储空间,很快OA系统的问题自行解决了。
陈老师说:“安心守护能够及时告警信息化系统发生的故障,并及时处理故障,保障了信息化系统的运行,减轻了我们不少压力。”
在7月份,陈老师第一次收到了《安心守护服务报告》。报告以现场保留数据为基础,以季度为周期进行现场运行环境的分析。
报告清晰地呈现了运行环境存在问题的总结、问题出现的趋势分析、问题解决建议。
![案例 | “故障”都去哪儿啦? 南京农业大学暑期运维经验 案例 | “故障”都去哪儿啦? 南京农业大学暑期运维经验]()
(安心守护服务报告图)
针对目前所有业务系统的数据库都在两台IBM小型机上运行,安心守护资源汇总界面显示:数据库平台长期维持在内存告警使用率80~90%,CPU告警使用率90%以上的情况。
季度报告建议学校购置硬件设备以缓解压力,确保业务系统畅通稳定。该建议得到高度认同,校方随即决定新增刀片服务器,于下半年正式投入使用。
如今,每个月认真研读《报告》已经成为陈老师的习惯。
南京农业大学是教育部直属全国重点大学,是国家“211工程”重点建设大学和“985优势学科创新平台”高校之一。现有学生共计42400人,教职员工2700余人。