统一身份认证系统作为校内所有业务系统的登陆入口,如果突然宕机,将导致所有业务系统无法登陆,等于所有系统同时宕机,智慧校园停摆!影响范围非常之大,高校信息办的咨询电话可能会被各个业务部门及师生们打爆
最近某高校就出现该问题:统一身份认证系统采用集群方式部署在两台小机上,由于机房突然停电,导致一台机器物理损坏,找不到配件无法修复;另一台机器部分文件损坏,导致业务系统无法启动。
值得注意的是,这已经是我们运维团队自2017年以来第三次接到此类故障事件了,为此小编现分享出运维专家处理该事件的思路、分析与建议,以供各位老师参考哦~
接到通知后,我们运维团队立即启动应急工作机制,第一时间派遣资深工程师介入检查现场环境,并根据学校的实际情况制定恢复方案:
经过一天的抢修,统一身份认证系统得以恢复,学校所有集成身份认证的业务系统可以提供正常服务了。
许多高校当前仍在使用IDS4版本的统一身份认证平台。该产品发布于2008年以前,由于当时虚拟化还未普及,几乎所有高校都采用部署在物理机上的方式。而物理设备又存在使用年限,一旦超过机器使用寿命将很难维修。如果维检、更换不及时,最终极易导致数据和程序随着设备的损坏而湮灭。
而直接断电导致的宕机,有时候会导致文件的损坏。大家都知道,哪怕一个字符的错误,也有可能导致程序无法运行。现场当时的服务启动日志:
该版本发布于2008年,距今已近10年。产品几经迭代,目前只能提供基础技术支持。
将系统从物理机器迁移至虚拟机。设备的老化很容易出现配件损坏,而配件损坏又很难快速找到合适配件,这对数据的保存和系统的快速恢复都造成极为不利的影响。虚拟机可以快速生成镜像快照,而且对业务系统不产生影响;快照文件即可以存放在本地,也可以备份在异地,使用快照文件也可以迅速恢复系统。
做好程序和数据的双重备份。在操作系统层面制定备份策略,确保备份文件不会丢失或者损坏。同时数据备份也可以作为虚拟机备份的补充,用来恢复短时间内的丢失数据。
做好备份恢复性测试工作,验证备份文件的可用性,当身份认证系统服务器出现故障时,工程师能在最快的时间内利用有效的备份文件恢复系统。我们遇到过有些项目可能存在这样的情况,当出现认证系统宕机需要进行备份恢复时,才发现没有备份文件或者备份文件有损坏,这就相当尴尬了。
做好双机高可用性测试,模拟一台服务器宕机,另外一台服务器能够快速接管服务,减少甚至消除前端用户的故障感知。有些项目可能存在这样的情况,明明是部署的集群模式,但是其中一台服务器出现宕机时,另外一台服务器却无法正常工作了,这就需要提前做好双机高可用性测试,预防此类问题的发生。
建议升级到最新的统一身份系统,一方面防止老版本系统存在问题导致的连锁反应;另外一方面享受及时最新的版本技术与服务支持。