还记得多年前,IT运维管理的最高水平被称呼为综合网管。大型企业的IT部门正在投入大量资金建设综合网络管理系统和完整的监控系统,现在越来越多的公司建造了类似的大屏幕,也显示了丰富的数据,但是坐在大厅里的人不会盯着这个大屏幕,而是盯着自己的办公桌上的一个小屏幕。如果你访问这些监控中心,可能几分钟前数据还算正常,但几分钟后,系统就宕机了。
事实上,综合网管时代要解决的问题是,当IT系统出现问题时,我们可以大致知道问题出在哪里,是网络还是应用程序或者是数据库。只要能在系统出现问题后的短时间内发现问题,综合网管就完成了它的使命。所以盯着屏幕看监控数据没有多大意义。
监控的目的不仅仅是在系统出现故障时快速定位问题,而是提前感知故障的存在,并在故障发生前以无形的方式消除它。当我们介绍预防措施时,我们总是可以举一个空间利用的例子来说明这个机制是如何工作的。比如CPU使用率突然增加可能是正常的,也可能是异常的。就算是异常,也有无数种可能。因此,基于一体化网管架构的闭环管理,在如今的IT运维场景中,似乎有些不适用。
随着信息技术的发展,我们对异常的感知和检测能力有了很大的提高,但是这种对问题的感知能力在当前新的IT运维需求下已经遥不可及。如果每天对数十万条告警进行闭环管理,IT部门承担不起。如果忽略这些告警,那么一旦发生故障,IT部门没有及时发现,就要承担巨大的责任。
上海希尼亚偌数十年专注于一站式IT外包业务、IT系统集成服务、IT运维管理服务。