正如前文所述,IT系统的运维管理视不同行业而有所不同。对于一般的企业来说,如果它并不对外提供IT服务,而仅仅是日常工作时间,为企业内部员工提供平台支持,企业邮箱也完全外包采用第三方服务的话,他们就无需在春节这个节假日刻意安排人手轮流值班。也就是说对于一般的公司,其网络系统并不重要的话,可以将更多精力放在节后。
对于比较重要的、对外提供服务的IT系统来说,确保7*24正常运行是最基本的要求。在这种情况下,IT运维管理就显得非常重要了。而这,也是我们要介绍的应用服务领域的IT运维管理。
IDC、SDC、NDC等行业公司,由于规模较大,其服务的用户群体和服务内容都比较广,因此,这些企业都安排有专人24小时值班。当然,即使是春节这样的传统佳节,也会有专人值班,以应对突发事件的发生。
然而即便如此,在春节这样的重大节日面前,我们在IT运维管理的时候仍然特别需要注意以下几个问题:
1、硬件设备检修
IDC这类运营商的数据中心,其IT系统都提供有冗余设备(冗余电源、灾备等),可提供在硬件设备宕机的情况下,自动切换并保证系统持久稳定运行的机制。也正是冗余设备的重要性,运维人员在春节这样的节假日,特别需要了解各个硬件设备的现状。
漫画:检查硬件设备(来源:johnshenlee)
这种了解包括两部分:机器本身的可用性和使用周期。如果超出使用周期,需要调配新的机器设备,以满足突发性的高并发访问需求。另外还需要了解冗余设备的可用性。而这种冗余设备的检修往往会被忽视,如果一旦发生异常情况,系统自动切换到冗余设备上而设备发生故障,那么后果也是不堪设想的。
2、保证电源持久供给
“有了电,多方便”。春节期间,家家户户闹新年,往往各大电器都超长时间满负荷运行,从而会给电力的使用带来安全隐患。对于应用服务提供商来说也同样如此,如果电力供给出现故障,那么其他的所有一切工作都白费,而且还会造成难以挽回的巨大财产损失。
对于IDC、SDC等应用来说,在电源方面通常都是采取双备份的机制来确保电源持久供应。有些服务器通常都有四个电源模块,而有些移动运营商甚至配备有UPS直流电源模块房,如果整个大楼停电,可以通过该模块房提供长达一周的用电需求。当然,更有甚者,将数据中心楼宇中的电梯也纳入到UPS供电的体系中,以方便管理员更高效、安全的提供运维、管理工作。
3、职责明确 落实到人
由于这类IT运维管理需要有专人值守,因此,在春节期间应该有职责明确、分工落实到个人的事先安排。通常情况下,这种24小时专人值守,可以采用轮流、现场和远程结合的形式来做出安排。比如,现场值班人员可以安排负责整个机房、数据中心的安全、防护工作,而作为系统监控、常规性故障处理,则可以由远处异地、通过手机、PC终端接入网络进行处理。当然,为了应对严重的突发事件,现场必须配备有专业技术人员。
另外,有些IDC是根据业务区块(数据中心不同的业务区)来分派不同的专业技术人员进行值班监管,在这种情况下,每个运维人员特别需要留意所在的服务器访问情况(包括以往访问记录和高并发访问下的负载分担设备),以便有的放矢做出重点监测。而对于一般的网络设备,由于它们都具有堆叠和级联的功能(将多个交换机整合成单个),在高并发访问的情况下也能确保正常工作。