导语:当前,数字油田的发展和建设几乎涵盖了国际大型石油公司勘探开发和生产管理的各个方面,给世界能源工业带来了巨大变革。而在描绘数字油田的愿景蓝图中,庞大且复杂的IT基础设施和业务系统同样也给石油企业提出了IT运维管理的新课题。在这其中,胜利油田鲁明公司采用浪潮SSM应用监管系统,以自动化、主动式的运维彻底替代了手动监控管理,并形成了日常巡检自动化、故障管理智能化和业务管理数据化的运维管理新格局。
数字油田实现了油田生产效率、管理效率最大化。IT系统作为科技生产力在胜利油田鲁明油气勘探开发有限公司(以下简称“鲁明公司”)发展中具有举足轻重的作用,它贯穿于石油勘探、开发、炼化以及油气储运、销售等各个环节,发挥着实时传递信息、分析数据、监控生产、指挥调度等业务功能。但“不多、不少、不大、不小”的IT故障却时常出现,这让IT运维部门十分头疼。那么,这个问题根源出在哪里呢?
IT运维充当 “救火队”,改变势在必行
在长期的IT建设历程中,鲁明公司形成了各种各样的IT系统,所支持的业务平台也越来越复杂。据介绍,鲁明公司在各地的油气站,其前端为监控、采集业务系统,后台为数据采集服务器等,对网络平台的稳定性和性能要求都非常高,而生产指挥系统等关键业务更需要7×24小时保持健康的运行状态。
“面对越来越多的IT资源和高要求的运维服务质量,我们感到压力倍增。而要提高IT运维管理水平、降低运营的风险、保障公司业务高效运行,就必须要彻底改变现在人工手动的运维模式。” 鲁明公司IT部门主管领导谈到了改变。那么,之前手工运维场景下会造成什么问题呢?
第一、“救火式”的故障管理总是后知后觉。随着业务系统对网络的依赖日趋加深,看似轻微的网络故障很有可能威胁到整个公司的运作,而如果IT部门只是从报修电话中体现价值,总是做“事后诸葛亮”是很危险的。
第二、故障处理效率不高,人力成本攀升苦不堪言。首先,一线的IT运维人员无法第一时间得到故障通知,而被动让故障处理再陷泥潭,定位故障源头的难题让这种局面恶化。其次,设备和业务系统日常巡检依靠人力难以维持,工作量过大可能会造成巡检工作敷衍了事,还会留下运维“死角”。
第三、IT运维与业务脱离,无法用非技术化的数据向业务部门表述IT战略及IT资源的分配状况,业务部门也无法直观的看到系统健康状况。
既然这三个问题严重影响了IT运维的价值,鲁明公司决定彻底抛弃传统的手工运维管理模式,打造出一个主动出击的IT运维管理新格局。可这艰难的第一步又从哪里入手呢?
SSM消除监控“死角” IT管理运筹帷幄
工欲善其事必先利其器,这个“器”便是IT运维工具。因此,选择一套集中监控管理平台成为鲁明公司的当务之急。
“根据我们的考察和测试,浪潮SSM提供了成熟、可靠的面向业务的监控模块,同时采用了分布式监测采集部署与集中式配置管理模式,能够提供全方位的资源监控能力,产品中内置的丰富功能能够帮助我们摆脱手工管理阶段的各种影响因素。所以,我们最终选择了浪潮SSM为业务系统进行应用监管。”该负责人说。
浪潮SSM可视化运维管理界面截图
在项目实施过程中,鲁明公司的网络管理人员利用SSM的物理拓扑管理和网络监控功能,在全网范围内实现了基础设施的监控部署。浪潮SSM可以针对前端监控、数据中心采集服务器和生产系统中各类主机设备、网络设备、安全设备、数据库、中间件、邮件系统、Web服务、基础服务、虚拟化平台等IT资源的实现不间断监控,为面向业务的IT运维提供了进阶准入条件。
另外,针对之前无法提前发现和故障恢复效率不高的难题,SSM提供了智能化的告警平台,可以通过短信、邮件、语音等告警通知手段在第一时间通知管理员。除此以外,还有更为智能化的操作,例如:SSM支持外部命令、UniAgent执行脚本、NetSend、 Snmp设置、Trap转发等告警处理动作,而告警处理动作将按预定义,自动在告警发生后执行,抢先一步尝试恢复业务正常运行。
通过SSM直观、全面、多角度的视图,鲁明公司彻底摆脱了手工运维的落后模式,该项目负责人也因此对SSM的效果给出了较高评价。他表示:“SSM是一个全方位的IT诊断工具,我们以故障管理为突破口,形成了主动运维的新格局。利用SSM,管理员不必在用手工模式、命令行操作对网络设备、服务器、应用系统进行巡检,这大大解放了人力,同时还通过可视化的管理窗口,让我们和业务部门都能掌控业务系统的健康状况。未来,我们将全面发挥面向业务管理的优势,以运维数据为基础,实现精细管理,向信息化要效益”。