应用系统运维管理采用的战略
面对种种挑战,简单部署一些监控软件不能满足用户的需求。那么,在新的 IT 环
境下,应用运维管理应该采用什么样的战略呢?尽管各行业的应用架构和业务内容不尽相同,
但是根据业界通行的管理经验、实际的应用情况和方案的可操作性上看,应该至少关注以下
三个方面:
1. 运维广度
既然应用系统主要由应用底层的基础架构和应用系统本身构成,他们的运维管理,就必
须要覆盖这两个层面的不同技术组件,这就是我们所说的运维广度。运维管理就像弹钢琴,
也要统筹兼顾,重点突出。
打个比方,应用系统就像一座金字塔,我们通常关注的,是最上层的应用,底层的支持
系统,包括网络、主机、操作系统、数据库、中间件、防火墙等等,隐藏在应用的背后,以
不同方式,时刻影响着应用的运行。全面的运维管理方案,需要能够充分地支持,或者涵盖
应用系统背后的不同技术组件,减少管理死角。 同时,能够对新型大规模应用中的异构平台
进行统筹兼顾的管理和分析,是当前应用管理的一个重要需求。
当然,再全面的管理方案,也不能包揽所有技术平台和来自不同厂家的技术组件。每个
客户的每种应用,也都或多或少地存在一些不同的地方;随着应用生命周期的变化,也会存
在升级换代后的新需求。成熟的应用管理方案,要具备足够的定制扩展能力,既满足了用户
的客户化需求,又要拥有充分的扩展空间,随着用户业务和应用收放自如。
2. 运维深度
运维管理的成果,体现为管理工作所实现的服务等级协议(Service Level Agreement,简
称“SLA”),这是考核企业应用管理的一个重要的量化指标。实际管理工作中,面向整个
应用进行管理的 SLA 指标,会被层层细化,映射成针对不同技术组件的管理目标,分别加以
管理。这个过程包括以下几个方面:
2.1 运行状况的全面把握:这是应用运维管理的基础。只有实时把握应用的运行状况,才
能更加积极、主动地利用和协调资源、提前制定和采取应对措施。马车跑的快,既要
马好,车好,还要有个好车夫,谁也不能拖后腿。应用性能有问题,要先看在哪个环
节卡的壳。网络、主机、数据库、中间件,包括 SQL 语句,都可能是问题的起因。
2.2 问题的快速定位和深入分析:厘清责任,只是第一步,接下来还要落实问题的类型、
根源、严重程度和解决办法,再通过相应的技术手段,加以解决。对关键应用而言,
Internal Partner Win Story
快速定位问题,及时找到应对措施,是非常重要的。正是由于这样的原因,管理人工
作中的快速分析、深入挖掘和及时的解决问题机制,就非常重要。不仅要求配置适当
技能的管理人员,还必须有适用的管理工具和管理机制加以配合,才能实现有效的运
维管理。
需要注意的是,管理工具的选择,要在功能覆盖和挖掘能力之间达到均衡。只有这样,
才能在满足日常定期检查需求的同时,又提供足够的问题诊断和问题解决能力。
3. 运维高度
运维高度是指在意识上对运维管理要有足够的重视,并且在系统建设和实际管理工作中,
通过运维管理规范和运维管理流程、运维管理机制的建立和执行,将其落到实处。运维规范
和管理机制的建立及完善具有一定的难度,也需要一定的周期。只有在建设阶段,就充分估
计到未来的运维管理挑战,才能及早规划,提前协调,确保关键应用在整个生命周期之内都
得到良好的管理。
运维管理规范的建立,应该考虑以下因素:
3.1 应用复杂性及其多样化的运维管理需求。不同的应用系统,在管理过程中的需求是不
一样的,管理工作的复杂性也大不相同。电子商务类应用对系统的宕机时间非常敏感。
计费和分析类应用则非常重视应用的处理性能。同样,在线银行和支付系统集中了安
全性、运行性能、同步处理能力和应用升级变化速度较快等多种管理挑战。运维管理
规范的制订,以及管理工具的选择,要恰如其分地反映机构身的应用特点,同时又具
有一定程度的前瞻性。
3.2 运维人员的职责和分工。随着企业和机构的信息化建设不断深入,运维管理工作也更
加规范,需要更多的专业化人员,参与到系统、完善的管理工作中来。根据不同职责
和管理内容,对运维人员进行分工,有助于提高管理工作的效率和专业化程度,改进
知识积累和知识共享,使问题解决的过程更具有针对性。
3.3 故障处理流程的建立。故障处理流程是专业化运维管理的一个重要内容,是快速消除
系统故障、降低资源浪费、提高管理工作规范化和改善知识积累的有效途径。故障处
理流程往往包括问题的发现、告警和提交过程;问题处理及问题解决过程;问题解决
后的反馈处理、知识积累和共享机制等。通常情况下,故障处理流程是系统维护人员
与系统用户的接口,通过人工、电话、Web 或电子邮件渠道授受用户的请求,又通过
后台的问题处理系统,将管理任务分发给系统管理员、DBA 或其它开发维护小组加以
解决。
3.4 应用巡检及健康检查制度。应用管理中要建立定期的巡检和健康检查制度,防患于未
然,有效保障系统的稳定运行。巡检包括对系统配置、版本和可用资源等的例行检查,
以及系统关键运行指标的考查,巡检过程有利于发现应用系统中潜在的各种问题,提
出相关的解决和优化建议。多数企业或 IT 机构虽然对系统巡检或健康检查有一定的要
求,但只是作为系统管理员、DBA 甚至应用开发小组兼顾的职能,也没有专门的管理
机制和管理工具进行配合,人为因素和偶然性很强,管理工作的强度和业绩也很难考
核。 只有明确要求,落实到位,才能真正实现粗放经营到精细管理的转变。
3.5 部署有效的管理工具。欲行其事,必先利其器。管理工具在运维管理中起到事半功倍
的作用,是实现运维管理自动化、专业化过程中的必要技术保障。工具的使用不仅可
以有效解放高水平的管理人员,也提供了更强大的数据采集、诊断分析、问题解决和
系统优化等功能。例如,全天时的应用监控和管理,对管理工具而言,很容易实现;
但如果采用人工方式,则很容易顾此失彼。
3.6 优化应用系统。应用系统是一个复杂变化的体系,运维管理工作也不能抱残守缺。随
着应用的上线使用,用户和数据量不断上升,越来越多的问题会暴露出来。运维管理
工作的一个重要内容,就是通过不断的优化工作,使系统达到最佳的运行状态,直到
新应用上线,旧应用被淘汰。