运维工作的其它关注因素
1. 运维人员的角色及职责
根据应用系统的结构特点和不同技术要求,运维管理人员一般可以从专业角度分为三种
角色和层次:
1.1 值守或值班管理人员:负责查看和了解应用系统运行状况,当问题发生时能够进行初
步的问题定位和分析,将诊断结果和处理情况记录下来,提交给相应的系统管理员、
数据库管理员或应用服务器管理员。
1.2 系统管理员、数据库管理员和应用服务器管理员:负责对自己管理的产品或技术平台
进行专门的问题排查和深入诊断,解决相应环节出现的问题。如果涉及到应用开发或
系统构架问题,需要提交给开发人员和系统构架师;如果涉及第三方产品,则要求厂
商技术支持人员进行支持。
1.3 系统架构师、开发人员、技术支持人员:负责对应用进行设计、开发及优化;负责第
三方产品的技术支持。
2. 故障处理和工作流
故障处理流程的建立,是运维管理的一个重要内容。实现故障处理流程的前提,是对问
题进行分类和等级划分,如一般问题、中等问题、严重问题等,相应的告警,也分为一般告
警、中级告警、严重告警等。根据告别和问题的性质不同,可以采取不同的应对措施,如,
值班人员处理、通知专业人员处理或逐级上报等等。
故障处理和运维管理的工作流程,决定了不同人员和不同职能在协作中的沟通的方式和
相应的工作接口。故障处理流程的受理接口,担负着更多与用户沟通的任务;系统值守或值
班人员则更需要关注各种技术指标是否正常。一旦发现潜在的问题,就需要提交给相应的技
术专家,进行进一步的诊断、分析和问题解决。问题解决后,还要急时通知相关用户和问题
的提交者,整个流程才算完成。这期间,如何根据问题的严重程度,分出轻重缓急,区别对
待,找出最适合,也最有时间用来解决这些问题的是,都是需要提前确定相应对策的。
3. 管理工具的选择
多年来,IT 管理不断发展,管理内容、管理方案和相应的管理理论都更加细分,更专业
化。过去那种试图通过单一系统管理或网管方案,管理整个 IT 系统的想法,已经落伍。新型
管理方案往往根据管理对象的不同,分为网管工具、测试工具,监控工具、数据库管理
(DBA )工具、应用管理工具等。运维管理对应的,就是应用管理的相关方案。
除了在管理领域上更加细分外,新型管理方案在功能上也有了长足的进步。传统管理方
案主要提供一些基本的网络、主机、操作系统和数据库关键指标的监控功能,以及用于事件
响应处理的集中化管理控制台;新型的管理方案必须同时提供应用系统的分析、诊断、问题
解决和性能优化功能。同时,新一代的管理方案,在很大程度上规避了传统解决方案多年来
暴露出来的系统庞大、实施复杂、对被管理系统资源消耗过多等诸多问题。
4 应用质量保证
应用质量保证贯穿应用的整个生命周期:包括设计开发、测试及试运行、生产运维和应
用的升级换代。应用质量保证分为前瞻式管理和响应式管理。前瞻式管理是指在设计开发阶
段就尽早地进行各种测试和及优化,直到应用投入生产运维。响应式管理是在生产运维阶段,
根据事件报警、系统诊断或巡检所发现的问题,进行应用系统的改进和优化。不同阶段的测
试、优化和问题解决,所需要的工具、流程和管理机制各不相同,需要加以规范。