运维管理・实务 栏目编辑-梁丽雯E—mail:liven一01@1 63 corn ■中国人民银行伊犁州中心支行杜成武 目前,人民银行各项业务开展基本上是在网络和 信息系统上进行的,多数信息系统实现了数据省级或 全国集中,IT技术成为人民银行各项工作开展的基础 和支撑平台。业务对IT技术有极强的依赖性,对IT系统 经过两年多的开发建设,2009 ̄年10月,人民银行系 统IT运维综合管理平台在全辖试运行。一年后正 式运行。两年多的运行给人民银行系统科技管理 工作带来了巨大变化,科技管理水平显著提高,对信息 系统监控能力实现质的飞跃,较大地减轻了全辖科技 的可用性、连续性、安全性提出了更高要求,给科技部 门带来很大的运维压力。科技部门只有引入先进管理 理念,实现自身IT运维的信息化,提高运维的质量和效 率,才能克服传统IT管理中的许多不足,适应新的形势 要求。 人员的工作负担,实现了IT运维管理由分散管理向集中 管理、由被动管理向主动管理、由职能化管理向流程化 管理的转变。 2007年7月,人民银行系统IT运维综合管理平 台项目正式启动,目标是通过引入先进的ITIL ̄务管理 理念,建设一个能与人民银行总行运维管理平台对接, 一、人民银行系统IT运维综合管理平台简介 人民银行系统IT运维综合管理平台是以ITIL (国际IT管理领域的事实标准)服务管理理念开发,集 对人民银行系统重要信息化资源进行监控,满足 辖内各级机构全面科技管理需要的综合信息化平台。 监控、流程管理和知识库等为一体的综合运维信息平 台。可及时预警或告警安全事件,实现多种规范化运维 流程流转的自动化,:疗便知识、经验的积累和 获取。平台主要由3部分组成,分别是监控管 理平台、服务管理平台和安全管理平台。 (一)监控管理平台。实现对全疆人民银 行系统IT基础架构的集中监控和管理,监控 对象包括网络系统、主机系统、存储设备、数 据库、中间件、应用系统、安全产品和中心机 房环境设施等。平台能够及时采集各类告警 信息、性能数据和配置数据等,并能以多种方 式(如短信、邮件等)报告和展示给运维人员 和管理人员,帮助运维人员及时了解系统状 态,快速、有效地诊断、定位问题。告警信息 多为隐患的预警,因此,可将许多运维由被动 支持转为主动服务。 (二)服务管理平台。服务管理平台是以 ITIL最佳实践为蓝本的服务管理流程的电子 化流转工具及辅助工具。通过流程化工具, 2012年・第8期投稿邮箱hnfc@2 Icn.net I 69 实务・运维管理 栏目编辑:梁丽雯E-mail:liven01@1 63 corn 建立以服务台为核心的运维服务机制,通过服务台将 监控、管理、服务等内容整合起来,形成统一的IT运维 管理平台。平台围绕事件管理、问题管理、发布管理、 变更管理、配置管理等ITIL最佳实践流程,将人员、IT 资源和流程有机统一起来,实现IT运维服务的流程化 管理。 (五)取得IT资产配置及资产间关系困难。有时为 了运维或设备统计上的需要急需取得设备当时的配置 或配置之间、设备之间的关系,过去这些信息一般记录 在各自的纸质档案或Excel表中,记录的配置与实际配 置可能还存在出入,取得实际配置往往要费些周折。无 法实现资产配置的随时提取,得到配置之间、设备之间 的关系更是困难,更谈不上对某系统的设备、配置等的 全貌展现。 (三)安全管理平台。安全管理平台的功能分2个 方面,一是监控信息安全产品本身的工作状态,如配置 信息、运行状态、设备CPU ̄I]用率、缓存使用百分比、 板卡工作状态、电源和风扇状态等;二是提取各信息 安全专用产品监测到的信息,如告警信息、入侵事件信 息、工作日志,并提供多种查询方式,生成报表等。目 前,人民银行系统使用的信息安全专用产品包括 防火墙、IDS、防病毒系统、非法外联系统、补丁自动分 发系统和桌面设备安全管理系统等。 =.传统IT运维管理存在的问题 (一)对IT系统监控的精准度不够,存在较大盲 区。传统IT运维管理对IT系统的监控全靠手工、现场进 行,且监控的准确程度与人员的技术水平、责任心有较 大关系。非上班时间,IT系统的状态无人监控,故障不 能及时发现,影响业务开展的事件时有发生。 (二)技术层面条块分割。传统IT运维是按照系 统、网络、应用、设备等进行人员职责划分,这种面向职 能的管理模式导致部门之间、人员之问沟通不畅,阻碍 了信息和技术的交流,影响工作效率,并产生潜在安全 隐患。 (三)服务管理流程随意性大。传统IT运维管理的 工作流程虽然也比较明确,但在执行过程中受人为因 素影响比较大,完全依靠个人自觉。走捷径、不遵守安 全操作规程或部分遗漏的情况难以避免,如未及时登 记或登记要素不完整等。 (四)运维记录、知识查询困难,经验流失严重。 传统IT运维管理的运维也会有各种日志记录,但相关运 行记录有些以Word文档方式保存,有些以纸质方式保 存,孤立存放,记录之间不便关联,不便利用工具和没 有工具对运行事件和运行故障进行快速统计分析及深 度挖掘。运维人员的经验保存在各自的脑子里,没有专 门的工具搜集保存和管理,不利于知识、经验的积累和 交流。运维效率、能力和水平提升缓慢。 70 l 2012年・第8期投稿邮箱hnfc@2lcn.net (六)服务质量和工作量难以准确评估。科技管理 部门对科技服务满意度基本依靠业务部门的偶尔口头 评价,记录也不够全面,不能准确量化科技人员的服务 质量和工作量,对科技人员的业绩考核依据不足,只能 凭个人感觉。 三、IT运维综合管理平台带来运维模式的变革 IT运维综合管理平台的指导思想是ITIL服务管理 理念。ITIL运行最明显的标志是运维新组织架构的运 作和服务台的启用,形成以服务台为调度中心和监控中 心的IT服务管理架构。新组织架构包括设立服务台岗 位,值守服务台,即一线岗位;设立二线岗位,处理复 杂的运维任务,一般为网络、应用系统的管理员;设立 流程管理员,创建新流程,编制流程规则,完善现有流 程等。 服务台主要职责是调度、监控IT资源和流程,是科 技部门和业务部门之间的单一专职联系点。服务台值 班人员借助服务管理平台客户端、电话或邮件等形式, 接收业务部门的服务请求、咨询、事件报告和投诉。对 于能够解答(或借助知识库可以解答)又不需要变 更配置的事件,服务台可直接给予解答或电话指导申 请人员和部门计算机安全员来处理;对于自己不能解 答或复杂的事件,由服务台人员作出判断,转到二线技 术支持人员,或创建工单,启动相应的服务管理流程。 多数情况下,科技部门和业务部门之间的沟通是 通过服务管理平台进行的,由业务部门借助服务管理 平台客户端自建工单,服务台值班人员按照规定的派单 规则,通过服务管理平台转派到二线支持人员。运维 人员接收到派发的工单后,按照服务管理平台给出的流 程提示,一步步进行相应的运维操作,或将工单流转到 其他运维人员继续进行操作,或需要审批时流转到指 定的部门负责人。接单人员要将每步的操作内容、解决 运维管理・实务 栏目编辑梁丽雯E—mail:liven一01@163 corn 方案、总结体会或审批结果等填写到提示填写的栏目 中。在事件流程中可能引起变更管理流程、配置管理流 问题尽可能少流入二线支持。 (三)固化运维流程,规避操作风险。基于ITIL最 程或发布管理流程。对一些难以解决、共性或仍可能发 生的事件,可启动问题管理流程,专题研究寻找解决该 佳实践理论设计的各服务管理流程,不同类型的操作, 有相应的步骤和缜密的约束机制。将流程固化在平台 上,避免了人员的随意性,提高了运维的统一性,实现IT 服务的“工程化”,有效规避了技术人员的操作风险。 (四)知识和经验得以迅速积累、共享。平台有一 类问题产生的根源,制定解决问题的解决方案或防止 事故再次发生的措施。运维人员在事件处理过程中,可 充分利用配置管理数据库(CMDB)、知识库来更新完 善。服务台要不间断地监视整个平台中各个流程的状 套知识和经验积累、共享的知识库建设机制,避免了知 识和经验的流失,知识库的应用实现了“_人拥有,全 体皆知”的效果,利于IT人员快速成长。减少运维对个 态,对迟办流程进行督办。服务台还负有科技部门13常 工作的流程启动、职责提醒,如口令更改、数据备份、主 备服务器切换、安全检查、应急演练等。  ̄IJlTA员的依赖,避免了一旦某些掌握关键信息和技能 人员的缺失对IT服务持续性的影响。 四,应用成效 IT运维综合管理平台运行两年多以来,运维人员、 业务部门适应了新模式,各流程环节得到磨合,事件响 应时间和处理时间大为减少。特别是一线支持能力的 (五)提高了IT运维效率。监控平台、知识库、 CMDB的综合运用,使运维工作如虎添翼。监控平台可 帮助运维人员及时发现问题。知识库中有大量案例可 供借签。CMDB中详细记录的IT资源的屙I生、功用及关 系等可快速认识IT资源,依靠属性变化,迅速定位故 障。通过CMDB展现IT系统体系结构全貌,也十分有利 于问题的解决。 显著提升,较大地提高了事件的首次解决率,降低了二 线支持的工作量。监控平台监测预警到多起设备和网 络线路故障,特别是发现了以前不易发现的备份设备 或线路故障,消除了多项安全隐患,避免了多起安全事 故的发生。这些充分证明了平台的效力。 (一)实现了对IT系统全天候、全方位、自动化实 时监控。监控平台实现了对整个人民银行系统的 所有核心网络设备、重要服务器、机房环境设备、供 电系统等的全天候、全方位、自动化实时监控,不再 (六)量化科技部门服务质量,准确评估运维人 员绩效。ITIL使得随意性很强的IT服务具备了“服务级 别”和“质量”的概念,让软性服务有了硬性的衡量标 准,实现了服务标准化。IT人员的运维在平台中有详细 记录,通过对服务质量和数量的分析统计,能较准确量 化科技人员的工作绩效。囫 需要人员现场值守和干预,监控到的 属性全面,数据精度高。对发现的告 警定时以短信、邮件、专用客户端等 多种形式告知运维人员和部门负责 人,实现了故障的及时发现,隐患的 及时告警。 (二)优化了IT资源。ITIL的IT服 务管理运营架构,把人员、流程、IT设 施三位一体地整合起来,大大优化了 IT资源。通过服务台实现对人员、流 程、IT设施的总体监控、调度,及时全 面掌控各种IT资源状况,综合调配资 源,及时发现问题和作出反应。在人 力资源分配方面,可让一线人员尽可 能多地过滤掉简单、重复的问题,将 2012年・第8期投稿邮箱hnfc@2lcn.net l 71