IT运维

目录

  • 1 什么是IT运维
  • 2 IT运维的难题与对策[1]
  • 3 IT运维的内控化管理[2]
  • 4 IT运维管理的应用与实践[3]
    • 4.1 IT运维管理
    • 4.2 企业运维管理的策略和方法
  • 5 参考文献

什么是IT运维

  IT运维是指单位IT部门采用相关的方法、手段、技术制度流程和文档等,对IT运行环境(如硬软件环境、网络环境等)、IT业务系统和IT运维人员进行的综合管理

IT运维的难题与对策

  一、企业目前面临着如下的网络运维管理难题:

  1.网络运维缺乏绩效考核标准,职责不清,相互推诿。

  多数企业的IT部门目前都基本是按照IT基础架构功能来划分各个部分,也有少部分的企业是按照业务来进行划分。缺乏IT服务工作量量化考核工具,没有计算IT服务人员的工作绩效,也没有监督IT服务人员解决故障的处理效率和处理质量。因而在IT服务人员解决问题时缺乏协作,而一般IT出现故障或问题,都不会是简单的某个环节单独出问题,很多时候需要多个部门协作才能排除故障。所以,在企业运维过程中经常出现责任不清,相互推诿的现象。

  2.网络资产管理混乱,漏洞百出。

  IT设备和软件资产众多,目前还停留在人工管理的范畴。例如,IT设备的定期排查力度不够,设备巡检不到位:IT设备台账不能方便反映设备维修历史记录;软件资产未建立台账进行管理,软件的升级、变更等缺乏登记信息:设备和软件的配置信息不详,或者配置信息经过长期维修调整已经与实际不相符合:还有IT设备采购、调拨、报废等管理流程处理效率低。

  3.网络运维服务管理缺乏流程保障,维护人员忙于救火,缺乏主动服务。

  IT部门除了确保信息系统安全、稳定、可靠运行之外,还将面临如何管好、用好这庞大的系统,为业务部门提供有效的决策支持的挑战。然而很多时候,管理员都具有这样的通性,那就是IT业务没问题的时候神情特别轻松,但是一旦故障发生,尤其是涉及到企业核心电子业务的时候,那就得全体动员,尽快恢复业务运行,要是正赶上领导亲自来部门督战,气氛就会更加紧张,所以“救火队员”这个称号是对IT部门最恰当的角色定义。

  4.网络组织重“硬平台”建设,轻“软平台”管理,维护人员与客户满意度低投诉引起的相关部门的责难将打击}T运维人员积极性。

  5.日常工作中未能建立知识库,因此知识分散,信息中心过度依赖某个人,人员流失就会影响故障解决速度。

  6.网络系统缺乏长期规划,更缺乏复杂系统的运维管理经验。

  二、提高IT运维服务能力的理论分析

  针对以上所说的网络运维管理难题,早在20年前,国外的一些政府单位和大型企业已开始着手探索应对办法,经过多年实践,总结出了相对完备的一套体系架构,该架构已经被业界公认为事实上的国际标准——ITIL(Information Technology lnfrastructure Library),即IT基础架构库。在国外,该标准正在被HP、IBM、CA、微软等企业广泛采用,并付诸实施。并在实践的基础上,形成了各自的ITSM(即information technology service management,IT服务管理)方法论及产品,并成为了他们开拓IT服务市场的招牌

  1.IT基础架构库ITIL简介

  20世纪80年代,英国政府为了提升信息化设备和系统的运行效率,保障信息系统建康运行,有效进行服务外包管理,指定当时的英国政府计算机与通信局,研究开发一种方法,用于指导全国政府部门高效、经济地运营信息化设备和系统,结果产生了信息技术基础架构库((Information Technology Infrastructure Library),它汇集了IT服务业内的最佳实践,是指导如何在运维管理中定义人员、流程、服务活动及其之间关系的指导框架。ITIL的框架包括业务管理服务管理、IT基础架构管理、安全管理、应用管理等,其中最核心的是服务管理中的服务支持和服务提供。

  2.ITIL对IT部门的效益分析

  ①通过实施ITIL,IT部门可以全面监控网络、主机、存储设备、安全设备、数据库、中间件及应用软件等IT资源。

  ②更加有利于IT部门对其负责的IT资源进行管理。

  ③ITIL流程可以对日常运行维护工作(或外包作业)提供一个管理框架。

  ④通过ITIL规范的服务台,可以建立一个更好的IT部门与业务部门沟通的平台。

  三、提高IT运维服务能力的对策

  综上可知,企业IT运维的难题并不是网络应用能力的不足而是网络运维管理能力和IT运维服务的缺失。网络运维的行业标准为ITIL,通过ITIL在企业的实践,我们可以从以下几个方面提高企业的网络运维服务能力:

  1.基于ITIL流程和理念,建立合理的工作流程,合理安排人员岗位,明确职责,避免一旦出现故障,互相推诿或者不知该找谁解决的情况。能保障在业务中断的第一时间找到相关负责人去解决问题,迅速恢复业务。

  2.实现统一监控平台,将各种监控资源通过集中展现和告警的方式进行统一管理,从整体上全面、快速了解系统当前的运行状态,帮助运维人员快速定位故障,缩短排查时间。

  3.高效的、合理的流程设置和流转,相互关联的事件工单、问题工单、变更工单、配置工单,使得运维工作流转过程中的资源关联清晰、过程明确可控、历史数据和处理过程可查,提高业务系统运行效率。

  4.高效、实时、准确的配置管理库可为运维服务提供所需的配置项信息,可通过设定的条件自定义查询、浏览、打印,不必费时费力去整理杂乱繁多的纸质记录,降低IT运维人员工作量。

  5.追踪资产生命全周期的资产管理,可对所有台账资源一目了然,对资产的使用状态准确记录,提高资产设备的重复使用率,及时淘汰报废设备,更新所需设备,提高IT资产使用率,降低IT资产投入。

  6.建立知识库积累,避免专业的技术问题永远只能依赖某一个或几个专业人员来解决的现状,使运维工作中的实际经验和专业知识得到共享,让人人都能成为IT运维专家。

  7.量化运维人员的运维工作,通过运维分析数据制定运维考核标准,逐步提高运维人员的服务水平和服务质量

  总的来说,通过有效的实施IT运维管理,降低人员工作量。同时提高IT运维人员工作效率,保障业务人员的工作效率,提高业务系统运行状况,进而提高企业整体网络运维能力,同时提高客户满意度。

IT运维的内控化管理

  1.内部层面

  1.1 转变IT运维管理工作方式和理念,强调从技术型向管理型转变。各企事业单位的应用系统和网络系统已经成支撑业务正常运转的重要基础,保证应用系统和网络系统的正常运行和使用成为了IT运维工作的重中之重。IT运维部门的职能应当从传统的重服务轻管理,逐步转变为服务与管理并行,规范化与人性化相辅相成的模式,以适应现代化信息的工作模式。

  1.2 清理、简化现有IT运维管理制度。形成适合企事业单位管理实际的制度体系。以建立完整、规范、有效的内部规章制度体系为目标,紧密联系工作实际,按照适用、可行、合法、有效的原则,对现有规章制度进行全面的自查和清理。按照IT运维管理工作的职能分工分层次、分步骤地对制订的各项内部管理制度规程进行分类清理,从制度内容的适用性、可行性、依据和效力的合法性、执行的有效性等方面进行了逐条审核,并结合实际工作,对上级部门制订的内部管理制度与当前实际工作不符的情况进行修订和完善。逐步摈弃传统的“人管人”的工作模式,形成以制度带动人,以制度带动工作的长效机制

  1.3 建立完善的内部信息共享平台。从基础设施。应用系统和业务服务三个方面打造完善的信息共享和资源监控平台。能建立有效的信息资源库,减低对关键技术人员的依赖,为日常IT运维和管理工作提供有效的保障:基础设施管理方面,对网络,应用系统软、硬件等资源进行细化管理,详细记录电子设备的出入库、维保、报废等环节。保证资源的有效利用;应用系统管理方面,对于各类应用系统的备份,日常维护进行有效管理控制,保证所有应用系统数据的一致性、准确性、及时性、可用性和完整性,并根据实际需要不断进行改进、完善或更新;业务服务管理方面,尽可能的记录所有的事件要素,包括问题描述、解决方案、操作人员等等。使得部门对人员的考核有了量化的标准,同时这个过程也有助于知识积累,形成有效的知识库,可以极大地减少对关键人员的依赖,降低人员流失的风险

  1.4 建立例行巡查和通报制度。IT运维部门的负责人和业务主管可通过内部信息共享这一平台,对业务进行有效的监督。一是定期对记录的相关事项进行巡查,审计已登记发生事项的规范性。二是对正在发生的事件实时跟踪,及时了解事件的进展状况。规范各个流程的操作,从源头避免业务差错的发生。三是建立采集问题,核实整改问题及问题通报三个环节的通报机制,以提升力IT运维管理的效率

  2.外部层面

  2.1 加强与内部审计部门的沟通交流和人员培训,培养复合型管理人员。定期组织IT运维人员和内部审计人员进行学习交流,探讨内控管理中存在的问题,交流内控管理的心得体会,充分发挥IT运维的技术优势和内控的管理优势,通过良好的内部沟通机制和完善的信息共享平台,建立内部控制体系运行网络和内部控制管理组织体系。

  2.2 加强与内部审计部门的业务合作。内部控制审计对组织治理、风险管理、改善控制效率和效果等方面有很大的促进作用。IT运维部门可配合内部审计部门进行运维管理,将内部控制审计作为常态化审计类型,通过这种方式,突出内控特点,运用规范的审计方法和评价体系,注重从控制、风险、管理等宏观层面查找问题、提出建议,以达到促进IT运维管理工作,完善内控和加强管理的目的。

  2.3 通过内部审计部门,加强督导、整改等工作的实效。在IT运维管理工作的过程中,不仅要发现问题解决问题,更重要的是要形成完善的IT运维管理工作规范和流程,在这点上。可以通过内部审计部门对企事业单位内部进一步规范制度、程序和方法,形成对风险进行事前防范、事中控制事后监督和纠正的动态过程和机制,强化重要业务环节的风险控制。加大检查力度,切实有效地推进督导、整改工作,建立内控管理的长效机制。

IT运维管理的应用与实践

IT运维管理

  所谓IT运维管理是指单位IT部门采用相关的方法、手段、技术、流程和文档等,对IT运维环境(如硬软件环境、网络环境等)、IT业务系统和IT运维人员进行的综合管理。

  IT运维管理主要包括八个方面的管理内容。

  设备管理:对网络设备、服务器设备、操作系统运行状况进行监控和管理。

  应用/服务管理:对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNSWeb等的监控与管理。

  数据/存储/容灾的管理:对系统和业务数据进行统一的存储、备份和恢复。

  业务管理:包含对企业自身核心业务系统运行情况的监控和管理。对于业务的管理,主要关注该业务系统的CSF (关键成功因素Critical Success Factors)和KPI(关键绩效指标Key Performance Idicators)。

  目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理。

  资源资产管理:管理企业中各IT系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的。并可以与企业的财务部门进行数据交换

  信息安全管理:该部分包含了许多方面的内容,目前信息安全管理主要依据的国际标准是ISO17799,该标准涵盖了信息安全管理的十大控制方面,36个控制目标和127中控制方式,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等。

  日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段。

  通过以上对IT运维管理的理解,我们对服务器设备进行了系统的维护,根据企业的实际情况制定了详细的策略和方法,为服务器稳定运行提供最基础的保障。

企业运维管理的策略和方法

  在错综复杂的信息环境中,企业要想吸取有效信息就必须面对跨越异构环境(硬件平台、操作系统、数据库平台……)带来的层层障碍。针对企业的现状以及我们对IT运维管理的理解,我们制定的策略和方法。

  1.设备管理

  设备管理主要是对网络设备、服务器设备和操作系统等的运行状况进行监控和管理。本公司的网络设备有思科华为中兴等三家的产品,服务器设备IBM、HPSun以及联想等四家;操作系统更是有AIX、Windows、Unix和Solaris等四种;为保证应用系统安全稳定的运行,各应用系统也由单机系统变成了双机备份系统,这样就大大提高了网管系统的效率和可用性。

  1.1 网络设备

  对于企业来说,功能完善的网络属于必备的条件。本公司的网络设备类型有三种,我们使用HP的软件在被管节点上安装代理程序通过SNMP把需要采集的信息,包括性能数据、阈值告警等传递到管理站,然后我们的网络管理员就可以通过网络管理站来实时的监控获取到的相关信息来监控网络运行状况,为网络管理和运维提供可靠依据,保证网络7x24小时稳定运行。

  1.2 服务器设备

  我们首先对设备进行正常的日常维护,除此之外,我们还针对不同设备、应用系统的要求以及维护的要求分别对各类设备进行维护,如我们现有服务器50多台,一台一台地检查一次至少需要2个小时,既浪费时间也麻烦还容易出错,给运维带来很大的工作量,我们根据这种情况通过交换机将各服务器连接起来,组成一个局域网,利用带外管理软件来管理和运维,这样既可以快速发现故障也减少了许多的 作量。

  1.3 操作系统

  操作系统是一管理电脑硬件与软件资源的程序,同时也是计算机系统的内核与基石。操作系统身负诸如管理与配置内存、决定系统资源供需的优先次序、控制输入与输出设备、操作网络与管理文件系统等基本事务。操作系统是管理计算机系统的全部硬件资源包括软件资源及数据资源、控制程序运行、改善人机界面、为其它应用软件提供支持等,使计算机系统所有资源最大限度地发挥作用。目前操作系统的种类繁多,但所有的操作系统具有并发性、共享性、虚拟性和不确定性四个基本特征,根据这些特征,我们制定了各类操作系统的巡检制度,并结合网管软件将错误日志等通过短信或邮件发给维护人员,使我们能够及时快速的发现和处理故障保证业务系统的正常运行。

  2.应用/服务的管理

  应用和服务的管理主要是对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,而我们维护主要对数据库进行日常管理和维护。数据库是应用软件的核心,数据库日常维护工作是系统管理员的重要职责,熟悉数据库的维护方法对于计算机技术人员解决日常工作中的问题来说是很有帮助的。我们主要从几个方面对数据库进行维护。

  2.1监视系统运行状况,及时处理系统错误

  我们通过观察监视当前用户以及进程的信息、目标占用空间情况、监视Server的统计数据等对数据库进行日常巡检和管理。

  2.2备份和恢复数据库数据

  利用IBM 公司的TSM 软件和Acronis软件,对各系统的数据库定期进行备份、恢复和归档,并定期进行数据库优化工作。

  2.3保证系统数据安全。定期更改用户口令

  3.业务管理

  我们的业务系统分为数据采集、综合展示和短信系统等部分,我们通过HP的采集软件将网络设备和服务器设备进行监控,并通过报表和短信系统展示出来,逐渐从传统的人工监管向利用软件自动监管的方向过度,并将出现的故障写入服务流程单,进行总结和归档,为以后的维护提供原始资料

  4.数据/存储/容灾的管理

  存储已经从网络基础架构外的一部分发展为网络的重要组成,从直接连接到服务器上的一块磁盘到庞大的网络存储。存储管理之所以复杂,是因为它管理的对象庞大而且层次不齐。从广义上讲,凡是一个企业的网络环境中有数据存放的地方都是存储,这就包括了数据库、服务器、用户终端,甚至链接的线路都和存储发生着紧密的关联,此外还有那些时而离线时而连线的笔记本电脑、移动硬盘、优盘、闪存等。狭义地讲,存储就是指光盘、磁盘阵列、磁带库、NAS、SAN系统等,而无论是广义概念上的存储管理还是狭义概念上的存储管理,都不是一件容易的事情,尤其是在大型的异构网络环境之中。我们使用的存储设备是HP StorageWorks Storage系列,利用IBM 的TSM 软件根据各应用系统的要求制定存储策略。通过TSM 灵活的策略管理功能,定制数据备份、恢复和存档,规定哪些数据需要备份或存档、存储在哪里以及保存多长时间等。TSM 的调度特性也消除了人工备份和跟踪的需求,促进了存储操作向非高峰时间的调度,从而优化了网络资源和性能。

  5.资源资产管理

  资产管理包括所有IT相关的硬件软件的资产清单、汇总、报表及异常情况报告等管理,资产管理功能从两个方面实现。

  一是管理的资产类别,包括PC机、交换机、服务器等硬件和操作系统、应用软件等软件这两个方面。资产管理不仅可以实时监视资产的当前运行状况,资产变动,而且对于一些非IT的设备,或者一些无法直接获取数据的设备也应纳入管理范围,允许用户手工增加编辑这些设备。对于资产的类别,IT运维管理系统也应允许用户自由添加、编辑和删除类别信息,如可以允许用户增加一个“存储阵列柜”的资产类别,用户可以自己编辑相关的属性。这样可以实现一个完整的资产管理。

  二是基于生命周期的资产管理,资产的生命周期,主要是指资产的采购、入库、领用、正常使用、维修、库存、报废等一系列资产的生命状态。资产是个动态的概念,我们要随时掌握当前有哪些设备是正常运行的,哪些处于维修或者库存状态。基于生命周期的管理可以全面的考查资产的全面信息。

  我们现在根据ITIL流程中的配置流程和更改流程,利用HP的Service Manager软件将硬件、网络设备等管理起来,通过管理可以很清楚地知道我们有哪些基础设施,用在哪里,怎样合理的使用这些资源等,这样既可以节约成本也可以提高效率。

  6.信息安全管理

  BS 7799信息安全管理体系标准强调风险管理的思想。指导组织建立信息安全管理体系ISMS。ISMS是一个系统化、程序化和文件化的管理体系,基于系统、全面、科学的安全风险评估,体现预防控制为主的思想,强调遵守国家有关信息安全的法律法规及其他合同方要求,强调全过程和动态控制,本着控制费用与风险平衡的原则合理选择安全控制方式保护组织所拥有的关键信息资产,使信息风险的发生概率和结果降低到可接受水平,确保信息的保密性、完整性和可用性,保持组织业务运作的持续性。

参考文献

  1. 王艳君.浅析IT运维的现状与对策[J].中小企业管理与科技·下旬刊,2011,(第3期).
  2. 杨爽.浅谈IT运维的内控化管理[J].科技视界,2012,(第23期).
  3. 王庆霞.浅谈IT运维管理的应用与实践[J].信息安全与技术,2012,(第11期).
阅读数:205