问题管理是识别、管理和寻找 IT 服务事件根本原因的解决方案的过程。问题管理是 IT 服务管理 (ITSM) 的一个重要方面。
问题管理流程既主动又被动,提高了 IT 团队查找问题根本原因的能力,同时为用户提供持续的服务。最重要的是,问题管理不仅仅是识别问题和提供快速修复;成功的问题管理基于全面了解导致事件的所有潜在因素以及清除根本原因的解决方案。
IT 运营 (ITOps) 涉及管理一个由相互依赖的应用程序、软件、硬件、IT 基础设施和其他技术组成的复杂系统。理想情况下,事件和问题一开始就不会发生,但当其发生时,必须解决问题并识别已知错误,以免演变为更大的问题。服务中断会妨碍各组织持续提供服务改进,并可能导致严重的声誉和财务问题。
主动的问题管理可帮助企业在问题发生之前将其阻止并减少停机时间。IT 自动化解决方案通过自动执行事件检测和构建解决方案的工作流程来帮助管理事件的影响。IT 问题可能包括加载时间长、代码效率低下或损坏,或者数据库查询提取到不必要的数据。主动解决问题可以降低成本并提高客户满意度。
有效的问题管理需要针对 IT 系统的可观测性,以及对问题和事件进行严格的分类。通过对可能导致重大事件的实例进行分类,企业可以解决可能对业务产生最大影响的问题。问题管理策略可解决企业的技术堆栈中的事件,并迫使企业探索更好的方法来解决整个运营中的事件。
问题管理需要使用考虑周密的方案,以确保团队尽可能高效地分配资源。问题管理团队和其他利益相关者会使用多种方法来有效且高效地解决问题。这些方法可帮助团队确定问题的根本原因,并构建可以阻止问题再次发生的解决方案。
大多数问题管理方法都遵循类似的评估、记录、分析和解决模式。
团队或自动化系统可识别事件并将其分类为问题记录或可能再次发生的不相关问题。这种分类有助于各组织确定是可以立即解决问题,还是需要对问题进行更深入的分析。
各组织可研究已发现问题背后的潜在问题,并制定提供长期解决方案的路线图。了解根本原因后,各组织就能防止问题再次发生,减少长期影响。
当 IT 团队了解问题及其根本原因后,就会设法解决问题(也称为问题控制)并找到解决方案。这可能涉及快速或持久的响应,具体取决于问题的严重性或复杂性。通过寻找缩短停机时间的解决方法,同时由 IT 团队找到根本原因,可以快速解决问题。
问题管理还可以使用模板,例如专注于升级信息和问题评论的模板,以最大限度减少以前专用于关键问题管理任务的人力资源。
错误控制是问题控制的另一方面。错误控制的重点是找到已知错误的解决方案,目标是将它们从已知错误数据库 (KEDB) 中删除。
问题管理的目标是最大限度地减少停机时间、提高效率并改善服务交付。问题管理的一些更具影响力的好处包括:
确定事件的根本原因是网络风险管理的重要组成部分。仅修补或解决单个事件而不探究其根本原因的组织可能会忽视重大安全问题。
问题管理团队可以与安全专业人员协同工作,以了解哪些事件和问题是由恶意参与者或安全缺陷造成的,这两者都可能会给组织造成重大问题。
留住客户有赖于始终如一地提供优质服务。持续的停机以及无法访问应用程序或网站可能会导致客户流失。通过优先考虑问题识别和问题解决,组织可以最大限度地减少停机时间并提高客户满意度。
将知识管理(在知识库中识别、组织、存储和传播信息的过程)作为其问题管理方案的一部分优先考虑的组织更有可能避免重复事件。通过在问题记录中捕获这些信息,组织可以创建已知错误数据库,以避免未来再次发生此类事件并构建永久性解决方案。
问题管理和事件管理是密切相关的过程。IT 部门履行这两项职能,目标是提供持续服务并消除问题。这两项职能之间的主要区别在于“事件”和“问题”的技术定义。
事件管理流程基于 IT 服务台,在 IT 运营和用户之间提供单点联系,并处理 IT 服务交付的整个生命周期。事件解决是被动的,包括在服务中断之前快速解决事件。
问题管理旨在找到每个事件的根本原因,并针对问题原因提供永久性解决方案。IT 团队为问题分析设定了标准,这样,他们就能够追踪事件的根本原因。最有效的问题管理策略是主动式,可以在问题发生之前识别问题的潜在原因。
高效的问题管理策略强调知识管理。知识管理策略利用组织经验更快地解决问题或完全避免问题。
解决方案、协议和常见解决方法的详尽文档是知识管理的一个关键方面。IT 部门将文档存储在一个集中的位置,并确保各团队都能方便地访问文档。知识管理库有助于 IT 团队专注于更复杂的工作以及现有服务的优化。它们也是主动进行问题管理的重要工具。
问题管理团队可以采用被动式或主动式问题管理,具体取决于他们观察到的事件和拥有的历史数据。被动式问题管理涉及在问题发生时识别问题并尽快解决问题。当各组织应用被动式问题管理之前,必须已出现问题。
主动式问题管理包括对问题发生的原因进行更多的调查工作,并构建解决方案以防止问题再次发生。企业越积极主动,就越有可能避免重大问题、安全威胁和服务中断。
信息技术基础架构库 (ITIL) 是优化 IT 运营和改善服务级别功能的最佳实践的存储库。ITIL 是配置管理数据库 (CMDB) 不可分割的一部分,配置管理数据库是提供和管理 IT 服务所需的每个组件的集中信息库。IT 团队在实施 IT 服务管理 (ITSM) 时使用 ITIL。
ITSM 是指组织如何确保其 IT 服务按照用户和业务需要的方式工作。ITSM 战略旨在实现和保持 IT 资源的最佳部署、运营和管理。问题管理是 ITSM 的核心组成部分。ITIL 是应用最广泛的指导框架,用于实施和记录 ITSM。
ITIL 问题管理采用 ITIL 流程,能够最大限度减少解决任意问题所需的基础工作。组织面临的许多问题 - 例如服务器中断和网络安全问题,以前也有其他组织遇到过。对于这些问题,往往存在标准化的应对方式。因此,ITSM 方法往往包含了 ITIL,以最大限度减少解决 IT 问题所需的新工作。ITSM 还包含了变更管理流程。
变更管理是管理和实施组织变更的流程。在迁移、数字化转型或组织合并的整个过程中,都有可能发生变更管理。
开发运维 (DevOps) 团队借助 ITIL 的指导来完成这些变更,并利用它来衡量与成功实施 IT 系统变更相关的 KPI 和指标。理想情况下,变更管理应该是无缝流程。如果不是这样,问题管理策略可以帮助实现平稳过渡。
IBM Cloud Infrastructure Center 是一款兼容 OpenStack 的软件平台,用于管理 IBM zSystems 和 IBM LinuxONE 上的私有云基础架构。
发现专为企业混合云和 AI 策略设计的服务器、存储器和软件。
查找适合企业的业务需求的云基础设施解决方案,并按需扩展资源。