什么是问题管理?

2024 年 4 月 10 日

作者

Camilo Quiroz-Vázquez

IBM Staff Writer

什么是问题管理?

问题管理是识别、管理和寻找 IT 服务事件根本原因的解决方案的过程。问题管理是 IT 服务管理 (ITSM) 的一个重要方面。

问题管理流程既主动又被动,提高了 IT 团队查找问题根本原因的能力,同时为用户提供持续的服务。最重要的是,问题管理不仅仅是识别问题和提供快速修复;成功的问题管理基于全面了解导致事件的所有潜在因素以及清除根本原因的解决方案。

IT 运营 (ITOps) 涉及管理一个由相互依赖的应用程序、软件、硬件、IT 基础设施和其他技术组成的复杂系统。理想情况下,事件和问题一开始就不会发生,但当其发生时,必须解决问题并识别已知错误,以免演变为更大的问题。服务中断会妨碍各组织持续提供服务改进,并可能导致严重的声誉和财务问题。

主动的问题管理可帮助企业在问题发生之前将其阻止并减少停机时间。IT 自动化解决方案通过自动执行事件检测和构建解决方案的工作流程来帮助管理事件的影响。IT 问题可能包括加载时间长、代码效率低下或损坏,或者数据库查询提取到不必要的数据。主动解决问题可以降低成本并提高客户满意度。

有效的问题管理需要针对 IT 系统的可观测性,以及对问题和事件进行严格的分类。通过对可能导致重大事件的实例进行分类,企业可以解决可能对业务产生最大影响的问题。问题管理策略可解决企业的技术堆栈中的事件,并迫使企业探索更好的方法来解决整个运营中的事件。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

问题管理的关键要素

问题管理需要使用考虑周密的方案,以确保团队尽可能高效地分配资源。问题管理团队和其他利益相关者会使用多种方法来有效且高效地解决问题。这些方法可帮助团队确定问题的根本原因,并构建可以阻止问题再次发生的解决方案。

大多数问题管理方法都遵循类似的评估、记录、分析和解决模式。

问题检测

IT 专业人员通常使用自动化技术来识别被归类为问题的重复事件。自动化系统通过筛选大型数据集和识别可能与众不同的数据点来帮助发现异常

异常数据可能会引导 IT 团队成员找到事件的潜在原因。事件报告和自动通知会发送到服务台,后者可以识别事件是新的还是团队在过去已识别并解决的。

问题评估

团队或自动化系统可识别事件并将其分类为问题记录或可能再次发生的不相关问题。这种分类有助于各组织确定是可以立即解决问题,还是需要对问题进行更深入的分析。

问题日志记录

问题管理团队通常使用自助服务平台记录问题,并创建问题记录。问题记录包括对问题的全面说明,包括任何相关事件、问题发生的位置和方式、根本原因分析以及解决方案。

日志记录系统会创建已知错误记录,并将其输入到已知错误数据库 (KEDB)。企业应该将自己的问题管理方案和知识管理方案相结合。知识管理可为已知问题创建解决方案库。

根本原因分析

各组织可研究已发现问题背后的潜在问题,并制定提供长期解决方案的路线图。了解根本原因后,各组织就能防止问题再次发生,减少长期影响。

解决问题

当 IT 团队了解问题及其根本原因后,就会设法解决问题(也称为问题控制)并找到解决方案。这可能涉及快速或持久的响应,具体取决于问题的严重性或复杂性。通过寻找缩短停机时间的解决方法,同时由 IT 团队找到根本原因,可以快速解决问题。

问题管理还可以使用模板,例如专注于升级信息和问题评论的模板,以最大限度减少以前专用于关键问题管理任务的人力资源。

错误控制是问题控制的另一方面。错误控制的重点是找到已知错误的解决方案,目标是将它们从已知错误数据库 (KEDB) 中删除。

AI 学院

利用混合云实现 AI 就绪

本课程由 IBM 资深思想领袖带领,旨在帮助企业领导者获得所需的知识,以便划分可以推动增长的 AI 投资的优先级。

问题管理的好处

问题管理的目标是最大限度地减少停机时间、提高效率并改善服务交付。问题管理的一些更具影响力的好处包括:

增强安全性

确定事件的根本原因是网络风险管理的重要组成部分。仅修补或解决单个事件而不探究其根本原因的组织可能会忽视重大安全问题。

问题管理团队可以与安全专业人员协同工作,以了解哪些事件和问题是由恶意参与者或安全缺陷造成的,这两者都可能会给组织造成重大问题。

提高客户满意度

留住客户有赖于始终如一地提供优质服务。持续的停机以及无法访问应用程序或网站可能会导致客户流失。通过优先考虑问题识别和问题解决,组织可以最大限度地减少停机时间并提高客户满意度。

改进知识管理

将知识管理(在知识库中识别、组织、存储和传播信息的过程)作为其问题管理方案的一部分优先考虑的组织更有可能避免重复事件。通过在问题记录中捕获这些信息,组织可以创建已知错误数据库,以避免未来再次发生此类事件并构建永久性解决方案。

提高工作效率和员工满意度

实施问题管理策略有助于保持 IT 部门的效率并改善员工体验。问题管理可以防止员工重复修复和维护相同的问题,帮助他们在执行价值更高的任务时提升工作效率

问题管理与事件管理的对比

问题管理和事件管理是密切相关的过程。IT 部门履行这两项职能,目标是提供持续服务并消除问题。这两项职能之间的主要区别在于“事件”和“问题”的技术定义。

  • 事件是指导致中断并妨碍系统提供特定服务的单一事件。

  • 问题是相关事件的根本原因。问题可能由单个事件组成,也可能由多个并发事件组成。

事件管理流程基于 IT 服务台,在 IT 运营和用户之间提供单点联系,并处理 IT 服务交付的整个生命周期。事件解决是被动的,包括在服务中断之前快速解决事件。

问题管理旨在找到每个事件的根本原因,并针对问题原因提供永久性解决方案。IT 团队为问题分析设定了标准,这样,他们就能够追踪事件的根本原因。最有效的问题管理策略是主动式,可以在问题发生之前识别问题的潜在原因。

问题管理和知识管理

高效的问题管理策略强调知识管理。知识管理策略利用组织经验更快地解决问题或完全避免问题。

解决方案、协议和常见解决方法的详尽文档是知识管理的一个关键方面。IT 部门将文档存储在一个集中的位置,并确保各团队都能方便地访问文档。知识管理库有助于 IT 团队专注于更复杂的工作以及现有服务的优化。它们也是主动进行问题管理的重要工具。

被动式和主动式问题管理

问题管理团队可以采用被动式或主动式问题管理,具体取决于他们观察到的事件和拥有的历史数据。被动式问题管理涉及在问题发生时识别问题并尽快解决问题。当各组织应用被动式问题管理之前,必须已出现问题。

主动式问题管理包括对问题发生的原因进行更多的调查工作,并构建解决方案以防止问题再次发生。企业越积极主动,就越有可能避免重大问题、安全威胁和服务中断。

ITIL、ITSM 和问题管理

信息技术基础架构库 (ITIL) 是优化 IT 运营和改善服务级别功能的最佳实践的存储库。ITIL 是配置管理数据库 (CMDB) 不可分割的一部分,配置管理数据库是提供和管理 IT 服务所需的每个组件的集中信息库。IT 团队在实施 IT 服务管理 (ITSM) 时使用 ITIL。

ITSM 是指组织如何确保其 IT 服务按照用户和业务需要的方式工作。ITSM 战略旨在实现和保持 IT 资源的最佳部署、运营和管理。问题管理是 ITSM 的核心组成部分。ITIL 是应用最广泛的指导框架,用于实施和记录 ITSM。

ITIL 问题管理采用 ITIL 流程,能够最大限度减少解决任意问题所需的基础工作。组织面临的许多问题 - 例如服务器中断和网络安全问题,以前也有其他组织遇到过。对于这些问题,往往存在标准化的应对方式。因此,ITSM 方法往往包含了 ITIL,以最大限度减少解决 IT 问题所需的新工作。ITSM 还包含了变更管理流程。

问题管理和变更管理

变更管理是管理和实施组织变更的流程。在迁移、数字化转型或组织合并的整个过程中,都有可能发生变更管理。

开发运维 (DevOps) 团队借助 ITIL 的指导来完成这些变更,并利用它来衡量与成功实施 IT 系统变更相关的 KPI 和指标。理想情况下,变更管理应该是无缝流程。如果不是这样,问题管理策略可以帮助实现平稳过渡。

相关解决方案
IBM Cloud Infrastructure Center

IBM Cloud Infrastructure Center 是一款兼容 OpenStack 的软件平台,用于管理 IBM zSystems 和 IBM LinuxONE 上的私有云基础架构。

深入了解 Cloud Infrastructure Center
IT 基础架构解决方案

发现专为企业混合云和 AI 策略设计的服务器、存储器和软件。

探索 IT 基础架构解决方案
云基础设施解决方案

查找适合企业的业务需求的云基础设施解决方案,并按需扩展资源。

云解决方案
采取后续步骤

利用 IBM 的混合云和 AI 就绪解决方案来实现企业基础设施转型。了解旨在保护、扩展和实现企业的现代化改造的服务器、存储和软件,或获取专家洞察分析,从而强化您的生成式 AI 战略。

探索 IT 基础架构解决方案 下载电子书