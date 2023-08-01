事件管理与问题管理：有什么区别？

全球每天有数十亿人使用计算机或移动设备访问互联网。其中一些用户总是会尝试访问加载缓慢或容易崩溃的网站。

该网站表现不佳的原因之一是太多人试图同时访问该网站，导致服务器不堪重负。但是，这也可能表明存在更大的问题，包括 DNS 配置错误、持久的服务器故障或来自不良行为者的恶意攻击。

事件是 IT 服务中需要修复的错误或故障。许多事件是暂时性问题，只需特定的解决方法即可处理；但那些指向潜在或更复杂问题、需要更全面解决的情况，则称为问题

这就解释了事件管理和问题管理并存的原因，它们是控制故障和错误、维持系统正常运行，并最终为客户及其他利益相关者提供优质服务的两个重要流程。

组织越来越依赖数字技术来服务客户并与合作伙伴协作。一个组织的技术堆栈可以创造新的、令人兴奋的业务增长机会。但服务中的错误也可能带来指数级的中断，并对声誉和财务状况造成损害。

什么是事件管理？

事件管理是组织识别、跟踪和解决可能干扰正常业务流程的事件的方法。这通常是一个被动的过程，当事件发生时，组织会尽快提供事件响应

随着越来越多的组织推进数字化转型及其他技术驱动的运营，鉴于依赖技术向客户提供解决方案，事件管理变得更加重要。

组织的 IT 服务日益由复杂的应用程序、软件、硬件及其他技术组成，这些组件之间往往相互依赖。单个流程出现故障可能会中断它们为客户提供的服务，给企业带来经济损失并产生声誉问题。虽然组织已采用先进的开发运维 (DevOps) 流程以尽量减少事件发生，但仍需要在事件发生时有相应的解决流程。

每天，组织都会遇到并需要管理各种轻微或严重的事件，这些事件都有可能扰乱正常的业务功能。组织需要关注多种类型的事件，包括系统中断、网络配置问题、程序错误、安全事件、数据丢失等意外中断。

随着技术堆栈日益复杂，战略性地管理事件管理流程变得尤为重要。确保组织中的每个人在遇到事件时都知道该如何应对。

事件管理系统已经从早期员工记录（可能发生在事件发生数小时后）自己观察到的事件的简单工具，发展为具有自动化和自助事件管理软件的强大、全天候运行的实践，使组织中的任何人都能向服务台报告事件。

及时解决事件并防止其再次发生非常重要。这有助于组织履行其服务水平协议 (SLA)，SLA 可能保证一定的正常运行时间或服务访问。未能遵守 SLA 可能会使组织面临法律或声誉风险。

事件经理是事件管理流程中的关键利益相关者。事件经理负责管理对事件的响应，并向关键利益相关者通报进展情况。这是一个复杂的 IT 服务岗位，员工需要在压力环境下持续工作，同时与业务中具有不同角色和优先级的利益相关者进行沟通。

什么是问题管理？

问题管理旨在通过解决根本原因来防止事件再次发生。这通常是事件管理后的自然流程，特别是当同一事件多次发生且应被诊断为问题或已知错误时。

如果只有事件管理而没有问题管理，则只能处理表面症状，而无法解决潜在原因（即根本原因），这可能导致类似事件在未来再次发生。有效的问题管理能够识别问题的永久解决方案，从而减少组织未来需要管理的事件数量。

问题管理团队可以根据所观察到的事件及历史数据，采取被动（反应性）或主动（前瞻性）的问题管理方式。

事件管理与问题管理的区别

在观察事件与问题时，需要考虑一个主要区别：短期目标与长期目标。

事件管理更关注对单个问题实例的干预，其目标是在不引发其他问题的情况下，使服务尽快恢复在线。它是一种短期工具，用于保持服务在当下正常运行。

问题管理则更侧重于长期应对，将任何潜在根本原因作为更大潜在问题（即问题）的一部分进行处理。

事件管理和问题管理如何协同工作？

各组织都要努力维系其 IT 基础设施的良好状态，从而满足终端用户的需求，这需要通过运用 IT 服务管理 (ITSM) 来对服务的实施、交付与管理进行治理。ITSM 旨在最大限度地减少停机时间，并确保每个资源按预期方式为每个最终用户工作。

无论组织在 ITSM 上投入多少努力，问题仍然会出现。组织能够在潜在问题变得更严重之前识别并解决这些意外问题，这本身就是一个巨大的竞争优势。一次 IT 服务中断就被视为一次事件。

例如，过多的人同时尝试访问某台服务器可能导致其崩溃，从而产生需要组织修复的事件。事件管理涉及尽快且谨慎地解决影响用户的特定问题。在这种情况下，事件经理可以联系组织内部员工，请他们退出相关程序，同时组织在后台解决问题。

事件管理和问题管理都受信息技术基础架构库 (ITIL) 的约束，ITIL 是一种被广泛采用的指导框架，用于实施和记录这两种管理方法。ITIL 为对事件发生时的被动响应提供了结构化的方法。撰写本文时的最新版本为 ITIL 4。

它提供了一套管理 IT 资产、提升 IT 支持和服务水平的最佳实践库。ITIL 流程将 IT 服务与业务运营连接起来，使其能够随着业务目标的变化而调整。

ITIL 的一个关键组成部分是配置管理数据库 (CMDB)，用于跟踪和管理交付 IT 服务所需的所有软件、IT 组件、文档、用户和硬件之间的相互依赖关系。ITIL 还明确区分了事件管理和问题管理。

一台不断崩溃的服务器可能反映出更大、更系统性的问题，例如硬件故障或配置错误。如果 IT 服务团队未能查明根本原因并针对底层问题制定解决方案，服务器崩溃可能会持续发生。在这种情况下，可能需要升级到问题管理，该管理关注于解决重复发生的事件。

问题管理提供问题的根本原因分析和建议的解决方案，并确定防止问题再次发生所需的资源。

事件管理和问题管理的关键组成部分

有效的事件管理和问题管理包含一个结构化的工作流程，需要实时监控、自动化，以及专门人员协同工作，以尽快解决问题，从而避免不必要的停机或业务中断。这两种管理方式都包含若干重复出现的关键组成部分，组织应当予以了解。

事件管理

  • 事件识别：要解决一个事件，首先必须观察到它。如今企业越来越多地采用自动化系统进行事件检测与告警。但许多情况下仍需要人工确认事件是否真实发生、判断是否需要干预以及确认正确的处理方法。例如，服务器崩溃是以数字为先的组织中常见的事件。当服务器离线时，自动化工具或员工可能会发现该事件，从而启动事件管理流程。
  • 事件报告：这是记录事件的正式流程，在机器或人工观察到事件后进行。它包括事件记录，即由个人或系统分配处理人员、对事件进行分类、确定受影响的业务单元以及记录解决日期的过程。
  • 事件解决优先级：在现代组织中，软件和 IT 服务往往是相互依存的，因此一个事件可能会对其他服务产生连锁反应。有时，某个事件的发生是更大系统性故障的一部分，这可能会引发灾难性的连锁反应。例如，如果多台服务器崩溃，业务分析团队可能无法访问他们需要的数据，或者公司的知识工作者可能无法登录并访问他们工作所需的软件。或者，如果一家公司的 API 出现故障，该组织的客户可能无法访问为最终用户提供服务所需的信息。在这两种情况下，响应团队都必须评估问题的整个范围，并确定优先考虑要解决的事件，以最大限度地减少对业务的短期和长期影响。他们可以根据哪个事件对组织的影响最大来确定优先级。
  • 事件响应和控制：响应团队（可能由自动化软件或系统辅助）随后对事件进行故障排除，以最大限度地减少业务中断。根据需要，响应团队通常由内部 IT 团队成员、外部服务提供商和运营人员组成。
  • 事件解决：这对于 IT 运营恢复正常服务至关重要。IT 事件的潜在解决方案包括使工作不正确的服务器脱机、创建补丁、建立解决方法或更改硬件。
  • 事件文档记录和沟通：这是事件生命周期的关键步骤，有助于避免今后发生同类事件。许多公司会为其事件报告建立知识库，员工可以在其中搜索，以帮助他们解决可能曾在过去发生过的事件。此外，新员工还可以了解公司最近发生了哪些事件，以及应用的解决方案，这样他们可以更轻松地帮助处理下一个事件。文档记录对于判断一个问题是否重复发生并演变成更大的问题也至关重要，从而增加了问题管理的必要性。

问题管理

  • 问题评估：组织现在必须确定该事件是否应归类为问题记录，或者它是否只是一个无关的事件。前者意味着它现在成为问题管理的一部分。
  • 问题记录和分类：IT 团队现在必须记录已发现的问题，并跟踪每次发生的问题。
  • 根本原因分析：组织应研究这些问题背后的根本原因，并制定路线图以形成长期解决方案。实现这一目标的一种方法是在每个环节反复提出“如何”问题，直到能够识别出最初的问题为止。
  • 解决问题：理解了问题及其根本原因的 IT 团队便能够着手解决问题。根据问题的严重程度或复杂性，解决过程可能是快速的，也可能需要较长时间。
  • 事后分析：事后分析让相关员工讨论事件、根本原因以及对问题的应对方式，是任何追求透明度、希望保持正常运行时间并为客户提供优质服务的组织所必不可少的环节。事后分析为所有人提供了一个讨论改进方法的机会，而不会对任何员工进行评判或指责。其目的在于找出发生了什么，并确定能够改进组织的行动方案。它还能为团队未来如何更好地应对事件提供洞察。并能够识别组织是否需要变更管理来优化并简化事件与问题管理流程。最好的想法和结果往往来自开放且坦诚的事后分析会议。团队文化应确保所有成员理解，这是一种发现如何改进 IT 服务的方法，而不是寻找责任人的方式。团队自能明辨这究竟是真诚的改进推演，还是流于形式的问责仪式。

事件管理和问题管理的关键绩效指标

组织通常根据几个关键绩效指标 (KPI) 来评估事件经理和事件管理流程：

  • 平均行动时间：一个事件需要经历检测、响应和修复。组织通过平均告警或确认时间 (MTTA)、平均响应时间以及 平均修复时间 (MTTR) 来评估其事件管理服务的健康状况，这些指标共同清晰地展示了组织对事件的响应能力。
  • 平均故障间隔时间 (MTBF)：指同一 IT 服务在连续两次故障之间正常运行的时间周期。MTBF 发生的频率比预期的要高，可能意味着存在更大的问题，需要采取更加主动的应对策略。
  • 正常运行时间：您的服务可用并按预期运行的时间。过低的正常运行时间可能使组织面临违反与终端用户签订的 SLA 的风险，并可能因此将业务拱手让给竞争对手。
  • 报告的事件和问题：事件经理在指定时间内报告的事件数量。报告的事件数量增加可能预示着更大的问题。

事件管理和问题管理的优势

拥有完善问题管理和事件管理计划的公司能够快速响应事件，并在竞争中脱颖而出。以下是一些优势：

  • 提高客户满意度和忠诚度：客户期望他们支付的服务和产品在需要时随时可用。越来越多的产品是软件，或者与软件相连（如智能设备）。例如，一家生产智能门铃的公司如果服务器宕机，就意味着用户无法进入自己的家或公寓。再比如，酒店预订网站出现 DNS 错误，当天就会损失收入，并可能将长期客户流失给竞争对手。事件和问题的影响可能对组织造成重大压力。那些能够更快响应事件、将停机时间降到最低的组织，将赢得客户的忠诚，一旦客户不满意，他们很可能会更换服务提供商。完善的事件管理策略通过减少停机时间以及降低客户或员工流失的可能性，为公司节省了成本，而这些损失都与直接费用相关。
  • 提高员工满意度：严重的 IT 事件对员工的影响与对客户的影响同样重大。无法访问关键业务软件的员工无法完成工作任务。当公司努力恢复系统时，他们的工作会不断积压。他们可能需要加班或在周末工作以赶上进度，这会带来压力并打击士气。
  • 满足 SLA 要求：组织会在 SLA 中详细说明客户对其产品和服务的期望。如果组织未能遵守 SLA 中的服务条款，可能面临法律诉讼风险，并有可能将客户流失给竞争对手。

