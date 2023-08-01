全球每天有数十亿人使用计算机或移动设备访问互联网。其中一些用户总是会尝试访问加载缓慢或容易崩溃的网站。
该网站表现不佳的原因之一是太多人试图同时访问该网站，导致服务器不堪重负。但是，这也可能表明存在更大的问题，包括 DNS 配置错误、持久的服务器故障或来自不良行为者的恶意攻击。
事件是 IT 服务中需要修复的错误或故障。许多事件是暂时性问题，只需特定的解决方法即可处理；但那些指向潜在或更复杂问题、需要更全面解决的情况，则称为问题。
这就解释了事件管理和问题管理并存的原因，它们是控制故障和错误、维持系统正常运行，并最终为客户及其他利益相关者提供优质服务的两个重要流程。
组织越来越依赖数字技术来服务客户并与合作伙伴协作。一个组织的技术堆栈可以创造新的、令人兴奋的业务增长机会。但服务中的错误也可能带来指数级的中断，并对声誉和财务状况造成损害。
事件管理是组织识别、跟踪和解决可能干扰正常业务流程的事件的方法。这通常是一个被动的过程，当事件发生时，组织会尽快提供事件响应。
随着越来越多的组织推进数字化转型及其他技术驱动的运营，鉴于依赖技术向客户提供解决方案，事件管理变得更加重要。
组织的 IT 服务日益由复杂的应用程序、软件、硬件及其他技术组成，这些组件之间往往相互依赖。单个流程出现故障可能会中断它们为客户提供的服务，给企业带来经济损失并产生声誉问题。虽然组织已采用先进的开发运维 (DevOps) 流程以尽量减少事件发生，但仍需要在事件发生时有相应的解决流程。
每天，组织都会遇到并需要管理各种轻微或严重的事件，这些事件都有可能扰乱正常的业务功能。组织需要关注多种类型的事件，包括系统中断、网络配置问题、程序错误、安全事件、数据丢失等意外中断。
随着技术堆栈日益复杂，战略性地管理事件管理流程变得尤为重要。确保组织中的每个人在遇到事件时都知道该如何应对。
事件管理系统已经从早期员工记录（可能发生在事件发生数小时后）自己观察到的事件的简单工具，发展为具有自动化和自助事件管理软件的强大、全天候运行的实践，使组织中的任何人都能向服务台报告事件。
及时解决事件并防止其再次发生非常重要。这有助于组织履行其服务水平协议 (SLA)，SLA 可能保证一定的正常运行时间或服务访问。未能遵守 SLA 可能会使组织面临法律或声誉风险。
事件经理是事件管理流程中的关键利益相关者。事件经理负责管理对事件的响应，并向关键利益相关者通报进展情况。这是一个复杂的 IT 服务岗位，员工需要在压力环境下持续工作，同时与业务中具有不同角色和优先级的利益相关者进行沟通。
问题管理旨在通过解决根本原因来防止事件再次发生。这通常是事件管理后的自然流程，特别是当同一事件多次发生且应被诊断为问题或已知错误时。
如果只有事件管理而没有问题管理，则只能处理表面症状，而无法解决潜在原因（即根本原因），这可能导致类似事件在未来再次发生。有效的问题管理能够识别问题的永久解决方案，从而减少组织未来需要管理的事件数量。
问题管理团队可以根据所观察到的事件及历史数据，采取被动（反应性）或主动（前瞻性）的问题管理方式。
在观察事件与问题时，需要考虑一个主要区别：短期目标与长期目标。
事件管理更关注对单个问题实例的干预，其目标是在不引发其他问题的情况下，使服务尽快恢复在线。它是一种短期工具，用于保持服务在当下正常运行。
问题管理则更侧重于长期应对，将任何潜在根本原因作为更大潜在问题（即问题）的一部分进行处理。
各组织都要努力维系其 IT 基础设施的良好状态，从而满足终端用户的需求，这需要通过运用 IT 服务管理 (ITSM) 来对服务的实施、交付与管理进行治理。ITSM 旨在最大限度地减少停机时间，并确保每个资源按预期方式为每个最终用户工作。
无论组织在 ITSM 上投入多少努力，问题仍然会出现。组织能够在潜在问题变得更严重之前识别并解决这些意外问题，这本身就是一个巨大的竞争优势。一次 IT 服务中断就被视为一次事件。
例如，过多的人同时尝试访问某台服务器可能导致其崩溃，从而产生需要组织修复的事件。事件管理涉及尽快且谨慎地解决影响用户的特定问题。在这种情况下，事件经理可以联系组织内部员工，请他们退出相关程序，同时组织在后台解决问题。
事件管理和问题管理都受信息技术基础架构库 (ITIL) 的约束，ITIL 是一种被广泛采用的指导框架，用于实施和记录这两种管理方法。ITIL 为对事件发生时的被动响应提供了结构化的方法。撰写本文时的最新版本为 ITIL 4。
它提供了一套管理 IT 资产、提升 IT 支持和服务水平的最佳实践库。ITIL 流程将 IT 服务与业务运营连接起来，使其能够随着业务目标的变化而调整。
ITIL 的一个关键组成部分是配置管理数据库 (CMDB)，用于跟踪和管理交付 IT 服务所需的所有软件、IT 组件、文档、用户和硬件之间的相互依赖关系。ITIL 还明确区分了事件管理和问题管理。
一台不断崩溃的服务器可能反映出更大、更系统性的问题，例如硬件故障或配置错误。如果 IT 服务团队未能查明根本原因并针对底层问题制定解决方案，服务器崩溃可能会持续发生。在这种情况下，可能需要升级到问题管理，该管理关注于解决重复发生的事件。
问题管理提供问题的根本原因分析和建议的解决方案，并确定防止问题再次发生所需的资源。
有效的事件管理和问题管理包含一个结构化的工作流程，需要实时监控、自动化，以及专门人员协同工作，以尽快解决问题，从而避免不必要的停机或业务中断。这两种管理方式都包含若干重复出现的关键组成部分，组织应当予以了解。
组织通常根据几个关键绩效指标 (KPI) 来评估事件经理和事件管理流程：
拥有完善问题管理和事件管理计划的公司能够快速响应事件，并在竞争中脱颖而出。以下是一些优势：
IBM® Turbonomic 可与现有的 IT 运营解决方案集成，打通孤立的团队和数据，并将手动、被动的流程转变为持续的应用资源优化，同时安全地将云消耗降低 33%。
IBM® Cloud Pak for AIOps 是事件管理的自托管选项，可实现主动事件管理和自动修复，将面向客户的中断减少最多 50%，平均恢复时间 (MTTR) 缩短最多 50%。
订阅 Think 时事通讯
自动扩展现有 IT 基础架构，以更低的成本实现更高的性能。
了解 AI 如何为 IT 运营提供所需的洞察分析，帮助推动卓越的业务绩效。
不仅能实现简单任务的自动化，还能凭借内置的采用和扩展机制，处理备受关注且面向客户的创收流程。