什么是事件管理?

事件管理是一项流程,由 IT 运营和开发运维团队用来应对和处理可能影响服务质量或服务运营的计划外事件。事件管理旨在找出和纠正问题,同时维持正常服务并最大限度地减少对业务的影。

事件可能会给组织带来许多问题,包括临时停机和数据丢失。如果善加利用,事件管理可以提供一种高效的方式,在几乎不造成干扰的情况下解决各种事件,让组织为今后的事件做好更充分的准备。

事件管理植根于 IT 服务台,长期以来一直是 IT 运营 (ITOps) 与最终用户之间的主要接口。随着技术的进步和日益复杂,组织查看事件识别和事件响应的方式也在不断改变。这种做法已远远超出了帮助用户解决问题的范畴,成为维持应用程序持续正常运行时间和加速持续改进工作的流程。

IT 事件管理

公司 IT 运营中的事件管理(通常称为 ITIL 事件管理)可解决可能影响服务和业务运营的各种问题,包括笔记本电脑崩溃、打印机错误、Wi-Fi 连接问题和网络停机等。

事件管理属于 ITSM(IT 服务管理)框架,是 ITSM 服务模型的一个方面。IT 事件管理不再专注于创建系统和技术,而是更加以用户为中心。其目的是保持 IT 基础设施正常运行,无论是应用程序还是传感器或台式计算机等端点。

事件与服务请求

在 ITSM 中,IT 部门承担各种角色,包括解决出现的问题。这些问题的严重程度是事件与服务请求的区别所在。

简而言之,服务请求是指用户要求提供某些东西,例如建议或设备。服务可能包括请求密码重置方面的帮助或为台式计算机获取更多内存。

另一方面,事件更紧急,表明出现需要解决的潜在错误。

事件与问题

事件是导致服务中断的单一、非计划事件,而问题是服务中断的根本原因,可能是单一事件,也可能是一系列连锁事件。

差异体现在修复措施以及响应者解决问题的方式上。事件响应是被动的。事件管理团队会收到警报并处理事件。但是,在解决问题时,IT 团队会确定根本原因,然后进行修复。问题管理采取主动的方式,观察各种类型的事件和出现的模式,以了解如何预防未来发生的事件。

详细了解事件管理与问题管理之间差异

面向开发运维的事件管理

开发运维团队专注于寻找更有效的方法来构建、测试和部署软件,这在一定程度上需要快速处理事件。与 ITIL 事件管理一样,开发运维事件管理的目标是在不中断运营的情况下解决问题。例如,开发运维团队可能会监控较差的平均故障间隔时间 (MTBF) 指标,这可能表明存在需要调查的根本问题。

由于开发运维植根于持续改进,因此人们非常注重事后分析和无指责的透明文化。目标是优化整体系统性能,简化并加速事件解决流程,以及防止今后发生同类事件。

与如今的 IT 团队一样,开发运维团队经常使用自动配置、事件优先级排序和支持人工智能 (AI) 的根本原因分析工具来确保正常运行时间,首先处理最紧迫的事件,并学习如何更快地解决今后的问题。(或者从一开始就采取行动,防止发生此类问题。)

事件管理流程

组织通常会创建一个事件管理流程,以记录响应团队应采取的事件顺序。所有利益相关者都应知道哪些员工负责处理事件、解决问题所需的时间、何时将事件升级到下一个级别,以及如何记录事件及其解决方式。

定义过程后,事件管理的工作流程通常如下:

  1. 识别事件:无论是最终用户向服务台提交工单,还是自动警报系统通知团队出现问题,响应团队都需要一种方法来接收系统内问题的报告。

  2. 记录事件并进行分类:这包括将事件报告输入事件日志记录系统,并指定优先级,包括哪个级别的工作人员应处理该事件。例如,1 级事件通常由经验较少的新员工处理,而 2 级和 3 级事件的解决难度越来越大,需要由经验最丰富的响应人员来处理。

  3. 控制问题:如果是安全事件,无论是 DDoS 攻击还是数据泄露,响应团队都必须迅速采取行动来控制问题。在所有情况下,团队必须确保事件不会传播并进一步影响系统。

  4. 诊断事件:这就是排除故障的切入点。响应团队可能会使用知识库或 ChatOps 工具来针对可能的原因提供建议并节省时间。

  5. 解决事件:一旦确定原因,团队就会开始着手处理事件,无论是配置额外的内存还是解决网络中断问题。

  6. 关闭并审查事件:事后审查是在当今数字环境中提高可靠性和可用性的一个重要方面。这些数据不仅可以增加组织的机构知识,还可以用于机器学习和支持 AI 的工具,以帮助更快地识别事件,甚至在事件可能发生时创建通知。彻底的审查有助于组织实施更有效的事件修复程序。
为什么使用事件管理?

所有组织都需要修复问题和解决事件。这就是他们维持企业运转的方式。但拥有有效的事件解决工具和团队也有明显的优势:可以快速做出反应,而不会对业务造成重大干扰。这些优势包括:

更快解决问题

事件管理工具、自动化和 AIOps 可帮助团队快速找出问题并进行修复。反过来,这又使团队能够专注于核心业务运营,而不是不断的救火,从而提高了效率。

提升用户体验

如果第一次就正确(并且以更快的速度)解决事件,则可以提高最终用户的服务质量。首先要使用一个清晰且易于使用的服务中断报告系统,并在事件解决后继续保持良好的沟通。

提高运行效率

事件响应创建了一个系统,在该系统中,问题有明确的解决方法,并有助于随着时间的推移建立内部经验和知识。这些知识(由员工掌握或者集成到由 AI 驱动的自动化系统中)有助于记录重要的性能指标,例如平均解决时间 (MTTR)。这些指标有助于确保组织保持高水平的服务,并提供卓越的客户体验。

更深入的洞察分析

通过建立有效的事件管理系统,团队可以更快地解决重大事件,并提取洞察分析以进行根本原因分析。当团队成员记录过去事件的解决方式时,首先会创建一个剧本,其中包含用于解决今后类似事件的模板。

SLA 合规性

服务级别协议 (SLA) 定义了公司需要向客户提供的服务级别。因此,事件响应和管理在符合 SLA 中定义的指标和关键绩效指标 (KPI) 方面发挥着关键作用。

事件管理工具和自动化

IT 运营日益复杂,部分原因是组织在日常业务运营中依赖的许多应用程序,这使得事件响应工具和自动化比以往任何时候都更加重要。

一些最常见的事件管理工具包括:

  • 监控工具:这些工具可识别中断、触发警报并诊断事故。监控工具还可以让开发运维团队腾出时间来更好地管理软件生命周期,从而降低成本。

  • 服务台:这是用户提交工单、与服务台团队聊天、监控工单进度以及执行一些自助服务任务的地方。通常,服务台通过管理系统运行,该系统支持关键事件管理任务,例如优先排序和分类。

  • AIOps 平台:使用日志和历史数据,AIOps 可以为更明智的决策、更智能的资源分配和更快的事件响应提供背景信息。

  • VDocumentation:这些脚本可以自动记录环境的变化,从而便于记录事件以进行事后分析。例如,团队可以将 PowerCLI 脚本设置为按月度计划运行,从而记录事件以供进行更深入的分析。
相关解决方案
IBM® AIOps 解决方案

了解 AI 如何为 IT 运营提供所需的洞察分析,帮助推动卓越的业务绩效。

深入了解 IBM AIOps 解决方案 注册以获取 IT 自动化指南

IBM Cloud Pak for AIOps

智能运维 (AIOps) 平台可提供对不同环境中性能数据与依赖性的可视化管理,借助该平台,企业可在不断变化的环境中加速创新、降低运营成本并实现 IT 运营 (ITOps) 转型。

深入了解 IBM Cloud Pak for AIOPs 体验自助式导览

IBM Cloud Monitoring

IBM® Cloud Monitoring 服务是为管理员、开发运维团队和开发人员提供的完全托管的监控服务。期待深入的容器可视化和全面的指标。为开发运维团队腾出时间并更好地管理软件生命周期,从而降低成本。

深入了解 IBM Cloud Monitoring 立即免费试用
IBM Concert

利用生成式 AI 驱动的洞察分析简化并优化您的应用管理和技术运营。

深入了解 Concert

采取后续步骤

IBM 的 AIOps 和 IT 自动化解决方案可帮助组织确保应用程序性能并降低 IT 成本。

深入了解 IBM AIOps 解决方案 深入了解 IBM Cloud Pak for AIOPs