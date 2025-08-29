站点可靠性工程 (SRE) 和 DevOps 开发运维团队精疲力尽。规模日益庞大的 IT 资产、工具过载和工作的待命性质都在一个总体问题中发挥着作用，即警报疲劳。
警报疲劳（有时称为报警疲劳）是指“由于过多的警报而导致的精神和操作疲惫状态”。这会削弱 DevOps 开发运维、安全运营中心 (SOC)、站点可靠性工程 (SRE) 和其他负责 IT 性能和安全的团队的响应能力和效能，是一个普遍存在的重大问题。
Vectra 的《2023 年威胁检测状态》报告（基于对拥有 1,000 名或以上员工的公司的 2,000 名 IT 安全分析师的调查）发现，SOC 团队平均每天处理 4,484 个警报。其中，67% 由于大量误报和警报疲劳而被忽视。报告还发现，71% 的分析师认为，“由于对威胁检测能力缺乏可见性和信心”，他们的组织可能已经“在不知情的情况下受到损害”。
虽然 Vectra 报告重点关注安全性，但负责监控应用程序和基础设施性能的团队也面临着类似的过重负担。例如，一个错误配置可能会导致成百上千个性能警报，这场“警报风暴”可能会分散 IT 团队的注意力或使其敏感度降低，并导致对严重警报和实际问题的响应延迟。那些真正出现的问题可能代价高昂。
是什么导致了这种倦怠？智能体式 AI 能否成为可扩展解决方案的一部分？
其中有几个罪魁祸首，遥测数据量过大经常被认为是其中之一，但对数据量的特别关注掩盖了一个核心问题 - 数据质量和背景。
当团队在处理提供给数十种不同的威胁情报或性能信息源的大量低质量、缺乏上下文的数据时，他们必然会遇到麻烦。在这种环境下，误报和冗余警报会大量出现，低优先级的噪音会分散对真正威胁和性能问题的注意力。这些”虚假警报“会让 IT、DevOps 开发运维和安全团队疲于奔命。
简单地将如此大量的遥测流输入到大语言模型 (LLM) 中也不是一个可行的解决方案。首先，这是对计算资源的浪费。其次，这也非常容易导致幻觉。
一个实用的解决方案始于开发一个工作流，综合原始数据，并在集中式平台内聚合这些更高质量、内容丰富的数据。它可用于企业范围的可观测性和本地 AI 模型的训练。
企业经常使用许多性能和安全监控解决方案，大型企业平均拥有 76 种安全工具。这些工具可以是特定于团队或产品的，也可以是特定于某些 IT 环境的（例如，本地部署解决方案与云解决方案）。
这些工具中的每一个可能负责监控数十或数百个应用程序、应用程序编程接口 (API) 或服务器，每个工具都提供自己的数据管道。有了这些孤岛，单独的工具可以生成源自同一潜在问题的多个警报。缺乏整合限制了可见性，从而妨碍了相关性和根本原因分析。SRE 在识别冗余之前会浪费时间追查这些警报中的每一个。
是的...但需要有针对性战略。
MIT 最近的一份报告引发了一场风暴，报告称“95% 的组织在生成式 AI 方面的投资回报为零”。
撇开煽动性的统计数据以及报告引发的大量意见不谈，该报告强调了一个有价值的主题：许多 AI 项目因为“工作流程脆弱、缺乏情境学习、与日常运营不匹配”而失败。正如 IBM 高级研究科学家 Marina Danilevsky 在最近的混合专家播客中指出的那样，最成功的部署是“重点突出、范围明确，并处理适当的痛点”。
MIT 的报告强调了这样一个事实，即将 AI 视为一种万应灵丹或可以随意硬塞进流程中的公司不太可能看到投资回报。能够战略性地将 AI 工具应用到其工作流中以解决特定问题，并随着时间的推移强化这些工具的组织更容易获得成功。
可观测性或安全解决方案可以将自适应机器学习、情境优先级划分、可解释的人工智能、人工智能驱动的自动化和实时情报整合到综合战略中，使团队创建更稳健的工作流程，帮助关联性能或安全警报、确定其优先级并进行补救。
AI 智能体可以通过考虑资产重要性、性能保证、风险状况和历史趋势等因素来改进依赖静态规则和预设阈值的传统系统。
例如，考虑事件后检测和修复工作流，以及 AI 智能体如何为 SRE 团队提供协助。
通知到达警报系统，指出 Kubernetes 集群中某个节点的 CPU 使用率过高。在传统系统中，SRE 可能需要梳理 MELT 数据（指标、事件、日志、跟踪）和依赖关系，以确定根本原因。
在这个假设的工作流中，智能体使用可观测性工具的知识图谱和拓扑感知关联来仅提取与警报相关的遥测数据（例如，该节点上运行的服务的日志、最近的部署、来自 Kubernetes API 服务器的遥测数据或将流量路由到节点或集群的负载均衡器）。利用这些附加信息，智能体可以丰富原始警报，并为根据企业性能数据和基准训练的本地 AI 模型提供富含上下文的遥测信息。
智能体会排除不相关的信息，例如恰好在同一集群上运行的不相关服务的日志。在收集上下文的过程中，智能体还可以识别相关信号，并将可能源于同一根本原因的警报联系起来，将这些警报归类为一个事件进行调查。
利用这些信息，模型可以提出假设。智能体还可以请求更多信息（或许检查容器配置或使用量高峰周围的时间序列数据）来检查并完善模型假设，从而在提出可能的根本原因之前添加更多背景信息。
可解释的 AI 和智能体的使用是解决信任问题、了解人工智能“黑匣”内部或内部工作原理的关键部分。
可解释的人工智能 (XAI)“是一组流程和方法，它们可让人类理解并信任机器学习算法所产生的结果和输出”。
除了可能的根本原因外，智能体还可以通过其思维链（其推理过程），以及证明其如何得出所提出的可能根本原因的佐证，提供可解释性。这种可解释性和佐证：
- 使人类能够看到为什么某些内容以某种方式被推荐或过滤
- 提供审查智能体的分析和建议所需的透明度，并判断它是否值得信任
智能体建议的 SRE 分析和评估可以反馈到模型中，以进一步提高准确性。
有几种解决途径。团队可以决定为智能体提供多少自主权，或根据事件类型、严重性、环境或其他因素定义此自主权。后续步骤包括：
- 验证：智能体可以生成步骤，帮助 SRE 和 DevOps 开发运维团队验证智能体识别的根本原因是否正确。这有助于将人工输入保留在系统中。
- 运行手册：经过验证后，智能体可以生成修复步骤的分步指南（运行手册）。这是一个脚本，团队成员可以按照这个脚本解决问题。
- 自动化脚本：智能体还可以采取自己建议的操作并构建工作流程（自动化脚本）。它可能会将这些运行手册步骤转化为 Ansible 运行手册片段，并为这些步骤提供命令语法和参数。
- 文档：智能体可以自动生成文档，例如事件后审查，总结事件、采取的行动以及执行原因。智能体还可以生成进行中的摘要，帮助刚接触任务的人快速了解正在发生的事情。该文档可用于强化学习。
这些步骤都有助于优化事件响应并减少平均修复时间。有关类似假设的视频演练，请单击此处。
AI 框架可用于改善警报疲劳的各个方面，例如在 IT 环境中对可操作的警报进行优先级排序。
在 2023 年一篇题为《快速上报：用于警报优先级划分的 ML 框架》的论文中，Gelman等人介绍了一种机器学习框架，旨在通过警报级别和事件级别可操作性评分系统，以对现有工作流程进行最小程度更改的方式来减少警报疲劳。基于真实世界的数据，TEQ 模型将可操作事件的响应时间缩短了 22.9%，并消除了 54% 的误报（检测率为 95.1%）。它还将单一事件中的警报数量减少了 14%。1
在《推进自主事件响应：利用 LLM 和网络威胁情报》一文中，Tellache 等人展示了基于检索增强生成 (RAG) 的框架如何通过整合来自网络威胁情报源的数据来改进事件解决能力。2使用智能体构建 RAG 方法的类似解决方案可用于为性能数据添加更多上下文，例如，从企业服务水平协议 (SLA) 中获取商定的性能阈值，以帮助决定需要优先处理哪些应用程序警报。
一个 IT 团队可能会使用多个智能体来改善警报流程，每个智能体都旨在解决警报疲劳的不同方面，例如事件分类智能体可以提取严重威胁以供立即关注，而路由智能体会接收经优先级排序后的警报并将其与文档和分析一起路由到相应的团队。
通过将数据路由到集中式中心，企业可以帮助消除盲点并让智能体更全面地了解其所处的环境。AI 在处理高质量、可信的数据时最有效，而集中式平台可以帮助确保数据治理标准的统一应用。随着组织扩展 AI 解决方案，该平台在维护跨业务部门的数据管理和智能体部署的一致性方面发挥着至关重要的作用。
一个组织能否仅仅“使用 AI”就消除大量警报？不能。训练有素的模型和智能体能否帮助综合和分析遥测数据，并分类警报，让 IT 团队得到休息？我们有更多的理由对此感到乐观。
成功使用 AI 和智能体来缓解警报疲劳取决于几个关键因素：针对具体用例、战略实施以及 AI 在动态环境中学习和改进的能力。企业领导者必须了解需要什么，愿意进行文化变革并分配必要的资源以使系统正常运行，并找到可以根据企业需求定制工具的供应商。
