可观测性如何适应生成式 AI

2025 年 4 月 15 日

作者

可观测性是指通过分析其外部输出(主要是通过指标事件日志跟踪等遥测数据(统称为“MELT 数据”))来了解系统内部状态的能力。

可观测性超越了传统的监控解决方案,可提供对软件系统和云计算环境的关键洞察分析,帮助 IT 团队确保可用性、优化性能并检测异常。

大多数 IT 系统的行为都是确定性的,这使得根本原因分析相当简单。当应用程序出现故障时,可观测性工具可以使用 MELT 数据来关联信号并查明故障,从而确定是内存泄漏、数据库连接失败还是 API 超时。

大语言模型 (LLM) 和其他生成式人工智能 (AI) 应用使可观测性变得复杂。与传统软件不同,LLM 产生概率输出,这意味着相同的输入可能会产生不同的响应。缺乏可解释性(或者难以追踪输入如何影响输出)可能会给传统的可观测性工具带来问题。因此,在生成式 AI 系统中,故障排除、调试和性能监控要复杂得多。

“例如,可观测性可以检测 AI 响应是否包含个人身份信息 (PII),但无法阻止它的发生。”IBM 的 Instana 美洲销售主管 Drew Flowers 解释道。“模型的决策过程仍然是一个黑匣子。”

这种“黑匣子”现象凸显了 LLM 可观测性面临的关键挑战。尽管可观测性工具可以检测已发生的问题,但它们无法防止这些问题,因为它们难以实现 AI 的可解释性,即为模型做出特定决策或生成特定输出提供人类可以理解的理由。

在可解释性问题得到解决前,AI 可观测性解决方案须优先处理可有效测量与分析的内容。其中包括传统 MELT 数据与 AI 专属可观测指标的结合。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

生成式 AI 可观测性关键指标

虽然传统指标无法提供模型行为的完整可见性,但它们仍然是 AI 可观测性的重要组成部分。CPU、内存和网络性能直接影响 AI 系统功能和用户体验。它们可以帮助组织评估 AI 工作负载的运行效率以及基础设施限制是否会影响模型的性能和响应时间。

然而,全面的 AI 可观测性需要额外的指标来监控 AI 模型行为和输出的特定质量,包括:

  • 令牌使用情况
  • 模型漂移
  • 响应质量
  • 负责任的 AI 监控

令牌使用情况

令牌是语言的基本单位(通常为单词或词段),即 AI 模型可以理解的语义单元。模型处理输入或生成输出时消耗的令牌数量,直接影响基于 LLM 应用程序的运营成本与性能表现。令牌用量过高会推高运营成本并延长响应延迟。

令牌使用情况追踪核心指标包括:

  • 令牌消耗率和成本,有助于量化运营费用。

  • 令牌效率:衡量单次交互中每个令牌使用效能的指标。高效交互在保证输出质量的同时最大程度减少令牌用量。

  • 不同提示类型中的令牌使用模式,有助于识别模型的资源密集型用例。

这些指标可以帮助组织识别减少令牌消耗的优化机会,例如,通过优化提示以用更少的令牌传达更多信息。通过优化令牌利用率,组织可以保持较高的响应质量,同时有可能降低机器学习工作负载的推理成本。

模型漂移 

与传统软件不同,随着现实世界数据的演变,AI 模型可以逐渐改变其行为。这种现象被称为模型漂移,会严重影响 AI 系统的可靠性和性能。

用于跟踪模型漂移的关键指标包括:

  • 响应模式随时间的变化,以识别新出现的不一致。

  • 输出质量或相关性发生变化,可能表明模型性能下降。

  • 延迟波动资源利用率变化可能预示算力效率低下。

漂移检测机制可在模型针对特定用例的准确率下降时发出预警,便于团队在模型影响业务前实施干预。

响应质量

监控 AI 输出质量对于维护信任、可靠性和合规性至关重要。跟踪响应质量的关键指标包括:

  • 不同提示类型的幻觉频率可识别不准确输出的可能触发因素。

  • 生成响应的事实准确性,但这通常需要外部验证和人工监督。

  • 相似输入的输出一致性,以验让模型随时间推移的稳定性。

  • 响应与用户提示的相关性,可评估模型与用户意图的一致程度。

  • 延迟跟踪对于面向用户的 AI 应用来说至关重要,因为通常需要在速度和准确性之间进行权衡。监控不同提示类型的响应时间可以帮助组织查明性能瓶颈和计算效率低下的问题。

虽然跟踪这些指标可以帮助标记异常响应,但可观测性工具无法充分解释产生幻觉的原因,也无法自动确定 AI 生成内容的正确性。这些都是 AI 信任和治理的核心挑战,尚未有人完全解决。

负责任的 AI 监控

确保合乎道德的 AI 部署和法规一致性需要全面监控 AI 生成的内容。

跟踪负责任的 AI 的指标包括:

  • 响应中出现的偏见有助于确保用户交互的公平性。

  • 生成内容中的 PII 实例 ,防范敏感信息泄露。

  • 遵守 AI 道德准则以与行业标准和法规保持一致。

  • 内容适当性,维护品牌声誉和用户信任。

具有自动异常检测功能的实时可视化仪表板可以在 AI 输出偏离预期规范时向团队发出警报。这种积极主动的方法可帮助组织快速解决问题、长期监控 AI 性能,并确保负责任的 AI 规模化部署。

Mixture of Experts | 4 月 25 日,第 52 集

解码 AI:每周新闻摘要

加入我们由工程师、研究人员、产品负责人等组成的世界级专家团队,他们将突破 AI 的喧嚣,为您呈现最新的 AI 新闻和洞察分析。

OpenTelemetry 和 AI 可观测性

OpenTelemetry (oTel) 已成为收集和传输遥测数据的行业标准框架,也可以帮助实现生成式 AI 可观测性。此开源项目提供了一种供应商中立的可观测性方法,这在复杂的 AI 生态系统中尤其有价值。

对于 AI 提供商而言,OpenTelemetry 提供了一种对他们分享性能数据的方式进行标准化的方法,而无需公开专有模型的细节或源代码。对于企业而言,可确保可观测性数据在复杂的 AI 管道中持续流动,这些管道可能包括多个模型、各种依赖关系和检索增强生成 (RAG) 系统。

OpenTelemetry 对生成式 AI 可观测性的核心优势包括:

  • 供应商独立性:组织可以避免受困于特定的可观测性平台,从而随着 AI 技术的发展保持灵活性。

  • 端到端可见性:遥测数据从 AI 应用程序基础设施的所有组件一致地流动。

  • 前瞻性保障:OpenTelemetry 标准随 AI 技术演进同步适配,确保可观测性策略持续有效。

  • 生态系统整合:开放标准支持跨多供应商 AI 解决方案与混合部署模式的可观测性。

  • 元数据标准化:捕获训练时间戳、数据集来源、模型输入等关键元数据,为理解 AI 系统行为提供关键背景。
用于自动发送信息的时事通讯图像

解锁 IBM Instana Observability 的强大功能

IBM Instana Observability 可帮助实现 219% 的投资回报率,并将开发人员用于故障排除的时间缩短 90%。

速度就是一切

AI 应用程序需要大量投资,包括模型许可成本、基础设施支出和开发人员资源。如果组织无法发现性能问题、道德问题或低效实施方式,则延迟生成式 AI 可观测性的组织就会面临浪费资源的风险。

“对于 AI 可观测性来说,实现价值的时间 (TTV) 就是一切,”Flowers 说道。“如果不能快速获得洞察分析,那么,等待优化系统时就是在浪费金钱。”

减缓 AI 可观测性落地的一些常见挑战包括:

  • 复杂的自定义仪表板,需要大量设置和配置。

  • 数据量过载导致处理瓶颈。

  • 告警配置与报告生成缺乏自动化。

  • AI 平台与可观测性工具之间的整合困难。

  • 解释特定于 AI 的遥测数据的技能差距。

为了克服这些挑战,组织应该考虑支持以下功能的可观测性解决方案:

  • 快速部署

  • 自动化洞察分析

  • 集成的 AI 工作流程

快速部署

组织应优先考虑可以快速部署以获得即时洞察分析的可观测性解决方案。预配置的平台可以显著缩短设置时间并加快 TTV,团队将能够在几天而不是几周内开始监控 AI 系统。

用于快速部署 AI 可观测性的可观测性解决方案的关键功能包括:

  • 特定于 AI 的仪表板模板,只需极少的定制即可开箱即用。

  • 自动化埋点可以立即开始从常见的 AI 框架和平台收集数据。

  • 为热门 LLM 提供商和 AI 基础设施预构建连接器,无需定制整合工作。

  • 快速启动指南助团队基于常见 AI 用例的已验证实施路径快速部署。

自动获取洞察分析

人工分析海量 AI 生成数据需耗费大量时间与专业知识,常导致响应延迟、误判或问题遗漏。可观测性解决方案通过自动处理该流程,使团队聚焦核心问题而非原始遥测数据筛查。

AI 可观测性解决方案的核心自动化功能包括:

  • 使用异常检测来识别 AI 行为和性能的异常情况,无需手动配置阈值。

  • 为系统优化生成可操作的建议,而不仅仅是识别问题。

  • 将技术问题转换为与业务相关的解释。

  • 根据影响程度确定警报的优先级,避免警报疲劳并减少停机时间。

集成式人工智能工作流

不应将可观测性用作事后补救方法。将其融入整个 AI 开发生命周期,将使整个组织的团队能够共享 AI 系统性能的可见性,从而能够更快地解决问题并做出更明智的决策

对于 AI 可观测性,TTV 不仅涉及可观测性工具的实施速度。它还涉及这些工具如何快速提供切实可行的洞察分析,以优化 AI 投资并防止停机。

将 AI 可观测性集成到 AI 开发工作流程的主要方法包括:

  • 为 AI 应用程序的 CI/CD 管道构建可观测性。

  • 在预生产期间测试可观测性埋点。

  • 获取开发阶段的指标,为生产监控提供信息。

从监控到预测

随着 AI 可观测性的成熟,各组织从被动监控转向预测方法,在问题影响用户或业务结果之前对其进行预测。为了支持这一点,最先进的可观测性解决方案现在融合了各自的专用 AI 工具来分析遥测数据中的模式,并在问题变严重之前识别它们。

Flowers 指出:“可观测性领域最有价值的 AI 是预测性与因果性 AI,而非生成式 AI。”

具有预测和因果 AI 功能的可观测性工具可以:

  • 预测模型漂移何时会出现问题。

  • 根据 AI 使用模式预测资源需求。

  • 识别可能会产生幻觉的提示模式。

  • 发现微妙的偏见趋势,防患于未然。

这种从被动式可观测性向预测性可观测性的转变代表了 AI 运营的下一个前沿领域,支持对 AI 应用程序和基础设施进行更主动的管理,同时确保一致的高质量输出。

寻找合适的生成式 AI 可观测性解决方案

根据所讨论的挑战和解决方案,在为生成式 AI 应用程序寻找合适的可观测性解决方案时,请牢记以下五项基本原则:

承认固有的局限性

虽然 AI 可观测性可揭示性能模式与异常,但其无法完整解释大语言模型的内部决策逻辑。关注可量化反映系统健康与性能的指标。

超越传统指标

全面的生成式 AI 可观测性需要监控令牌使用模式、模型漂移指标以及提示与响应的关系,还有传统的基础设施性能指标,例如 CPU 利用率和内存消耗。

注重实现价值的时间

选择具备预构建仪表板与自动告警功能、支持快速部署的可观测性平台,以加速 AI 投资回报并规避高成本运营问题。

将可观测性集成到软件开发中

在软件开发生命周期早期集成可观测性埋点,以便在部署前识别问题、建立性能基准并形成提升 AI 系统质量的反馈闭环。

采用 OpenTelemetry

标准化采用开放可观测性框架,既可确保策略的前瞻性,又能实现复杂 AI 系统的端到端可视化,同时避免供应商绑定。

此外,请记住,采用 OpenTelemetry 并不意味着必须选择开源的可观测性解决方案。组织可能已经使用的许多商业平台完全支持 OTel,同时提供额外的企业级能力。

商业可观测性解决方案可以提供完全托管的可观测性,以及 AI 驱动的洞察分析和持续支持,最大限度地减少了手动设置和维护,改进了 TTV。

“若我专注于构建仪表板、设置告警、梳理上下文与数据,实际上只是在构建工具。而非优化系统。也不是支持客户计划,”Flowers 说道。“这些基础工作本质上无助于创造收入。”

借助商业可观测性解决方案,大部分设置都可以自动化或预配置。团队可以专注于优化各自的生成式 AI 模型的性能和可靠性,最大限度地提高在可观测性方面的投资回报,增大 AI 应用对现实世界的影响。

相关解决方案
全栈自动化可观察性

快速识别并修复问题根源。 实时、高保真的数据提供了动态应用程序和基础设施环境的完整可见性。

了解更多关于 Full Stack Observability 的信息
AIOps 咨询

使用生成式 AI 增强 IT 自动化和运营,将 IT 基础设施的每个方面与业务优先事项保持一致。

了解更多关于 AIOps 咨询的信息
IBM SevOne Network Performance Management

IBM SevOne Network Performance Management 是一款监视和分析软件,可提供对复杂网络的实时可见性和洞察。

监控网络性能
采取后续步骤

了解 AI 如何为 IT 运营提供所需的洞察分析,帮助推动卓越的业务绩效。

深入了解 AIOps 解决方案 预约实时演示