可观测性是指通过分析其外部输出(主要是通过指标、事件、日志和跟踪等遥测数据(统称为“MELT 数据”))来了解系统内部状态的能力。
可观测性超越了传统的监控解决方案,可提供对软件系统和云计算环境的关键洞察分析,帮助 IT 团队确保可用性、优化性能并检测异常。
大多数 IT 系统的行为都是确定性的,这使得根本原因分析相当简单。当应用程序出现故障时,可观测性工具可以使用 MELT 数据来关联信号并查明故障,从而确定是内存泄漏、数据库连接失败还是 API 超时。
但大语言模型 (LLM) 和其他生成式人工智能 (AI) 应用使可观测性变得复杂。与传统软件不同,LLM 产生概率输出,这意味着相同的输入可能会产生不同的响应。缺乏可解释性(或者难以追踪输入如何影响输出)可能会给传统的可观测性工具带来问题。因此,在生成式 AI 系统中,故障排除、调试和性能监控要复杂得多。
“例如,可观测性可以检测 AI 响应是否包含个人身份信息 (PII),但无法阻止它的发生。”IBM 的 Instana 美洲销售主管 Drew Flowers 解释道。“模型的决策过程仍然是一个黑匣子。”
这种“黑匣子”现象凸显了 LLM 可观测性面临的关键挑战。尽管可观测性工具可以检测已发生的问题,但它们无法防止这些问题,因为它们难以实现 AI 的可解释性,即为模型做出特定决策或生成特定输出提供人类可以理解的理由。
在可解释性问题得到解决前,AI 可观测性解决方案须优先处理可有效测量与分析的内容。其中包括传统 MELT 数据与 AI 专属可观测指标的结合。
虽然传统指标无法提供模型行为的完整可见性,但它们仍然是 AI 可观测性的重要组成部分。CPU、内存和网络性能直接影响 AI 系统功能和用户体验。它们可以帮助组织评估 AI 工作负载的运行效率以及基础设施限制是否会影响模型的性能和响应时间。
然而,全面的 AI 可观测性需要额外的指标来监控 AI 模型行为和输出的特定质量,包括:
令牌是语言的基本单位(通常为单词或词段),即 AI 模型可以理解的语义单元。模型处理输入或生成输出时消耗的令牌数量,直接影响基于 LLM 应用程序的运营成本与性能表现。令牌用量过高会推高运营成本并延长响应延迟。
令牌使用情况追踪核心指标包括:
这些指标可以帮助组织识别减少令牌消耗的优化机会,例如,通过优化提示以用更少的令牌传达更多信息。通过优化令牌利用率,组织可以保持较高的响应质量,同时有可能降低机器学习工作负载的推理成本。
监控 AI 输出质量对于维护信任、可靠性和合规性至关重要。跟踪响应质量的关键指标包括:
虽然跟踪这些指标可以帮助标记异常响应,但可观测性工具无法充分解释产生幻觉的原因,也无法自动确定 AI 生成内容的正确性。这些都是 AI 信任和治理的核心挑战,尚未有人完全解决。
OpenTelemetry (oTel) 已成为收集和传输遥测数据的行业标准框架,也可以帮助实现生成式 AI 可观测性。此开源项目提供了一种供应商中立的可观测性方法,这在复杂的 AI 生态系统中尤其有价值。
对于 AI 提供商而言,OpenTelemetry 提供了一种对他们分享性能数据的方式进行标准化的方法,而无需公开专有模型的细节或源代码。对于企业而言,可确保可观测性数据在复杂的 AI 管道中持续流动,这些管道可能包括多个模型、各种依赖关系和检索增强生成 (RAG) 系统。
OpenTelemetry 对生成式 AI 可观测性的核心优势包括:
AI 应用程序需要大量投资,包括模型许可成本、基础设施支出和开发人员资源。如果组织无法发现性能问题、道德问题或低效实施方式,则延迟生成式 AI 可观测性的组织就会面临浪费资源的风险。
“对于 AI 可观测性来说,实现价值的时间 (TTV) 就是一切,”Flowers 说道。“如果不能快速获得洞察分析,那么,等待优化系统时就是在浪费金钱。”
减缓 AI 可观测性落地的一些常见挑战包括:
为了克服这些挑战,组织应该考虑支持以下功能的可观测性解决方案:
组织应优先考虑可以快速部署以获得即时洞察分析的可观测性解决方案。预配置的平台可以显著缩短设置时间并加快 TTV,团队将能够在几天而不是几周内开始监控 AI 系统。
用于快速部署 AI 可观测性的可观测性解决方案的关键功能包括:
人工分析海量 AI 生成数据需耗费大量时间与专业知识,常导致响应延迟、误判或问题遗漏。可观测性解决方案通过自动处理该流程,使团队聚焦核心问题而非原始遥测数据筛查。
AI 可观测性解决方案的核心自动化功能包括:
随着 AI 可观测性的成熟,各组织从被动监控转向预测方法,在问题影响用户或业务结果之前对其进行预测。为了支持这一点,最先进的可观测性解决方案现在融合了各自的专用 AI 工具来分析遥测数据中的模式,并在问题变严重之前识别它们。
Flowers 指出:“可观测性领域最有价值的 AI 是预测性与因果性 AI,而非生成式 AI。”
具有预测和因果 AI 功能的可观测性工具可以:
这种从被动式可观测性向预测性可观测性的转变代表了 AI 运营的下一个前沿领域,支持对 AI 应用程序和基础设施进行更主动的管理,同时确保一致的高质量输出。
根据所讨论的挑战和解决方案,在为生成式 AI 应用程序寻找合适的可观测性解决方案时,请牢记以下五项基本原则:
虽然 AI 可观测性可揭示性能模式与异常,但其无法完整解释大语言模型的内部决策逻辑。关注可量化反映系统健康与性能的指标。
全面的生成式 AI 可观测性需要监控令牌使用模式、模型漂移指标以及提示与响应的关系,还有传统的基础设施性能指标,例如 CPU 利用率和内存消耗。
选择具备预构建仪表板与自动告警功能、支持快速部署的可观测性平台,以加速 AI 投资回报并规避高成本运营问题。
在软件开发生命周期早期集成可观测性埋点,以便在部署前识别问题、建立性能基准并形成提升 AI 系统质量的反馈闭环。
标准化采用开放可观测性框架,既可确保策略的前瞻性,又能实现复杂 AI 系统的端到端可视化,同时避免供应商绑定。
此外,请记住,采用 OpenTelemetry 并不意味着必须选择开源的可观测性解决方案。组织可能已经使用的许多商业平台完全支持 OTel,同时提供额外的企业级能力。
商业可观测性解决方案可以提供完全托管的可观测性,以及 AI 驱动的洞察分析和持续支持,最大限度地减少了手动设置和维护,改进了 TTV。
“若我专注于构建仪表板、设置告警、梳理上下文与数据,实际上只是在构建工具。而非优化系统。也不是支持客户计划,”Flowers 说道。“这些基础工作本质上无助于创造收入。”
借助商业可观测性解决方案,大部分设置都可以自动化或预配置。团队可以专注于优化各自的生成式 AI 模型的性能和可靠性,最大限度地提高在可观测性方面的投资回报,增大 AI 应用对现实世界的影响。
快速识别并修复问题根源。 实时、高保真的数据提供了动态应用程序和基础设施环境的完整可见性。
使用生成式 AI 增强 IT 自动化和运营,将 IT 基础设施的每个方面与业务优先事项保持一致。
IBM SevOne Network Performance Management 是一款监视和分析软件,可提供对复杂网络的实时可见性和洞察。