什么是 LLM 可观测性?

作者

Joshua Noble

Data Scientist

Shalini Harkar

Lead AI Advocate

LLM 可观测性定义

LLM 可观测性是指从 LLM 模型或应用程序收集有关其行为、性能和输出特征的实时数据的过程。由于 LLM 很复杂,我们可以根据它们输出的模式进行观察。1

良好的可观测性解决方案包括从 LLM 应用程序、应用程序编程接口 (API) 和工作流收集相关指标、跟踪和日志,从而支持开发人员高效、主动地规模化监控、调试和优化应用程序。

大型语言模型 (LLM)生成式 AI 平台(例如 IBM® watsonx.ai)以及越来越多的开源变体在各个行业中逐渐占有一席之地。由于这种增长,在采用模型和应用程序后,保持其可靠性、安全性和效率变得比以往任何时候都更加重要。因此,在这一领域,LLM 可观测性就变得至关重要。

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。您会在每份时事通讯中找到一个取消订阅链接。您可以在此管理您的订阅或取消订阅。更多相关信息,请参阅我们的《IBM 隐私声明》。

为什么 LLM 可观测性很重要?

  • 监控 LLM 的质量和输出:
    对 LLM 产生的输出进行持续评估可分为对用户有用且适用的几个质量维度。这些维度包括正确性、相关性、连贯性以及与既定评估指标的事实一致性。定期检查这些性能维度有助于防止滞后或问题,这些滞后或问题可能会导致用户对程序失去信心并发现难以有效使用 LLM。

  • 快速进行根本原因分析和故障排除:
    当 LLM 应用程序发生重大故障或意外行为时,可观测性工具可以提供有用的洞察分析,以便快速确定当前问题的根本原因。这种精细化的遥测技术通常可以让利益相关者在许多领域更有把握地找出问题所在。例如,训练数据损坏、微调设计不良、外部 API 调用失败或者第三方提供者后端故障。

  • 优化应用程序、用户参与度和系统效率:
    LLM 可观测性允许通过持续监控整个 LLM 堆栈来提高应用程序性能和用户参与度。跟踪延迟、使用的令牌、响应时间和吞吐量等关键指标,以确定瓶颈和限制因素,从而进一步优化性能和降低成本,尤其是在 RAG 工作流中。对交互和用户反馈进行实时跟踪有助于提供洞察分析,了解何时生成低质量输出,在出现问题时予以解决并发现根本原因。这种对用户行为的持续适应使 LLM 能够生成自定义响应,优化工作流并进行扩展以满足需求,而不会降低性能。2,3
IBM DevOps

什么是 DevOps?

Andrea Crawford 阐述了什么是开发运维、开发运维的价值,以及开发运维实践和工具如何帮助您完成从应用程序构思到生产的整个软件交付管道。本课程由 IBM 资深思想领袖主导,旨在帮助企业领导者获得所需的知识,以优先考虑能够推动增长的 AI 投资。

关键可观测性指标

LLM 可观测性指标可以分为三个主要维度。

只有我们跟踪可观测性指标来跟踪系统性能、资源消耗和模型行为时,才能实现大型语言模型 (LLM) 的全面可观测性。4

系统性能指标:

  • 延迟:从输入到输出的持续时间,代表模型的响应时间。

  • 吞吐量:模型在特定时长内处理的请求数量;衡量模型负载的指标。

  • 错误率:失败或无效响应的比率;反映模型可靠性。

资源利用率指标:

  • CPU/GPU 使用率:衡量推理过程中消耗的资源,与成本和效率相关。

  • 内存使用情况:处理过程中消耗的 RAM 或存储。虽然这种用法对性能和可扩展性很重要,但它对整个任务而言是次要的。

  • 令牌使用情况:跟踪已处理的令牌。当模型中的令牌与成本相关联时,这一步骤尤为重要。

  • 延迟比率:吞吐量描述系统的工作负载与其响应能力;在这两者之间找到良好的平衡对提高效率至关重要。

模型行为指标:

  • 正确性:监控模型做出正确响应的频率。

  • 事实正确性:评估模型是否提供“正确”的事实输出。

  • 用户参与度:量化交互持续时间、反馈和满意度以评估体验。

  • 响应质量:衡量输出的连贯性、清晰度和相关性。5

手动自主可观测性与基于代理的自主可观测性

由于 LLM 数据量大、系统架构复杂且需要实时跟踪,因此手动监控 LLM 非常困难。大量的日志和指标使得快速发现问题变得非常困难。此外,手动观察占用大量资源,容易出错,并且无法随着系统的扩展而有效扩展,从而导致问题检测速度变慢和故障排除效率低下。

这些局限性表明,在 LLM 中手动维护可观测性十分困难,凸显了企业环境对更复杂、更自主解决方案的迫切需求。6

基于代理的自主故障排除

自主故障排除是指通过使用采用基于代理的系统的先进监控方法,无需人工干预即可独立识别、诊断和解决问题的系统。代理监控性能,识别异常并进行实时诊断,确保系统可在无人值守且无需任何人工干预的情况下运行。7

基于代理的自主故障排除有助于:

  • 实时检测:无需手动输入即可立即识别问题。

  • 根本原因分析:借助 AI 驱动的洞察分析,查明问题根源。

  • 自动解决:应用预设的解决方案,随时可用来解决问题。

  • 持续监控:适应数据并从数据中学习,以随着时间的推移改进故障排除。

  • 可扩展性:通过显著减少手动工作,高效处理复杂的大规模的环境。

  • 预测性维护:在潜在问题出现之前进行预测,这在最佳性能周期中非常有价值。

  • 与可观测性整合:与其他可观测性工具协同工作,更快地解决问题。

企业解决方案

IBM® Instana 专为规模化而设计,可为当今复杂的企业可观测性提供实时可见性和自主故障排除能力。

Instana 通过三步流程(检测、AI 驱动的诊断和自主修复)提供端到端自主故障排除,帮助确保在问题影响性能之前发现并修复问题。8

如需了解更多关于此功能的信息,请注册 Instana 智能体式 AI 等候名单

总结

扩展生成式 AI 需要利用智能仪器进行自主故障排除、实时 LLM 监控和有效编排。数据集、模型输出和 LLM 响应的优化,以及通过优化管道和实时 LLM 测试实现的强大模型性能维护,对于聊天机器人等各种用例的流畅用户体验至关重要。开源 LLM 和机器学习工作流的使用不断增长,并利用嵌入技术,通过使用各种工具监控 LLM 调用。OpenTelemetry 等工具以及将复杂的 LLM 可观测性工具集成到集成式可观测性平台和仪表盘中的其他工具,对于构建稳定的可扩展 AI 系统、提供最佳模型性能至关重要。910

相关解决方案
IBM DevOps Accelerate

实现本地、云端或大型机上任何应用程序的自动化软件交付

深入了解 DevOps Accelerate
DevOps 解决方案

使用开发运维软件和工具,在多种设备和环境中构建、部署和管理云原生应用程序。

深入了解开发运维解决方案
云咨询服务

利用 IBM 的云咨询服务发掘新功能并提升业务敏捷性。了解如何通过混合云战略和专家合作共同制定解决方案、加快数字化转型并优化性能。

云服务
采取后续步骤

通过持续集成和交付,释放 DevOps 的潜力,来构建、测试和部署安全的云原生应用程序。

探索 DevOps 解决方案 探索 DevOps 的实际应用
脚注:

1 Kumar, S. 与 Singh, R. (2024)。“Don’t blame the user: Toward means for usable and practical authentication”。Communications of the ACM,67(4),78–85。https://dl.acm.org/doi/10.1145/3706599.3719914

2 Datadog。(n.d.)。What Is LLM Observability & Monitoring?。2025 年 5 月 19 日检索自 https://www.datadoghq.com/knowledge center/llm-observability/

3 LLM-observability,GitHub。2025 年 5 月 19 日检索自 https://github.com/DataDog/llm-observability,Datadog。(n.d.)。

4 Dong, L., Lu, Q., & Zhu, L. (2024). AgentOps: Enabling Observability of LLM Agents. arXiv. https://arxiv.org/abs/2411.05285.

5 LangChain。(n.d.)。Datadog LLM Observability - LangChain, Langsmith .js。2025 年 5 月 19 日检索自 https://js.langchain.com/docs/integrations/callbacks/datadog_tracer/

6 Optimizing LLM Accuracy,2025 年 5 月 19 日检索自 https://platform.openai.com/docs/guides/optimizing-llm-accuracy

7 IBM Instana Observability。2025 年 5 月 19 日检索自 https://www.ibm.com/cn-zh/products/instana

8 Monitoring AI Agents。IBM 文档。2025 年 5 月 19 日检索自 https://www.ibm.com/docs/en/instana-observability/1.0.290?topic=applications-monitoring-ai-agents

9 Zhou, Y.、Yang, Y. 及 Zhu, Q. (2023)。LLMGuard: Preventing Prompt Injection Attacks on LLMs via Runtime Detection。arXiv preprint arXiv:2307.15043。https://arxiv.org/abs/2307.15043

10 Vesely, K. 与 Lewis, M. (2024)。Real-Time Monitoring and Diagnostics of Machine Learning Pipelines。Journal of Systems and Software,185,111136。