什么是 LLM 可观测性？

作者

Joshua Noble

Data Scientist

Shalini Harkar

Lead AI Advocate

Aikansh Agarwal

PMM Intern

LLM 可观测性定义

LLM 可观测性是指从 LLM 模型或应用程序收集有关其行为、性能和输出特征的实时数据的过程。由于 LLM 很复杂，我们可以根据它们输出的模式进行观察。¹

良好的可观测性解决方案包括从 LLM 应用程序、应用程序编程接口 (API) 和工作流收集相关指标、跟踪和日志，从而支持开发人员高效、主动地规模化监控、调试和优化应用程序。

大型语言模型 (LLM) 和生成式 AI 平台（例如 IBM® watsonx.ai）以及越来越多的开源变体在各个行业中逐渐占有一席之地。由于这种增长，在采用模型和应用程序后，保持其可靠性、安全性和效率变得比以往任何时候都更加重要。因此，在这一领域，LLM 可观测性就变得至关重要。

行业时事通讯

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯，了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明。

为什么 LLM 可观测性很重要？

监控 LLM 的质量和输出：
对 LLM 产生的输出进行持续评估可分为对用户有用且适用的几个质量维度。这些维度包括正确性、相关性、连贯性以及与既定评估指标的事实一致性。定期检查这些性能维度有助于防止滞后或问题，这些滞后或问题可能会导致用户对程序失去信心并发现难以有效使用 LLM。
快速进行根本原因分析和故障排除：
当 LLM 应用程序发生重大故障或意外行为时，可观测性工具可以提供有用的洞察分析，以便快速确定当前问题的根本原因。这种精细化的遥测技术通常可以让利益相关者在许多领域更有把握地找出问题所在。例如，训练数据损坏、微调设计不良、外部 API 调用失败或者第三方提供者后端故障。
优化应用程序、用户参与度和系统效率：
LLM 可观测性允许通过持续监控整个 LLM 堆栈来提高应用程序性能和用户参与度。跟踪延迟、使用的令牌、响应时间和吞吐量等关键指标，以确定瓶颈和限制因素，从而进一步优化性能和降低成本，尤其是在 RAG 工作流中。对交互和用户反馈进行实时跟踪有助于提供洞察分析，了解何时生成低质量输出，在出现问题时予以解决并发现根本原因。这种对用户行为的持续适应使 LLM 能够生成自定义响应，优化工作流并进行扩展以满足需求，而不会降低性能。^2，³

IBM DevOps

什么是 DevOps？

Andrea Crawford 阐述了什么是开发运维、开发运维的价值，以及开发运维实践和工具如何帮助您完成从应用程序构思到生产的整个软件交付管道。本课程由 IBM 资深思想领袖主导，旨在帮助企业领导者获得所需的知识，以优先考虑能够推动增长的 AI 投资。

深入了解 DevOps 开发运维

关键可观测性指标

LLM 可观测性指标可以分为三个主要维度。

只有我们跟踪可观测性指标来跟踪系统性能、资源消耗和模型行为时，才能实现大型语言模型 (LLM) 的全面可观测性。⁴

系统性能指标：

延迟：从输入到输出的持续时间，代表模型的响应时间。
吞吐量：模型在特定时长内处理的请求数量；衡量模型负载的指标。
错误率：失败或无效响应的比率；反映模型可靠性。

资源利用率指标：

CPU/GPU 使用率：衡量推理过程中消耗的资源，与成本和效率相关。
内存使用情况：处理过程中消耗的 RAM 或存储。虽然这种用法对性能和可扩展性很重要，但它对整个任务而言是次要的。
令牌使用情况：跟踪已处理的令牌。当模型中的令牌与成本相关联时，这一步骤尤为重要。
延迟比率：吞吐量描述系统的工作负载与其响应能力；在这两者之间找到良好的平衡对提高效率至关重要。

模型行为指标：

正确性：监控模型做出正确响应的频率。
事实正确性：评估模型是否提供“正确”的事实输出。
用户参与度：量化交互持续时间、反馈和满意度以评估体验。
响应质量：衡量输出的连贯性、清晰度和相关性。⁵

手动自主可观测性与基于代理的自主可观测性

由于 LLM 数据量大、系统架构复杂且需要实时跟踪，因此手动监控 LLM 非常困难。大量的日志和指标使得快速发现问题变得非常困难。此外，手动观察占用大量资源，容易出错，并且无法随着系统的扩展而有效扩展，从而导致问题检测速度变慢和故障排除效率低下。

这些局限性表明，在 LLM 中手动维护可观测性十分困难，凸显了企业环境对更复杂、更自主解决方案的迫切需求。⁶

基于代理的自主故障排除

自主故障排除是指通过使用采用基于代理的系统的先进监控方法，无需人工干预即可独立识别、诊断和解决问题的系统。代理监控性能，识别异常并进行实时诊断，确保系统可在无人值守且无需任何人工干预的情况下运行。⁷

基于代理的自主故障排除有助于：

实时检测：无需手动输入即可立即识别问题。
根本原因分析：借助 AI 驱动的洞察分析，查明问题根源。
自动解决：应用预设的解决方案，随时可用来解决问题。
持续监控：适应数据并从数据中学习，以随着时间的推移改进故障排除。
可扩展性：通过显著减少手动工作，高效处理复杂的大规模的环境。
预测性维护：在潜在问题出现之前进行预测，这在最佳性能周期中非常有价值。
与可观测性整合：与其他可观测性工具协同工作，更快地解决问题。

企业解决方案

IBM® Instana 专为规模化而设计，可为当今复杂的企业可观测性提供实时可见性和自主故障排除能力。

Instana 通过三步流程（检测、AI 驱动的诊断和自主修复）提供端到端自主故障排除，帮助确保在问题影响性能之前发现并修复问题。⁸

如需了解更多关于此功能的信息，请注册 Instana 智能体式 AI 等候名单。

总结

扩展生成式 AI 需要利用智能仪器进行自主故障排除、实时 LLM 监控和有效编排。数据集、模型输出和 LLM 响应的优化，以及通过优化管道和实时 LLM 测试实现的强大模型性能维护，对于聊天机器人等各种用例的流畅用户体验至关重要。开源 LLM 和机器学习工作流的使用不断增长，并利用嵌入技术，通过使用各种工具监控 LLM 调用。OpenTelemetry 等工具以及将复杂的 LLM 可观测性工具集成到集成式可观测性平台和仪表盘中的其他工具，对于构建稳定的可扩展 AI 系统、提供最佳模型性能至关重要。^9，10

高效交付软件

对于面临经济逆风的企业来说，提高软件交付效率至关重要，而关注 DevOps 自动化则是关键所在。

资源

利用人工智能驱动的分析优化业务绩效

立即注册，了解先进的 AI 分析如何为您的业务增长和创新带来新机遇。获取专家洞察分析，深入了解 AI 解决方案如何提高运营效率、优化资源并带来可衡量的业务成果。

利用混合云模式实现大型机应用程序的现代化

深入了解最新的 IBM Redbooks 出版物，了解面向混合云环境的大型机现代化。学习可行的战略、架构解决方案和集成技术，以推动敏捷性、创新和业务成功。

通过自动化和现代化加强 z/OS DevOps

深入了解 IBM Wazi Deploy 和现代语言功能如何简化您的 z/OS DevOps。了解自动化和开源工具如何提高跨平台的效率。

DevOps Acceleration Program

借助 IBM 的 DevOps 加速计划，开始您的 DevOps 转型之旅。该计划指导企业完成评估、培训、部署和采用等关键阶段，以实现 DevOps 的无缝实施。

2024 年 Gartner 数据集成工具魔力象限报告

IBM 在 2024 年 Gartner 数据集成工具魔力象限报告中连续第 19 年被评为领导者。

脚注：

¹ Kumar, S. 与 Singh, R. (2024)。“Don’t blame the user: Toward means for usable and practical authentication”。Communications of the ACM，67(4)，78–85。https://dl.acm.org/doi/10.1145/3706599.3719914。

² Datadog。(n.d.)。What Is LLM Observability & Monitoring?。2025 年 5 月 19 日检索自 https://www.datadoghq.com/knowledge center/llm-observability/。

³ LLM-observability，GitHub。2025 年 5 月 19 日检索自 https://github.com/DataDog/llm-observability，Datadog。(n.d.)。

⁴ Dong, L., Lu, Q., & Zhu, L. (2024). AgentOps: Enabling Observability of LLM Agents. arXiv. https://arxiv.org/abs/2411.05285.

⁵ LangChain。(n.d.)。Datadog LLM Observability - LangChain, Langsmith .js。2025 年 5 月 19 日检索自 https://js.langchain.com/docs/integrations/callbacks/datadog_tracer/。

⁶ Optimizing LLM Accuracy，2025 年 5 月 19 日检索自 https://platform.openai.com/docs/guides/optimizing-llm-accuracy。

⁷ IBM Instana Observability。2025 年 5 月 19 日检索自 https://www.ibm.com/cn-zh/products/instana。

⁸ Monitoring AI Agents。IBM 文档。2025 年 5 月 19 日检索自 https://www.ibm.com/docs/en/instana-observability/1.0.290?topic=applications-monitoring-ai-agents。

⁹ Zhou, Y.、Yang, Y. 及 Zhu, Q. (2023)。LLMGuard: Preventing Prompt Injection Attacks on LLMs via Runtime Detection。arXiv preprint arXiv:2307.15043。https://arxiv.org/abs/2307.15043。

¹⁰ Vesely, K. 与 Lewis, M. (2024)。Real-Time Monitoring and Diagnostics of Machine Learning Pipelines。Journal of Systems and Software，185，111136。