LLM 可观测性是指从 LLM 模型或应用程序收集有关其行为、性能和输出特征的实时数据的过程。由于 LLM 很复杂,我们可以根据它们输出的模式进行观察。1
良好的可观测性解决方案包括从 LLM 应用程序、应用程序编程接口 (API) 和工作流收集相关指标、跟踪和日志,从而支持开发人员高效、主动地规模化监控、调试和优化应用程序。
大型语言模型 (LLM) 和生成式 AI 平台(例如 IBM® watsonx.ai)以及越来越多的开源变体在各个行业中逐渐占有一席之地。由于这种增长,在采用模型和应用程序后,保持其可靠性、安全性和效率变得比以往任何时候都更加重要。因此,在这一领域,LLM 可观测性就变得至关重要。
LLM 可观测性指标可以分为三个主要维度。
只有我们跟踪可观测性指标来跟踪系统性能、资源消耗和模型行为时,才能实现大型语言模型 (LLM) 的全面可观测性。4
系统性能指标:
资源利用率指标:
模型行为指标:
由于 LLM 数据量大、系统架构复杂且需要实时跟踪,因此手动监控 LLM 非常困难。大量的日志和指标使得快速发现问题变得非常困难。此外,手动观察占用大量资源,容易出错,并且无法随着系统的扩展而有效扩展,从而导致问题检测速度变慢和故障排除效率低下。
这些局限性表明,在 LLM 中手动维护可观测性十分困难,凸显了企业环境对更复杂、更自主解决方案的迫切需求。6
自主故障排除是指通过使用采用基于代理的系统的先进监控方法,无需人工干预即可独立识别、诊断和解决问题的系统。代理监控性能,识别异常并进行实时诊断,确保系统可在无人值守且无需任何人工干预的情况下运行。7
基于代理的自主故障排除有助于:
IBM® Instana 专为规模化而设计,可为当今复杂的企业可观测性提供实时可见性和自主故障排除能力。
Instana 通过三步流程(检测、AI 驱动的诊断和自主修复)提供端到端自主故障排除,帮助确保在问题影响性能之前发现并修复问题。8
如需了解更多关于此功能的信息,请注册 Instana 智能体式 AI 等候名单。
实现本地、云端或大型机上任何应用程序的自动化软件交付
。使用开发运维软件和工具,在多种设备和环境中构建、部署和管理云原生应用程序。
利用 IBM 的云咨询服务发掘新功能并提升业务敏捷性。了解如何通过混合云战略和专家合作共同制定解决方案、加快数字化转型并优化性能。
1 Kumar, S. 与 Singh, R. (2024)。“Don’t blame the user: Toward means for usable and practical authentication”。Communications of the ACM,67(4),78–85。https://dl.acm.org/doi/10.1145/3706599.3719914。
2 Datadog。(n.d.)。What Is LLM Observability & Monitoring?。2025 年 5 月 19 日检索自 https://www.datadoghq.com/knowledge center/llm-observability/。
3 LLM-observability,GitHub。2025 年 5 月 19 日检索自 https://github.com/DataDog/llm-observability,Datadog。(n.d.)。
4 Dong, L., Lu, Q., & Zhu, L. (2024). AgentOps: Enabling Observability of LLM Agents. arXiv. https://arxiv.org/abs/2411.05285.
5 LangChain。(n.d.)。Datadog LLM Observability - LangChain, Langsmith .js。2025 年 5 月 19 日检索自 https://js.langchain.com/docs/integrations/callbacks/datadog_tracer/。
6 Optimizing LLM Accuracy,2025 年 5 月 19 日检索自 https://platform.openai.com/docs/guides/optimizing-llm-accuracy。
7 IBM Instana Observability。2025 年 5 月 19 日检索自 https://www.ibm.com/cn-zh/products/instana。
8 Monitoring AI Agents。IBM 文档。2025 年 5 月 19 日检索自 https://www.ibm.com/docs/en/instana-observability/1.0.290?topic=applications-monitoring-ai-agents。
9 Zhou, Y.、Yang, Y. 及 Zhu, Q. (2023)。LLMGuard: Preventing Prompt Injection Attacks on LLMs via Runtime Detection。arXiv preprint arXiv:2307.15043。https://arxiv.org/abs/2307.15043。
10 Vesely, K. 与 Lewis, M. (2024)。Real-Time Monitoring and Diagnostics of Machine Learning Pipelines。Journal of Systems and Software,185,111136。