随着人工智能 (AI) 的热潮持续席卷商业世界，人们的注意力正在转向该技术的最新迭代：AI 智能体。
与传统的 AI 模型不同，AI 智能体可以在没有持续的人类监督的情况下做出决策。它们自主工作以实现复杂的目标，例如回答客户问题、优化供应链或分析医疗保健数据以提供诊断。
实际上，这意味着 AI 智能体可以从头到尾处理整个工作流（例如自动处理保险索赔或管理库存水平）而不仅仅是提供建议。
最近的估计显示组织正在迅速采用 AI 智能体。KPMG 的一项调查发现，88% 的组织正在探索或积极试点 AI 智能体计划。1 Gartner 预测，到 2028 年，超过三分之一的企业软件应用程序将包含智能体式 AI，即启用 AI 智能体的底层技术。2
然而，AI 智能体所具备的能力虽然非常有价值，但也可能使其难以监控、理解和控制。
AI 智能体使用大语言模型 (LLM) 来推理、创建工作流并将任务分解为子任务。他们访问外部工具，例如数据库、搜索引擎和计算器，并使用内存来回忆以前的对话和任务结果。
虽然这一过程可确保其独立运作，但也使其透明度远低于基于显式、预定义规则和逻辑而构建的传统应用程序。
这种固有的复杂性与透明度的缺失，导致组织难以跟踪 AI 智能体生成特定输出的过程。对于组织来说，这可能会造成重大风险，包括：
为了降低这些风险，组织逐步转向 AI 智能体可观测性，以获取 AI 智能体行为和性能的洞察分析。
AI 智能体可观测性是监控和理解智能体生态系统端到端行为的过程，包括 AI 智能体可能与大语言模型和外部工具进行的任何交互。
它来自更广泛的可观测性实践，即通过分析系统的遥测数据（即其外部输出，例如指标、事件、日志和跟踪，通常称为“MELT 数据”）来了解系统的内部状态的能力。
借助 AI 智能体的可观测性，组织可以通过收集有关行动、决策和资源使用情况的数据来评估智能体性能。它有助于回答关键问题，例如：
有了这些洞察分析，组织可以更有效地排查故障和调试问题，并提高 AI 智能体的性能和可靠性。
多智能体系统使用多个 AI 智能体，这些智能体可以协同工作来完成复杂的任务，例如实现企业销售管道自动化或回答问题并为 IT 支持系统生成工单。
单个智能体系统的故障往往可以追溯到某个特定组件，而多智能体系统则不同，要复杂得多。自主式 AI 智能体之间的互动如此之多，出现不可预测行为的可能性也更大。
AI 智能体可观测性提供了对这些多智能体系统的关键洞察分析。它可以帮助开发人员识别导致问题的特定智能体或交互，并提供对智能体创建的工作流的可见性。它还有助于识别可能升级并导致未来问题的集体行为和模式。
例如，在多智能体旅行预订系统中，航班、酒店和汽车租赁的智能体相互独立，预订可能在任意位置失败。可观测性工具可以跟踪整个端到端过程，以准确识别故障发生的位置和原因。
许多组织使用开源解决方案，例如 IBM® BeeAI、LangChain、LangGraph 和 AutoGen 等，来更快、更安全地构建多智能体系统。这些解决方案提供了一个软件开发工具包 (SDK)，其中包含用于创建 AI 智能体和智能体式 AI 框架（即运行和协调 AI 智能体的引擎）的工具。
AI 智能体可观测性通过收集和分析记录传统系统指标和 AI 特定行为的遥测数据来工作。然后，团队可以使用这些数据来了解智能体决策、执行问题排查并优化性能。
AI 智能体可观测性能够应用与传统可观测性解决方案相同的遥测数据，但也包括生成式 AI 系统独有的附加数据点，例如词元利用率、工具交互和智能体决策路径。这些 AI 特定信号仍然适用于 MELT（指标、事件、日志、跟踪）。
除了标准可观测性工具收集的传统性能指标（例如 CPU、内存和网络资源的利用率）之外，AI 智能体可观测性指标还包括：
词元是文本 AI 模型处理的单位，通常是单词或单词的一部分。由于 AI 提供商按词元使用情况收费，因此跟踪此指标会直接影响成本。组织可以通过监控词元消耗来优化支出。例如，如果某些客户问题使用的词元是其他问题的 10 倍，则团队可以重新设计智能体处理这些请求的方式，以降低成本。
随着真实世界数据的不断发展，AI 模型的准确性可能会随着时间的推移而降低。监控模型漂移的关键指标（例如响应模式的变化或输出质量的变化）可以帮助组织及早发现它。例如，随着犯罪分子开发出新的计策，欺诈检测智能体可能会变得不那么有效。可观测性标记了这种下降，因此团队可以使用更新的数据集重新训练模型。
该指标衡量 AI 智能体输出的质量以及其答案是否准确、相关且有用。它可以跟踪智能体产生幻觉或提供不准确信息的频率。它可以帮助组织保持服务质量并确定需要改进的领域。例如，如果智能体在技术问题上遇到困难，团队可以扩大智能体的知识库或添加专门工具。
这衡量 AI 智能体响应请求所需的时间。快速的响应对于用户满意度和业务成果具有关键意义。例如，如果购物助手推荐产品的时间过长，客户可能会什么都不买就离开。跟踪延迟可以帮助团队在销售受到影响之前识别速度缓慢情况并修复性能问题。
事件是 AI 智能体为完成任务而采取的重要行动。该数据提供对智能体行为和决策过程的洞察分析，以帮助排查问题并提高性能。
AI 智能体事件的示例包括：
当 AI 智能体使用应用程序编程接口 (API) 与搜索引擎、数据库或翻译服务等外部工具进行交互时。跟踪 API 调用有助于组织监控工具使用情况并识别低效问题。例如，如果智能体为一个本应需要 2-3 次 API 调用的任务进行 50 次调用，团队可以修复逻辑。
当 AI 智能体使用大语言模型来理解请求、做出决策或生成响应时。监控 LLM 调用有助于揭示驱动 AI 智能体操作的模型的行为、性能和可靠性。例如，如果银行 AI 智能体向客户提供了错误的账户信息，团队可以分析智能体的 LLM 调用，以查找问题，例如数据过时或提示不明确。
当智能体尝试使用工具但无法有效应用时，例如，API 调用因网络问题或请求不正确失败。跟踪这些故障可以提高智能体的可靠性并优化资源。例如，如果支持智能体由于数据库调用失败而无法核对订单状态，则会立即向团队发出警报，以便其修复缺少凭据或服务中断等问题。
当 AI 智能体将他们无法处理的请求呈报给人类工作人员时。这些信息可以揭示智能体能力的差距以及客户互动的细微差别。例如，如果金融服务 AI 智能体经常将问题呈报给人工，则可能需要更好的金融训练数据或专门的投资工具。
一旦出现问题，例如响应时间过慢、未经授权的数据访问或系统资源不足，AI 智能体就会收到自动警告。警报可以帮助团队在问题影响用户之前实时发现并予以修复。例如，有关高内存使用率的警报可让团队在智能体崩溃之前添加资源。
日志按时间顺序详细记录了 AI 智能体运行期间发生的所有事件和动作。它们可用于创建每个事件的高精度毫秒级记录，并以相关的上下文信息作为补充。
AI 智能体可观测性中的日志示例包括：
这些日志记录了用户和 AI 智能体之间的每一次互动，包括查询、意图解释和输出。组织可以使用这些日志来了解用户需求和智能体性能。例如，如果用户以不同表述反复问同一个问题，智能体可能不理解他们的意图。
这些日志将捕获智能体和 LLM 之间的每一次交流，包括提示、响应、元数据、时间戳和词元使用情况。这些数据揭示了 AI 智能体如何解释请求并生成答案，包括 AI 智能体何时可能误解上下文。例如，如果内容审核 AI 智能体错误地标记了良性内容而忽略了有害内容，这些日志可以揭示导致错误的缺陷模式。
这些日志记录了智能体使用哪些工具、何时使用它们、发送了什么命令以及得到了什么结果。这有助于追溯性能问题和工具错误的根源。例如，如果技术支持 AI 智能体对某些问题的响应很慢，日志可能会显示它正在使用模糊的搜索查询。然后，团队可以编写更具体的提示来改进响应。
这些日志记录了 AI 智能体如何做出决策或在可用时采取特定行动（例如选择的动作、分数、工具选择和提示/输出），但并不意味着可以访问隐藏的推理。这些数据对于发现偏误和确保负责任的 AI 至关重要，特别是当智能体变得更加自主时。
例如，如果贷款 AI 智能体不公正地拒绝来自特定社区的应用程序，决策日志就有助于揭示训练数据中的歧视模式。然后，团队即可重新训练 AI 模型，以满足公平借贷要求。
跟踪会记录每个用户请求的端到端“旅程”，包括在此过程中与 LLM 和工具的所有交互。
例如，简单的 AI 智能体请求的跟踪可能会捕获这些步骤。
然后，开发人员可以使用这些数据来查明瓶颈或故障的来源，并衡量流程中每个步骤的性能。
例如，如果跟踪显示网络搜索需要 5 秒钟，而所有其他步骤在几毫秒内完成，则团队可以实施缓存或使用更快的搜索工具来缩短整体响应时间。
AI 智能体可观测性使用了两种常见的数据收集方法：内置检测仪器和第三方解决方案。
在第一种方法中，MELT 数据是通过 AI 智能体式框架的内置仪表收集的。这些原生监控和记录功能会自动捕获和传输有关指标、事件、日志和跟踪的遥测数据。
许多大型企业和有特殊需求的企业都采用这种方法，因为它可以对数据收集和监控进行深度定制和细粒度控制。然而，它还需要大量的开发工作、时间和持续的维护。
在第二种方法中，AI 智能体可观测性解决方案提供专门的工具和平台来收集和分析 MELT 数据。这些解决方案通过预先构建的功能和集成为组织提供快速、简单的部署，从而减少了对内部专业知识的需求。但是，依赖第三方解决方案可能会造成对特定供应商的依赖，并限制满足组织的高度特定或细分需求的自定义选择。
一些组织选择结合内置仪表和第三方解决方案提供商来收集 AI 智能体遥测数据。
这两种方法通常依赖于 OpenTelemetry (OTel)，这是一个托管在 GitHub 基于 Web 平台上的开源可观测性工具。
OTel 已成为收集和传输遥测数据的行业标准框架，因为它提供了一种供应商中立的可观测性方法，这在复杂的 AI 系统中特别有价值，在这些系统中，不同供应商的组件必须无缝协同工作。它有助于确保可观测性数据在智能体、多个模型、外部工具和检索增强生成 (RAG) 系统之间一致流动。
一旦组织通过他们选择的方法收集 MELT 数据，就可以以多种方式使用它。
一些最常见的用例包括：
团队使用仪表板查看实时指标、事件流和跟踪图。这种综合视图有助于识别整个 AI 智能体生态系统中的模式和异常。例如，仪表板可能会显示客户服务智能体每天下午 3 点就会放慢速度，从而促使团队调查原因。
当出现问题时，团队会关联指标、事件、日志和跟踪之间的数据，以查明具体的故障点。例如，将错误率（指标）与特定的 API 故障（事件）相关联并查看决策日志，有助于团队了解智能体行为异常的原因。
组织使用可观测性数据洞察来提高智能体效率。他们可能会减少词元的使用，优化工具选择或根据跟踪分析重构智能体工作流程。例如，他们可能会发现智能体对同一个数据库搜索三次，而不是在第一次搜索后保存结果。
团队建立反馈回路，可观测性洞察分析则借此驱动智能体优化迭代。定期审查 MELT 数据有助于识别反复出现的问题和边缘用例，例如智能体难以处理退款请求，或者当用户提出文档中未涵盖的问题时出现故障。这些问题可能预示着团队需要扩大训练数据集和更新文档。
考虑一下在线零售商如何使用可观测性来识别和纠正与客户互动的 AI 智能体的问题。
首先，可观测性仪表板显示对特定 AI 智能体的负面客户反馈激增。
团队在检查智能体的日志时，发现智能体使用数据库工具调用来解答客户的问题。然而，答案中包含过时或不正确的信息。
跟踪（智能体处理客户问题的分步流程的完整记录）可查明返回过时数据的特定工具调用。进一步分析揭示了数据库中包含过时信息的精确数据集。
借助这一洞察分析，在线零售商就能更新或移除错误的数据集。团队还可更新智能体的逻辑，在其响应客户之前验证数据准确性，最终确保智能体提供准确、实用的答案，从而提高客户满意度。
虽然大多数 AI 智能体可观测性仍然涉及将警报和异常发送给团队成员以进行手动调查和解决，但人工智能驱动的自动化正在越来越多地改变组织收集、分析遥测数据和据其采取行动的方式。
高级可观测性解决方案现已采用这些技术来监控、调试和优化 AI 智能体，几乎无需人工干预。该领域的新兴用例包括：
