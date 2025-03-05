什么是 AI 智能体评估？

作者

Cole Stryker

Staff Editor, AI Models

IBM Think

Michal Shmueli-Scheuer

Distinguished Engineer, AI Benchmarking and Evaluation

AI 智能体评估是指对 AI 智能体在执行任务、做出决策以及与用户交互过程中的表现进行评估和理解的过程。鉴于 AI 智能体本身具有自主性，对其进行评估对于确保其正常运行至关重要。AI 智能体必须按照设计者的意图行事、高效并遵守某些合乎道德的 AI 原则，才能满足组织的需求。评估有助于验证智能体是否满足此类要求，并且还有助于通过确定需要改进和优化的领域来提高智能体的质量。

生成式 AI（gen AI） 智能体通常根据传统的文本到文本任务进行评估，类似于标准大语言模型（LLM）基准，其中通常使用生成文本的连贯性、相关性和忠实度等指标。然而，生成式 AI 智能体通常执行更广泛、更复杂的操作——包括多步推理、工具调用和与外部系统的交互——这需要更全面的评估。即使最终输出是文本，它也可能是查询数据库或调用 API 等中间操作的结果，每个操作都需要单独评估。

在其他情况下，智能体可能根本不生成文本输出，而是完成更新记录或发送消息等任务，其中成功的标准是正确执行。因此，评估必须超越表面文本质量，并评估整体智能体行为、任务成功以及与用户意图的一致性。此外，为了避免开发能力强但资源密集型的智能体，从而限制其实际部署，必须将成本和效率测量纳入评估的一部分。

除了衡量任务性能之外，评估 AI 智能体还必须优先考虑安全性、可信度、政策合规性和偏见缓解等关键维度。这些因素对于在现实世界的高风险环境中部署智能体至关重要。评估有助于确保智能体避免有害或不安全的行为，通过可预测和可验证的输出维护用户信任，并抵制操纵或滥用。

为了实现这些功能性（质量、成本）和非功能性（安全）目标，评估方法可包括基准测试、人机回圈评估、A/B测试和真实世界模拟。通过系统地评估 AI 智能体，组织可以增强其 AI 能力，优化 自动化工作并增强业务功能，同时最大限度地减少与不安全、不可靠或有偏见的智能体 AI 相关的风险。

AI 智能体评估是如何进行的

评估 AI 智能体需要在更广泛的正式可观测性框架内采用结构化方法。评估（或评价）方法差异很大，但过程通常涉及以下步骤：

1. 定义评估目标和指标

智能体的目的是什么？预期成果是什么？ AI 在现实场景中是如何使用的？

请参阅“常见 AI 智能体评估指标”， 了解一些最常见的指标，这些指标属于性能、交互和用户体验、合乎道德和负责任的 AI、系统和效率以及特定于任务的指标类别。

2. 收集数据并准备进行测试

为了有效评估 AI 智能体，请使用代表性评估数据集，包括反映真实世界场景的各种输入以及模拟实时条件的测试场景。带注释的数据表示可以测试 AI 模型的标准答案

规划智能体工作流的每一个潜在步骤，无论是调用 API、向第二个智能体传递信息还是做出决策。通过将 AI 工作流分解为各个部分，可以更轻松地评估智能体如何处理每个步骤。还要考虑智能体在整个工作流中的整体方法，换句话说，智能体在解决多步骤问题时所采取的执行路径。

3. 进行测试

在不同的环境中运行 AI 智能体，可能使用不同的 LLM 作为 基础，并跟踪其性能。对智能体的各个步骤进行分解并逐一评估。例如，监控智能体使用检索增强生成（RAG）从外部数据库中检索信息的情况，或监控 API 调用的响应情况。

4. 分析结果

将结果与预定义成功标准进行比较（如果存在），如果不存在，则使用 LLM-as-a-judge（见下文）。通过平衡性能与道德考量因素来评估权衡。

智能体是否选择了合适的工具？它是否调用了正确的功能？它是否在正确的上下文中传递了正确的信息？它是否做出了与事实相符的正确响应？

函数调用/工具使用是构建智能体的一项基本能力， 能够提供实时、上下文准确的响应。考虑使用基于规则的方法进行专门的评估 和分析，同时使用 LLM-as-a-judge 进行语义评估。

LLM-as-a-judge 是一个自动化评估系统，它通过使用预定义的标准和指标来评估 AI 智能体的性能。与仅依赖人工评审员不同，LLM-as-a-judge 会运用算法、启发式方法或基于 AI 的评分模型来评估智能体的回应、决策或行动。

请参阅以下“函数调用评估指标”。

5. 优化和迭代

开发人员现在可以根据评估结果调整提示、调试算法、简化逻辑或配置智能体架构。例如，可以通过加快响应生成和任务完成时间来改进客户支持用例。可以针对可扩展性和资源使用情况优化系统效率。

AI 智能体

5 种类型的 AI 智能体：自主功能与现实世界的应用

了解目标驱动和基于效用的 AI 如何适应工作流和复杂环境。
构建、部署和监控 AI 智能体

常见的 AI 智能体评估指标

开发人员希望智能体按预期工作。鉴于 AI 智能体的自主性，了解 AI 决策背后的“原因”非常重要。查看一些最常见的指标，开发人员可以使用这些指标来成功评估智能体。

针对特定任务

根据 AI 应用的不同，可以应用特定的质量评估指标：

  • LLM-as-a-judge 评估 AI 文本生成的质量，无论是否存在真实数据。
  • BLEU 和 ROUGE 是成本较低的替代方案，通过将 AI 生成文本与人工编写文本进行比较，评估 AI 生成文本的质量。

评估 AI 智能体性能的其他功能指标包括：

  • 成功率/任务完成率用于衡量智能体在全部尝试执行的任务中， 能够正确或令人满意完成的任务所占比例。
  • 错误率是指不正确输出或失败操作所占的百分比。
  • 成本衡量资源使用情况，例如令牌或计算时间。
  • 延迟是 AI 智能体处理并返回结果所需的时间。

合乎道德和负责任的 AI

  • 提示注入漏洞评估对抗性提示的成功率，从而改变智能体的预期行为
  • 政策遵守率 是指符合预先定义的组织或道德政策的响应所占的百分比。
  • 偏见和公平性得分用于检测 AI 在不同用户群体之间决策时是否存在 差异。

交互和用户体验

对于与用户交互的 AI 智能体（例如 聊天机器人 和虚拟助手），评估人员会关注这些指标。

  • 用户满意度得分 (CSAT)  用于衡量用户对 AI 回应的满意程度。

  • 参与率 跟踪用户与 AI 系统交互的频率。

  • 对话流畅度 用于评估 AI 保持连贯且有意义的对话的能力。

  • 任务完成率 用于衡量 AI 智能体帮助用户有效完成任务的程度。

函数调用

这些基于规则的指标有助于评估 AI 驱动的系统的运营效率：

  • 函数名称错误： 智能体试图调用一个存在的函数，但使用了错误的名称或拼写，导致执行失败。
  • 缺少必需的参数 ：智能体启动了函数调用，但省略了该功能正常工作所需的一个或多个参数。
  • 参数值类型错误 ：智能体提供了参数值，但其类型（字符串、数字、布尔值）与函数预期的类型不匹配。
  • 允许的值：智能体使用了超出特定参数的已接受或预定义值范围的值。
  • 幻觉参数：智能体在函数调用中包含了一个未在函数规范中定义或支持的参数。

下面是一些基于 LLM-as-a-judge 的语义指标。

  • 参数值基础有助于 确保每个参数值均直接源自用户的文本、上下文历史记录（例如 API 调用的先前输出）或 API 规范默认值。
  • 单位转换 验证上下文中的值与工具调用中的参数值之间的单位或格式转换（超出基本类型）。

相关解决方案
