什么是 AI 智能体评估？| IBM

作者

Staff Editor, AI Models

IBM Think

Distinguished Engineer, AI Benchmarking and Evaluation

AI 智能体评估是指对 AI 智能体在执行任务、做出决策以及与用户交互过程中的表现进行评估和理解的过程。鉴于 AI 智能体本身具有自主性，对其进行评估对于确保其正常运行至关重要。AI 智能体必须按照设计者的意图行事、高效并遵守某些合乎道德的 AI 原则，才能满足组织的需求。评估有助于验证智能体是否满足此类要求，并且还有助于通过确定需要改进和优化的领域来提高智能体的质量。

生成式 AI（gen AI）智能体通常根据传统的文本到文本任务进行评估，类似于标准大语言模型（LLM）基准，其中通常使用生成文本的连贯性、相关性和忠实度等指标。然而，生成式 AI 智能体通常执行更广泛、更复杂的操作——包括多步推理、工具调用和与外部系统的交互——这需要更全面的评估。即使最终输出是文本，它也可能是查询数据库或调用 API 等中间操作的结果，每个操作都需要单独评估。

在其他情况下，智能体可能根本不生成文本输出，而是完成更新记录或发送消息等任务，其中成功的标准是正确执行。因此，评估必须超越表面文本质量，并评估整体智能体行为、任务成功以及与用户意图的一致性。此外，为了避免开发能力强但资源密集型的智能体，从而限制其实际部署，必须将成本和效率测量纳入评估的一部分。

除了衡量任务性能之外，评估 AI 智能体还必须优先考虑安全性、可信度、政策合规性和偏见缓解等关键维度。这些因素对于在现实世界的高风险环境中部署智能体至关重要。评估有助于确保智能体避免有害或不安全的行为，通过可预测和可验证的输出维护用户信任，并抵制操纵或滥用。

为了实现这些功能性（质量、成本）和非功能性（安全）目标，评估方法可包括基准测试、人机回圈评估、A/B测试和真实世界模拟。通过系统地评估 AI 智能体，组织可以增强其 AI 能力，优化自动化工作并增强业务功能，同时最大限度地减少与不安全、不可靠或有偏见的智能体 AI 相关的风险。

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

AI 智能体评估是如何进行的

评估 AI 智能体需要在更广泛的正式可观测性框架内采用结构化方法。评估（或评价）方法差异很大，但过程通常涉及以下步骤：

1. 定义评估目标和指标

智能体的目的是什么？预期成果是什么？ AI 在现实场景中是如何使用的？

请参阅“常见 AI 智能体评估指标”，了解一些最常见的指标，这些指标属于性能、交互和用户体验、合乎道德和负责任的 AI、系统和效率以及特定于任务的指标类别。

2. 收集数据并准备进行测试

为了有效评估 AI 智能体，请使用代表性评估数据集，包括反映真实世界场景的各种输入以及模拟实时条件的测试场景。带注释的数据表示可以测试 AI 模型的标准答案。

规划智能体工作流的每一个潜在步骤，无论是调用 API、向第二个智能体传递信息还是做出决策。通过将 AI 工作流分解为各个部分，可以更轻松地评估智能体如何处理每个步骤。还要考虑智能体在整个工作流中的整体方法，换句话说，智能体在解决多步骤问题时所采取的执行路径。

3. 进行测试

在不同的环境中运行 AI 智能体，可能使用不同的 LLM 作为基础，并跟踪其性能。对智能体的各个步骤进行分解并逐一评估。例如，监控智能体使用检索增强生成（RAG）从外部数据库中检索信息的情况，或监控 API 调用的响应情况。

4. 分析结果

将结果与预定义成功标准进行比较（如果存在），如果不存在，则使用 LLM-as-a-judge（见下文）。通过平衡性能与道德考量因素来评估权衡。

智能体是否选择了合适的工具？它是否调用了正确的功能？它是否在正确的上下文中传递了正确的信息？它是否做出了与事实相符的正确响应？

函数调用/工具使用是构建智能体的一项基本能力，能够提供实时、上下文准确的响应。考虑使用基于规则的方法进行专门的评估和分析，同时使用 LLM-as-a-judge 进行语义评估。

LLM-as-a-judge 是一个自动化评估系统，它通过使用预定义的标准和指标来评估 AI 智能体的性能。与仅依赖人工评审员不同，LLM-as-a-judge 会运用算法、启发式方法或基于 AI 的评分模型来评估智能体的回应、决策或行动。

请参阅以下“函数调用评估指标”。

5. 优化和迭代

开发人员现在可以根据评估结果调整提示、调试算法、简化逻辑或配置智能体架构。例如，可以通过加快响应生成和任务完成时间来改进客户支持用例。可以针对可扩展性和资源使用情况优化系统效率。

AI 智能体

5 种类型的 AI 智能体：自主功能与现实世界的应用

了解目标驱动和基于效用的 AI 如何适应工作流和复杂环境。

构建、部署和监控 AI 智能体

常见的 AI 智能体评估指标

开发人员希望智能体按预期工作。鉴于 AI 智能体的自主性，了解 AI 决策背后的“原因”非常重要。查看一些最常见的指标，开发人员可以使用这些指标来成功评估智能体。

针对特定任务

根据 AI 应用的不同，可以应用特定的质量评估指标：

LLM-as-a-judge 评估 AI 文本生成的质量，无论是否存在真实数据。
BLEU 和 ROUGE 是成本较低的替代方案，通过将 AI 生成文本与人工编写文本进行比较，评估 AI 生成文本的质量。

评估 AI 智能体性能的其他功能指标包括：

成功率/任务完成率用于衡量智能体在全部尝试执行的任务中，能够正确或令人满意完成的任务所占比例。
错误率是指不正确输出或失败操作所占的百分比。
成本衡量资源使用情况，例如令牌或计算时间。
延迟是 AI 智能体处理并返回结果所需的时间。

合乎道德和负责任的 AI

提示注入漏洞评估对抗性提示的成功率，从而改变智能体的预期行为
政策遵守率 是指符合预先定义的组织或道德政策的响应所占的百分比。
偏见和公平性得分用于检测 AI 在不同用户群体之间决策时是否存在差异。

交互和用户体验

对于与用户交互的 AI 智能体（例如聊天机器人和虚拟助手），评估人员会关注这些指标。

用户满意度得分 (CSAT) 用于衡量用户对 AI 回应的满意程度。
参与率 跟踪用户与 AI 系统交互的频率。
对话流畅度 用于评估 AI 保持连贯且有意义的对话的能力。
任务完成率 用于衡量 AI 智能体帮助用户有效完成任务的程度。

函数调用

这些基于规则的指标有助于评估 AI 驱动的系统的运营效率：

函数名称错误： 智能体试图调用一个存在的函数，但使用了错误的名称或拼写，导致执行失败。
缺少必需的参数 ：智能体启动了函数调用，但省略了该功能正常工作所需的一个或多个参数。
参数值类型错误 ：智能体提供了参数值，但其类型（字符串、数字、布尔值）与函数预期的类型不匹配。
允许的值：智能体使用了超出特定参数的已接受或预定义值范围的值。
幻觉参数：智能体在函数调用中包含了一个未在函数规范中定义或支持的参数。

下面是一些基于 LLM-as-a-judge 的语义指标。

参数值基础有助于确保每个参数值均直接源自用户的文本、上下文历史记录（例如 API 调用的先前输出）或 API 规范默认值。
单位转换 验证上下文中的值与工具调用中的参数值之间的单位或格式转换（超出基本类型）。

2025 年主要战略技术趋势：AI智能体

下载这份 Gartner 研究报告，了解agentic AI 对 IT 领导者的潜在机遇和风险，以及如何为这一新一轮 AI 创新做好准备。

什么是 AI 智能体评估？

作者