什么是 AI 智能体评估?

作者

Cole Stryker

Staff Editor, AI Models

IBM Think

Michal Shmueli-Scheuer

Distinguished Engineer, AI Benchmarking and Evaluation

AI 智能体评估是指对 AI 智能体在执行任务、做出决策以及与用户交互过程中的表现进行评估和理解的过程。鉴于 AI 智能体本身具有自主性,对其进行评估对于确保其正常运行至关重要。AI 智能体必须按照设计者的意图行事、高效并遵守某些合乎道德的 AI 原则,才能满足组织的需求。评估有助于验证智能体是否满足此类要求,并且还有助于通过确定需要改进和优化的领域来提高智能体的质量。

生成式 AI(gen AI) 智能体通常根据传统的文本到文本任务进行评估,类似于标准大语言模型(LLM)基准,其中通常使用生成文本的连贯性、相关性和忠实度等指标。然而,生成式 AI 智能体通常执行更广泛、更复杂的操作——包括多步推理、工具调用和与外部系统的交互——这需要更全面的评估。即使最终输出是文本,它也可能是查询数据库或调用 API 等中间操作的结果,每个操作都需要单独评估。

在其他情况下,智能体可能根本不生成文本输出,而是完成更新记录或发送消息等任务,其中成功的标准是正确执行。因此,评估必须超越表面文本质量,并评估整体智能体行为、任务成功以及与用户意图的一致性。此外,为了避免开发能力强但资源密集型的智能体,从而限制其实际部署,必须将成本和效率测量纳入评估的一部分。

除了衡量任务性能之外,评估 AI 智能体还必须优先考虑安全性、可信度、政策合规性和偏见缓解等关键维度。这些因素对于在现实世界的高风险环境中部署智能体至关重要。评估有助于确保智能体避免有害或不安全的行为,通过可预测和可验证的输出维护用户信任,并抵制操纵或滥用。

为了实现这些功能性(质量、成本)和非功能性(安全)目标,评估方法可包括基准测试、人机回圈评估、A/B测试和真实世界模拟。通过系统地评估 AI 智能体,组织可以增强其 AI 能力,优化 自动化工作并增强业务功能,同时最大限度地减少与不安全、不可靠或有偏见的智能体 AI 相关的风险。

AI 智能体评估是如何进行的

评估 AI 智能体需要在更广泛的正式可观测性框架内采用结构化方法。评估(或评价)方法差异很大,但过程通常涉及以下步骤:

1. 定义评估目标和指标

智能体的目的是什么?预期成果是什么? AI 在现实场景中是如何使用的?

请参阅“常见 AI 智能体评估指标”, 了解一些最常见的指标,这些指标属于性能、交互和用户体验、合乎道德和负责任的 AI、系统和效率以及特定于任务的指标类别。

2. 收集数据并准备进行测试

为了有效评估 AI 智能体,请使用代表性评估数据集,包括反映真实世界场景的各种输入以及模拟实时条件的测试场景。带注释的数据表示可以测试 AI 模型的标准答案

规划智能体工作流的每一个潜在步骤,无论是调用 API、向第二个智能体传递信息还是做出决策。通过将 AI 工作流分解为各个部分,可以更轻松地评估智能体如何处理每个步骤。还要考虑智能体在整个工作流中的整体方法,换句话说,智能体在解决多步骤问题时所采取的执行路径。

3. 进行测试

在不同的环境中运行 AI 智能体,可能使用不同的 LLM 作为 基础,并跟踪其性能。对智能体的各个步骤进行分解并逐一评估。例如,监控智能体使用检索增强生成(RAG)从外部数据库中检索信息的情况,或监控 API 调用的响应情况。

4. 分析结果

将结果与预定义成功标准进行比较(如果存在),如果不存在,则使用 LLM-as-a-judge(见下文)。通过平衡性能与道德考量因素来评估权衡。

智能体是否选择了合适的工具?它是否调用了正确的功能?它是否在正确的上下文中传递了正确的信息?它是否做出了与事实相符的正确响应?

函数调用/工具使用是构建智能体的一项基本能力, 能够提供实时、上下文准确的响应。考虑使用基于规则的方法进行专门的评估 和分析,同时使用 LLM-as-a-judge 进行语义评估。

LLM-as-a-judge 是一个自动化评估系统,它通过使用预定义的标准和指标来评估 AI 智能体的性能。与仅依赖人工评审员不同,LLM-as-a-judge 会运用算法、启发式方法或基于 AI 的评分模型来评估智能体的回应、决策或行动。

请参阅以下“函数调用评估指标”。

5. 优化和迭代

开发人员现在可以根据评估结果调整提示、调试算法、简化逻辑或配置智能体架构。例如,可以通过加快响应生成和任务完成时间来改进客户支持用例。可以针对可扩展性和资源使用情况优化系统效率。

AI 智能体

5 种类型的 AI 智能体:自主功能与现实世界的应用

了解目标驱动和基于效用的 AI 如何适应工作流和复杂环境。

常见的 AI 智能体评估指标

开发人员希望智能体按预期工作。鉴于 AI 智能体的自主性,了解 AI 决策背后的“原因”非常重要。查看一些最常见的指标,开发人员可以使用这些指标来成功评估智能体。

针对特定任务

根据 AI 应用的不同,可以应用特定的质量评估指标:

  • LLM-as-a-judge 评估 AI 文本生成的质量,无论是否存在真实数据。
  • BLEU 和 ROUGE 是成本较低的替代方案,通过将 AI 生成文本与人工编写文本进行比较,评估 AI 生成文本的质量。

评估 AI 智能体性能的其他功能指标包括:

  • 成功率/任务完成率用于衡量智能体在全部尝试执行的任务中, 能够正确或令人满意完成的任务所占比例。
  • 错误率是指不正确输出或失败操作所占的百分比。
  • 成本衡量资源使用情况,例如令牌或计算时间。
  • 延迟是 AI 智能体处理并返回结果所需的时间。

合乎道德和负责任的 AI

  • 提示注入漏洞评估对抗性提示的成功率,从而改变智能体的预期行为
  • 政策遵守率 是指符合预先定义的组织或道德政策的响应所占的百分比。
  • 偏见和公平性得分用于检测 AI 在不同用户群体之间决策时是否存在 差异。

交互和用户体验

对于与用户交互的 AI 智能体(例如 聊天机器人 和虚拟助手),评估人员会关注这些指标。

  • 用户满意度得分 (CSAT)  用于衡量用户对 AI 回应的满意程度。

  • 参与率 跟踪用户与 AI 系统交互的频率。

  • 对话流畅度 用于评估 AI 保持连贯且有意义的对话的能力。

  • 任务完成率 用于衡量 AI 智能体帮助用户有效完成任务的程度。

函数调用

这些基于规则的指标有助于评估 AI 驱动的系统的运营效率:

  • 函数名称错误: 智能体试图调用一个存在的函数,但使用了错误的名称或拼写,导致执行失败。
  • 缺少必需的参数 :智能体启动了函数调用,但省略了该功能正常工作所需的一个或多个参数。
  • 参数值类型错误 :智能体提供了参数值,但其类型(字符串、数字、布尔值)与函数预期的类型不匹配。
  • 允许的值:智能体使用了超出特定参数的已接受或预定义值范围的值。
  • 幻觉参数:智能体在函数调用中包含了一个未在函数规范中定义或支持的参数。

下面是一些基于 LLM-as-a-judge 的语义指标。

  • 参数值基础有助于 确保每个参数值均直接源自用户的文本、上下文历史记录(例如 API 调用的先前输出)或 API 规范默认值。
  • 单位转换 验证上下文中的值与工具调用中的参数值之间的单位或格式转换(超出基本类型)。
相关解决方案
IBM watsonx.governance

借助 IBM watsonx.governance®,随时随地治理生成式 AI 模型,并实现云端或本地部署。

了解 watsonx.governance
人工智能治理解决方案

了解 AI 治理如何帮助增强员工对 AI 的信心、加速采用与创新,并提升客户信任度。

探索人工智能治理解决方案
人工智能治理咨询服务

借助 IBM Consulting,为《欧盟 AI 法案》做好准备并制定负责任的人工智能治理方法。

了解 AI 治理服务
采取后续步骤

通过统一的产品组合直接管理、监控您的 AI,加速实现负责任、透明化、可解释的成果。

  1. 深入了解 watsonx.governance
  2. 预约实时演示