AI 智能体评估是指对 AI 智能体在执行任务、做出决策以及与用户交互过程中的表现进行评估和理解的过程。鉴于 AI 智能体本身具有自主性,对其进行评估对于确保其正常运行至关重要。AI 智能体必须按照设计者的意图行事、高效并遵守某些合乎道德的 AI 原则,才能满足组织的需求。评估有助于验证智能体是否满足此类要求,并且还有助于通过确定需要改进和优化的领域来提高智能体的质量。
生成式 AI(gen AI) 智能体通常根据传统的文本到文本任务进行评估,类似于标准大语言模型(LLM)基准,其中通常使用生成文本的连贯性、相关性和忠实度等指标。然而,生成式 AI 智能体通常执行更广泛、更复杂的操作——包括多步推理、工具调用和与外部系统的交互——这需要更全面的评估。即使最终输出是文本,它也可能是查询数据库或调用 API 等中间操作的结果,每个操作都需要单独评估。
在其他情况下,智能体可能根本不生成文本输出,而是完成更新记录或发送消息等任务,其中成功的标准是正确执行。因此,评估必须超越表面文本质量,并评估整体智能体行为、任务成功以及与用户意图的一致性。此外,为了避免开发能力强但资源密集型的智能体,从而限制其实际部署,必须将成本和效率测量纳入评估的一部分。
除了衡量任务性能之外,评估 AI 智能体还必须优先考虑安全性、可信度、政策合规性和偏见缓解等关键维度。这些因素对于在现实世界的高风险环境中部署智能体至关重要。评估有助于确保智能体避免有害或不安全的行为,通过可预测和可验证的输出维护用户信任,并抵制操纵或滥用。
为了实现这些功能性(质量、成本)和非功能性(安全)目标,评估方法可包括基准测试、人机回圈评估、A/B测试和真实世界模拟。通过系统地评估 AI 智能体,组织可以增强其 AI 能力,优化 自动化工作并增强业务功能,同时最大限度地减少与不安全、不可靠或有偏见的智能体 AI 相关的风险。
评估 AI 智能体需要在更广泛的正式可观测性框架内采用结构化方法。评估(或评价)方法差异很大,但过程通常涉及以下步骤:
智能体的目的是什么?预期成果是什么? AI 在现实场景中是如何使用的?
请参阅“常见 AI 智能体评估指标”, 了解一些最常见的指标,这些指标属于性能、交互和用户体验、合乎道德和负责任的 AI、系统和效率以及特定于任务的指标类别。
为了有效评估 AI 智能体,请使用代表性评估数据集,包括反映真实世界场景的各种输入以及模拟实时条件的测试场景。带注释的数据表示可以测试 AI 模型的标准答案。
规划智能体工作流的每一个潜在步骤,无论是调用 API、向第二个智能体传递信息还是做出决策。通过将 AI 工作流分解为各个部分,可以更轻松地评估智能体如何处理每个步骤。还要考虑智能体在整个工作流中的整体方法,换句话说,智能体在解决多步骤问题时所采取的执行路径。
在不同的环境中运行 AI 智能体,可能使用不同的 LLM 作为 基础,并跟踪其性能。对智能体的各个步骤进行分解并逐一评估。例如,监控智能体使用检索增强生成(RAG)从外部数据库中检索信息的情况,或监控 API 调用的响应情况。
将结果与预定义成功标准进行比较(如果存在),如果不存在,则使用 LLM-as-a-judge(见下文)。通过平衡性能与道德考量因素来评估权衡。
智能体是否选择了合适的工具?它是否调用了正确的功能?它是否在正确的上下文中传递了正确的信息?它是否做出了与事实相符的正确响应?
函数调用/工具使用是构建智能体的一项基本能力, 能够提供实时、上下文准确的响应。考虑使用基于规则的方法进行专门的评估 和分析,同时使用 LLM-as-a-judge 进行语义评估。
LLM-as-a-judge 是一个自动化评估系统,它通过使用预定义的标准和指标来评估 AI 智能体的性能。与仅依赖人工评审员不同,LLM-as-a-judge 会运用算法、启发式方法或基于 AI 的评分模型来评估智能体的回应、决策或行动。
请参阅以下“函数调用评估指标”。
开发人员现在可以根据评估结果调整提示、调试算法、简化逻辑或配置智能体架构。例如,可以通过加快响应生成和任务完成时间来改进客户支持用例。可以针对可扩展性和资源使用情况优化系统效率。
开发人员希望智能体按预期工作。鉴于 AI 智能体的自主性,了解 AI 决策背后的“原因”非常重要。查看一些最常见的指标,开发人员可以使用这些指标来成功评估智能体。
根据 AI 应用的不同,可以应用特定的质量评估指标:
评估 AI 智能体性能的其他功能指标包括:
对于与用户交互的 AI 智能体(例如 聊天机器人 和虚拟助手),评估人员会关注这些指标。
用户满意度得分 (CSAT) 用于衡量用户对 AI 回应的满意程度。
参与率 跟踪用户与 AI 系统交互的频率。
对话流畅度 用于评估 AI 保持连贯且有意义的对话的能力。
任务完成率 用于衡量 AI 智能体帮助用户有效完成任务的程度。
这些基于规则的指标有助于评估 AI 驱动的系统的运营效率:
下面是一些基于 LLM-as-a-judge 的语义指标。
构建、部署和管理强大的 AI 助手和智能体,运用生成式 AI 实现工作流和流程自动化。
借助值得信赖的 AI 解决方案,您可以勾勒未来业务发展蓝图。
IBM Consulting AI 服务有助于重塑企业利用 AI 实现转型的方式。