AI 智能体是指一种能够自主代表用户或其他系统执行任务的软件系统,它可以自行制定工作流程,并根据需要使用外部工具。
智能体的能力远不止于简单的语言处理和理解。它们具有决策能力、解决问题能力、与环境互动能力以及为实现目标而采取行动的能力。
AI 智能体现在被纳入各种企业解决方案中,从 IT 自动化和软件工程到对话界面和代码生成实现。在大型语言模型 (LLM) 的驱动下,智能体能够理解复杂指令,将其分解为多个步骤,调用外部资源,并具备认知能力,能够判断何时应使用特定工具或服务来完成任务。
在创建和部署自主 AI 系统时,智能体评估是一个重要过程,因为它衡量智能体在执行指定任务、做出决策以及与用户或环境互动方面的表现。通过这种方式,我们可以确保智能体在其预期用例中可靠、高效和合乎道德地运行。
对智能体评估的主要原因包括:
评估 AI 智能体的性能采用多个正式的性能类别指标,包括准确性、响应时间(速度)和资源使用成本。准确性描述了智能体提供正确且相关回应的能力,以及完成其预期功能的能力。响应时间衡量智能体处理输入和产生输出的速度。降低延迟在交互式和实时程序中尤为重要,而成本则衡量智能体消耗的计算资源,如令牌使用量、调用应用程序接口 (API) 次数或系统运行时间。这些指标为提高系统性能和限制运营成本提供了指导。
虽然诸如正确性、帮助性和连贯性等关键指标属于准确性范畴,响应时间(延迟)则衡量包括吞吐量、平均延迟和超时延迟在内的指标。成本指标包括令牌使用量、计算时间、API 调用次数和内存消耗。
在本教程中,我们将探讨归属于准确性范畴的关键指标:正确性、帮助性和连贯性。
您将开发一个旅行智能体,并通过使用“LLM 作为评判者”来评估其性能。
您需要一个 IBM® Cloud 帐户来创建 watsonx.ai项目。
您还需要 Python 版本 3.12.7
虽然您可以选择多种工具,本教程将引导您如何设置 IBM 帐户以使用 Jupyter Notebook。
使用您的 IBM Cloud 帐户登录 watsonx.ai。
创建 watsonx.ai 项目。您可以从项目中获取项目 ID。单击管理选项卡。然后从常规页面的详细信息部分复制项目 ID。本教程中您需要使用此 ID。
创建一个 Jupyter Notebook。此步骤将打开一个 Jupyter Notebook 环境,您可以在其中复制本教程中的代码。或者,您也可以将该笔记下载到本地系统,再作为资产上传到您的 watsonx.ai 项目中。欲查看更多 IBM® Granite 教程,请访问 IBM Granite 社区。
创建一个 watsonx.ai 运行时服务实例(选择适当的区域并选择精简计划,这是一个免费实例)。
生成应用程序编程接口 (API) 密钥。
将 watsonx.ai 运行时服务实例与您在 watsonx.ai 中创建的项目关联。
本教程需要一些库和模块。请确保导入以下库,如果未安装,可以通过快速的 pip 安装来解决。
请注意,本教程使用 Python 3.12.7 编写。
为了设置凭据,我们需要您在第 1 步中生成的 WATSONX_APIKEY 和 WATSONX_PROJECT_ID。我们还将设置作为 API 端点的 URL。您的 API 端点可能因您的地理位置而异。
在本教程中,我们将使用 Granite 3 -8B Instruct 模型。为了初始化 LLM,我们需要设置模型参数。要了解更多关于这些模型参数的信息,例如最小和最大令牌限制,请参阅文档。
让我们构建一个旅行探索助手,帮助用户进行行程规划和旅行调研。
我们将创建一个简单的旅行助手应用程序,通过连接外部旅行 API,在用户查询时检索航班和酒店信息。为了将 AI 智能体集成到动态旅行规划中,我们将编写一个简单的函数用于发起 API 查询,并将其封装为一个工具。
最后,我们运行一次评估并打印最终的评估得分。为了通过三个不同的标准(正确性、帮助性和连贯性)来评估旅行规划器,我们为评估用的大语言模型 (LLM) 设计了一个结构化的评估提示。
输出结果同时展示了基于三个评估标准(正确性、帮助性和连贯性)对旅行规划方案的定性与定量评估。
让我们来逐一解析在智能体输出中,每个评分和指标的含义:
在评估一个智能体是否真正满足用户需求时,连贯性、帮助性和准确性等标准起着核心作用。无论您使用的是 OpenAI、IBM Granite 还是其他“LLM 即服务”模型,都必须依靠结构化评估方法(例如评估数据集、基准、注释和标准答案)来彻底测试最终输出,都至关重要。在聊天机器人或基于 RAG 的客户支持等用例中,像 LangGraph 这样的开源框架非常有价值。它们支持可扩展的自动化、可靠的路由并实现快速的迭代周期。这些科技还使得驱动生成式 AI 系统、调试行为以及优化和配置复杂的工作流变得更加容易。通过仔细定义测试用例并关注计算成本、价格和延迟等可观察性指标,团队可以不断提高系统性能。最终,应用可靠且可重复的评估方法可以增强机器学习系统的严谨性,并随着时间的推移增强其可信度。
构建、部署和管理强大的 AI 助手和智能体,运用生成式 AI 实现工作流和流程自动化。
借助值得信赖的 AI 解决方案,您可以勾勒未来业务发展蓝图。
IBM Consulting AI 服务有助于重塑企业利用 AI 实现转型的方式。