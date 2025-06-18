AI 智能体的日益普及带来了显著的复杂性，例如评估这些自主 AI 智能体的性能、可靠性、安全性和伦理行为的挑战。

智能体式 AI 评估的最佳实践可以减少各种可预测和未知风险。然而，有效的绩效跟踪对组织和开发人员来说可能是一个挑战，因为智能体不仅需要观察输出，还需要观察行为、决策和意图。借助 watsonx.governance，组织可以使用以下方式评估智能体的性能：

带基准的评估指标 ：帮助评估智能体的整体能力和执行各种任务的能力。

根本原因分析 ：识别性能不佳的根本原因，跟踪决策链，而不仅仅关注最终输出，从而为改进提供依据，例如数据缺乏客观性等问题。

人工反馈或红队测试：允许领域专家观察并验证智能体的行为（人类参与环节），并测试智能体的脆弱性。

从 3 月份开始，watsonx.governance 引入了这些新功能来支持其他专用指标。新的 RAG 智能体式 AI 评估指标现已推出。用于评估性能的全面指标集包括 HAP、PII、提示注入、上下文相关性、准确性、答案相似度、答案相关性、命中率、平均精确度、互惠排名以及失败请求等，以确保对系统有效性进行全面评估。这有助于通过添加必要的防护措施来规范智能体行为，确保其采取适当行动并及时发现预警信号，以实现期望的结果。

通过向 LangGraph 应用程序的工具节点添加一个简单的 python 装饰器，即可获得这些指标。添加此装饰器将导致指标被计算为在智能体式应用程序中运行节点的副产品。然后可以在应用程序内使用计算出的指标来做出流量决策。例如，如果从矢量数据库中获取的上下文与用户查询不相关，则不要生成答案，而尝试通过网络搜索来获取正确的上下文。这些评估器不仅易于使用，而且高效，包括开源指标和 IBM 高级指标。因此，它们提供了广泛的功能，适用于各种用例和任务类型。