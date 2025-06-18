利用新的 watsonx.governance 功能释放 Agentic AI 的强大力量

2025 年 6 月 18 日

智能体式 AI 是一股变革力量，Gartner 预测到 2028 年，三分之一的生成式 AI 交互将采用动作模型和自主智能体。

但无人监管的 AI 智能体能够以高度自主和强大的能力运行，这可能使组织面临诸多不可预测的风险，从而对企业和客户造成有害且不可逆的影响。他们的决策过程很复杂，受数据影响，可能会产生偏见，使可追溯性变得复杂，并引入安全问题。幻觉和错误决策进一步加剧了这些挑战。

为了应对这些挑战，我们在三月份宣布了智能体式 AI 治理功能的技术预览版。基于这一势头，我们将在 watsonx.governance 中推出更多新功能。

简化智能体工具库存

Governed Agentic Catalog 是一个用于管理和选择 AI 工具、智能体和工作流的综合资源，旨在简化工具/智能体的选择，并促进在不同用户和用例中的复用。这个集中式存储库通过整合各种工具来帮助团队保持一致性和效率，每个工具都执行设计和构建智能体式系统所必需的特定任务。这些智能体式工具包含各种功能，例如数据检索和外部连接。

该目录的关键功能包括：

  1. 启用工具脉络映射：使用户能够将工具追溯到各自的用例。此功能将在后续版本中提供。它还提供按用例类型或领域的搜索功能，使用户能够快速定位相关工具，加快项目启动。
  2. 在单一视图中方便进行工具比较：用户可以根据工具类型筛选工具，每个工具卡片都提供了清晰的描述以及质量指标。该目录有助于轻松并排比较不同工具，使用户能够做出明智的决策。
  3. 确保工具的有效性和可靠性：在后续版本中，用户可以查看其他社区成员的评分，以衡量工具的有效性和可靠性。

通过利用 Governed Agentic Catalog，团队可以管理工具泛滥，确保工具的合理使用，并在各部门间保持一致性。这种全面的工具管理方法最终加速了进度并为智能体式系统开发营造了协作环境。

加快智能体式 AI 性能评估

AI 智能体的日益普及带来了显著的复杂性，例如评估这些自主 AI 智能体的性能、可靠性、安全性和伦理行为的挑战。

智能体式 AI 评估的最佳实践可以减少各种可预测和未知风险。然而，有效的绩效跟踪对组织和开发人员来说可能是一个挑战，因为智能体不仅需要观察输出，还需要观察行为、决策和意图。借助 watsonx.governance，组织可以使用以下方式评估智能体的性能：

  • 带基准的评估指标：帮助评估智能体的整体能力和执行各种任务的能力。
  • 根本原因分析：识别性能不佳的根本原因，跟踪决策链，而不仅仅关注最终输出，从而为改进提供依据，例如数据缺乏客观性等问题。
  • 人工反馈或红队测试：允许领域专家观察并验证智能体的行为（人类参与环节），并测试智能体的脆弱性。

从 3 月份开始，watsonx.governance 引入了这些新功能来支持其他专用指标。新的 RAG 智能体式 AI 评估指标现已推出。用于评估性能的全面指标集包括 HAP、PII、提示注入、上下文相关性、准确性、答案相似度、答案相关性、命中率、平均精确度、互惠排名以及失败请求等，以确保对系统有效性进行全面评估。这有助于通过添加必要的防护措施来规范智能体行为，确保其采取适当行动并及时发现预警信号，以实现期望的结果。

通过向 LangGraph 应用程序的工具节点添加一个简单的 python 装饰器，即可获得这些指标。添加此装饰器将导致指标被计算为在智能体式应用程序中运行节点的副产品。然后可以在应用程序内使用计算出的指标来做出流量决策。例如，如果从矢量数据库中获取的上下文与用户查询不相关，则不要生成答案，而尝试通过网络搜索来获取正确的上下文。这些评估器不仅易于使用，而且高效，包括开源指标和 IBM 高级指标。因此，它们提供了广泛的功能，适用于各种用例和任务类型。

快速进行智能体式实验

实验跟踪对于管理 AI 智能体至关重要，因为它提供了开发过程中所做的所有更改、迭代和改进的全面记录。这包括对算法、数据输入、超参数及其他关键方面的修改。

智能体式应用程序开发是一个迭代的过程。开发人员构建智能体式 AI 应用程序，对其进行测试，在必要时进行微调并构建新版本以改进输出，该过程继续进行进一步优化。Watsonx.governance 将自动支持使用 Evaluation Studio 跟踪各类实验并进行比较：

  • 更快的智能体开发：在单个实例中评估多个智能体，节省开发人员评估基于任何第三方平台构建的多个智能体的时间，提供多功能性。
  • 增强的决策与选择流程：同时可视化和比较智能体，通过消除人工审核的需求来提升运营效率，从而优化工作流程并减少潜在的人为错误。
  • 提高运营效率：消除人工审查的需要，简化工作流程，并减少潜在的人为错误。

watsonx.governance 通过支持快速比较智能体式 AI 应用程序来加速迭代和开发过程。此项功能不仅限于基于我们 watsonx 平台构建的 AI 应用程序，它还扩展了对第三方平台的支持，提供了多功能性。

实时监控生产环境中的智能体式 AI 应用程序

监控指标可以帮助跟踪智能体性能，检测生产中的性能下降、数据漂移和模型偏差等问题，并指导改进。如果没有适当的评估，就很难信任、控制或校准/微调 AI 智能体以提高准确性，从而增加出现意外结果的风险。

在智能体式 AI 部署于生产环境的场景中，持续监控变得至关重要，以应对智能体幻觉、响应时间、模型漂移和偏差等问题。部署具有持续生产监控功能的智能体式 AI 应用程序，对于维护系统可靠性和信任至关重要。实时监控使 MLOps 和 AgentOps 团队能够跟踪模型和智能体行为、性能漂移和意外输出，从而在发生偏差时立即干预。这种运行准备状态可确保自主系统始终与预期目标和安全限制保持一致。

在即将发布的版本中，IBM 的 watsonx.governance 将能够对智能体式应用程序提供持续监督，当任何指定指标超过其预定义限制时启动警报。此功能可确保主动管理和及时干预，以保持最佳的 AI 性能。

主动评估风险

与其他快速发展的科技类似，AI 智能体会带来潜在风险、障碍和社会后果。AI 智能体带来的一些新风险包括数据偏见、冗余动作、函数调用幻觉、共享机密信息以及对 AI 智能体外部资源的攻击。除此之外，智能体式 AI 还会加剧现有的风险、挑战和社会影响。

IBM 风险图集提供了数据和 AI 固有的风险列表，并且正在更新以反映智能体风险和威胁。

全生命周期的 AI 治理

从用例创建、开发和验证到生产监控，整个 AI 生命周期都需要人工智能治理。每个阶段都存在风险和陷阱，如果管理不当，可能会导致当前或未来的问题。例如，在创建新用例时，watsonx.governance 会提供风险评估，帮助您识别您的用例容易产生哪些风险，以便您可以采用必要的风险管理技术。同样，在开发智能体应用程序期间，您需要测量和评估应用程序中每个工具或节点的性能，以便在未来的迭代中做出改进。

Watsonx.governance 提供了一个包含 50 多项指标的库，可作为装饰器添加到您的应用中，用于衡量其性能。如果没有治理，就无法扩展或建立对 AI 的信任。

立即试用 watsonx.governance

有效的治理和安全不可或缺，但随着企业发展并大规模采用 AI，建立强健的 AI 治理结构变得至关重要，以确保安全的实验环境，并高效管理 AI 广泛应用带来的复杂性。

试用 watsonx.governance，探索这些新功能发布及其他多项增强功能，帮助企业释放 AI 的真正潜力，并立即改善您的 AI 治理体验。

