IBM 通过新的模型风险评估引擎增强 watsonx.governance 的功能

左侧是色彩斑斓的田野,右侧是两辆汽车在绿树成荫的道路上行驶

作者

Marc Cassagnol

Product Manager, watsonx.governance

IBM

Michael Hind

Distinguished Research Staff Member

IBM

我们很高兴地宣布推出 Model Risk Evaluation Engine,这是 watsonx.governance 中的一个新工具,它可以通过计算 AI Risk Atlas 中风险维度的相关指标来衡量基础模型的风险。作为综合模型接入过程的一部分,它可以比较不同基础模型的风险指标,帮助您根据组织的具体风险承受能力确定最适合在组织内部署的基础模型。

为什么有必要了解生成式 AI 的风险

随着各企业持续扩大生成式 AI 部署规模,深入理解底层基础模型相关风险变得愈发重要,包括提示词注入、有害输出、越狱攻击及幻觉现象等。

组织在使用生成式 AI 模型时,有很多选择。明智的决策对于避免生成式模型表现不佳的情况(“流氓”客户聊天机器人提供错误或有害的指导)非常重要。这些情况可能会对组织的声誉造成难以恢复的巨大影响。因此,在组织的模型接入过程中,获取客观的定量风险数据以预防此类情况应成为标准环节。

生成式 AI 模型的接入过程分为 3 个阶段:

  1. 了解生成式 AI 的一般风险。
  2. 确定适用于特定 AI 模型(或用例)的风险。
  3. 评估已识别的风险。

理解:风险库

接入风险库是识别潜在适用风险的第一步。IBM 的 AI Risk Atlas 是了解与使用生成式 AI 和机器学习模型相关的风险的绝佳资源。这些风险也直接集成到 watsonx.governance 的治理控制台中,并且是开箱即用的。如果需要,风险库还可根据需求补充组织的自有风险清单。并通过开箱即用的风险识别评估工具(包括 AI 用例评估、模型接入评估及用例 + 模型联合评估)将风险关联至 AI 用例与模型。

watsonx 风险仪表板的屏幕截图

了解可能适用的风险是重要的第一步,但制定有效的方法来识别、衡量和降低这些风险也同样重要。

识别:风险识别过程

watsonx.governance 附带 3 项风险识别评估:

  • AI 用例风险识别:用于识别特定于所提出用例的风险,而非特定于模型的风险。例如,提示注入、提示中的 IP 信息以及暴露个人信息。
  • AI 模型接入风险识别:用于识别正在评估的模型特定风险。例如,数据偏见、不确定的数据来源、训练数据缺乏透明度和重新识别。
  • 用例 + 模型风险识别:用于识别用例和模型的特定组合中可能出现的额外风险。例如模型使用权限制、幻觉和无法解释的输出。

这些评估用于确定 Risk Atlas 内的哪些风险适用于正在接入的模型和/或用例。在 watsonx.governance 治理控制台中,有一个基础模型接入的工作流,其中包括上面提到的风险识别问卷评估。

基础模型载入工作流图

在识别之后,应使用风险与控制自我评估 (RCSA) 对适用的风险进行单独检查,以识别固有风险和残余风险。这将生成模型的风险概况,可告知组织愿意批准模型的哪种用途,如 RAG、分类或汇总。

残余风险评级图表

为更好地支持 RCSA(风险与控制自评估)流程,可通过定量评估深入了解特定模型的风险水平及其与同类模型的对比情况。公司还有权评估他们开发或增强的任何模型的风险(例如,通过微调)。

评估:介绍 Model Risk Evaluation Engine

Model Risk Evaluation Engine 现已纳入 watsonx.governance,有助于对基础模型进行定量风险评估。它计算与 AI Risk Atlas 中一组定义的风险维度相关的指标。通过为多种基础模型计算这些指标,公司可以选择满足其业务目标的模型,同时符合他们的风险偏好。

Model Risk Evaluation Engine 支持对 IBM watsonx.ai 大型语言模型以及任何外部大型语言模型进行评估。评估引擎的完整结果可以保存到 watsonx.governance 的治理控制台中,或导出为 PDF 报告。

Model Risk Evaluation Engine 有助于完成以下任务:

  • 使用 watsonx.ai 作为推理引擎计算指标
  • 计算 watsonx.ai 中基础模型的风险指标
  • 外部基础模型的计算风险指标
  • 在治理控制台 (OpenPages) 中存储计算指标
  • 从治理控制台 (OpenPages) 检索计算指标
  • 添加自己的风险和数据集
  • 生成计算指标的 PDF 报告
  • 为执行评估的任何模型实施自己的评分函数(例如,确定性函数或 LLM 即评判者)
  • 在笔记本单元格中以表格或图表格式显示指标

一旦所有这些数据都流回治理控制台,就可用于上述基础模型接入工作流中的评估步骤。

立即访问并深入了解

watsonx.governance 用户可以通过运行以下命令访问 Model Risk Evaluation Engine:

pip install ibm_watsonx_gov[mre]

我们的示例笔记本包含自行试用的说明。Model Risk Evaluation Engine 文档页面还包含更多信息。

如果您希望贵组织能够有效地识别、衡量和缓解生成式 AI 风险, 像 watsonx.governance 这样的端到端人工智能治理解决方案至关重要。您可以自身试用一下,或立即安排时间让我们与 IBM 专家进行讨论。

立即试用 watsonx.governance

了解 IBM 的人工智能治理服务