评估部署情况
在部署空间中配置 Watson OpenScale 评估,以获取有关模型性能的洞察。 在配置评估时,您可以在部署空间中直接分析评估结果并建模交易记录。
Watson OpenScale 评估您的模型部署,帮助您衡量性能并理解模型预测结果。 在配置模型评估时, Watson OpenScale 系统会为每次评估生成指标,这些指标提供不同的洞察信息供您查看。 Watson OpenScale 还会记录评估过程中处理的交易,帮助您理解模型预测是如何得出的。 有关更多信息,请参阅 《使用...评估人工智能 Watson OpenScale 模型 》。
若您已拥有一个已 Watson OpenScale 配置的实例,即可无缝创建在线部署,随后监控部署结果的公平性、质量、漂移及可解释性。
下图展示了在部署环境中评估模型的过程。 在此示例中,您可以先将预测模型和输入数据从项目推送到部署空间。 在推广模型后,您可以通过提供测试输入数据来测试在线部署效果。 基于模型生成的预测结果,您可以监控部署结果的公平性与准确性,审查部署交易,并探索各种场景以提升预测准确度。 您可以根据提供的评估见解来 Watson OpenScale 更新模型。
典型的场景遵循以下顺序:
- 创建一个部署空间,并将一个 Watson OpenScale 实例与该部署空间关联,以启用所有监控功能。 您可以根据需求选择部署空间的类型,例如生产环境或预生产环境。
- 将训练好的机器学习模型及其输入数据(有效负载)部署到部署空间,并为该模型创建在线部署。
- 在部署测试选项卡中,提供输入数据并获取预测结果。
- 在“评估”选项卡中,配置评估以监控部署的质量、公平性和可解释性。 提供所有必需的模型细节,以便 Watson OpenScale 能够连接到模型、训练数据和有效载荷数据,并连接到用于存储评估结果的存储库。
- 配置公平性监测器,以确保模型产出无偏见的结果。 选择要监控公平性的字段,然后设置阈值,用于比较监控组与基准组的预测结果。 例如,你可以评估模型,确保其基于性别的预测结果没有偏见。
- 配置质量监控器,根据模型基于标注测试数据(称为反馈数据)生成的正确结果数量来评估模型性能。 设置质量阈值,用于追踪指标值超出可接受范围的情况。
- 配置漂移监控器,确保您的部署保持最新且一致。 使用特征重要性来确定特征漂移对模型的影响。 例如,重要特征中微小的漂移可能对模型产生的影响,要大于次要特征中中等程度的漂移。
- 您可以监控部署结果的可解释性,以理解导致模型做出预测的因素。 选择最适合您需求的解释方法。 例如,您可以选择SHAP(Shapley加性解释)方法进行全面解释,或选择LIME(局部可解释模型无关解释)方法进行快速解释。
- 最后,您可以检查模型评估结果,找出那些只需对少数输入参数进行微调就能改变决策结果的领域。 测试场景以确定改变输入是否能提升模型性能。
请观看以下视频,了解如何使用 Watson OpenScale 来监控部署空间中的部署。
本视频提供了一种可视化学习方法,用于掌握本文档中的概念和任务。
以下各节将说明如何在部署空间中配置 Watson OpenScale 评估并查看模型洞察:
准备在部署环境中评估模型
要配置部署空间 Watson OpenScale 中的评估,您必须在对话框 关联服务实例 中 关联服务实例 选择相应选项后才能运行评估。 在 “关联实例用于评估 ”窗口中,您必须选择要使用的实例 watsonx.governance ,并勾选 “关联服务实例”选项 ,将实例与您的项目关联起来。 您必须被分配为项目的管理员角色,才能关联实例。

若您的 watsonx.governance 实例尚未关联数据库,则必须先关联数据库才能运行评估。 要关联数据库,您还需在 “所需数据库 ”对话框中单击 “关联数据库 ”按钮以连接数据库。 您必须被分配为项目的管理员角色, watsonx.governance 才能关联数据库。

在部署空间中配置 Watson OpenScale 评估
关联实例 Watson OpenScale 后,您可以选择部署项来查看 “评估 ”和 “交易 ”选项卡,通过这些选项卡可配置评估并查看模型洞察。 若要在部署空间中开始配置模型评估,您可以选择 “配置 OpenScale 评估设置 ”,这将打开一个向导,引导您完成一系列步骤。

您只能在部署空间中评估在线部署。
提供模型详情
要配置模型评估,您必须提供模型详细信息,以便 Watson OpenScale 系统能够理解您的模型设置方式。 您必须提供有关训练数据和模型输出的详细信息。

有关更多信息,请参阅提供模型详细信息。
配置可解释性
您可以在中配置可解释性功能 Watson OpenScale ,以揭示哪些特征对模型预测的交易结果产生影响,并预测哪些变化会导致不同的结果。 您可以选择配置本地解释功能,以分析特定模型交易中各因素的影响;同时也可配置全局解释功能,以分析影响模型结果的普遍性因素。

有关更多信息,请参阅配置可解释性。
配置公平性评估
您可以配置公平性评估,以确定模型是否对不同群体产生有偏见的输出结果。 要配置公平性评估,您可以指定期望代表理想结果的参考组以及希望使用的公平性指标。 您还可以选择与参照组进行比较的特征,以评估其偏差。

有关更多信息,请参阅《 配置公平性评估》。
配置质量评估
您可以配置质量评估,以了解模型预测准确结果的程度。 要配置质量评估,您必须为每个指标指定阈值,以便能够 Watson OpenScale 识别模型质量下降的情况。

有关更多信息,请参阅配置质量评估。
配置漂移 v2 评估
您可以配置漂移 v2 评估,以衡量数据随时间的变化,从而确保模型获得一致的结果。 要配置漂移 v2 评估,您必须设置阈值,以便 Watson OpenScale 能够识别模型输出中的变化、预测的准确性以及输入数据的分布情况。 您还必须选择重要特征,以便能够 Watson OpenScale 测量价值分布的变化。

有关更多信息,请参阅配置漂移 v2 评估。
运行评估
配置评估后,您可以关闭向导来运行评估。 要运行评估,您必须在 “评估 ”选项卡的 “操作 ”菜单中选择 “立即评估 ”以发送模型交易。

审查评估结果
您可以在 “评估 ”选项卡上分析评估结果,从而深入了解模型性能。 要分析评估结果,您可以点击评估部分中的
箭头,或使用操作菜单查看模型的详细信息。

有关更多信息,请参阅 《评估结果的审查》。
审查模型事务
您可以在 “交易 ”选项卡上分析模型交易,以了解模型如何预测结果,并预测哪些变化可能导致不同的结果。 要分析交易,您可以选择查看解释说明,这些说明详细说明了模型预测是如何得出的。

有关更多信息,请参阅 《解释模型交易》。