评估人工智能模型

无论您的模型在哪里构建或运行,您都可以跟踪和衡量人工智能资产的成果,帮助确保它们符合业务流程。

您可以将模型评估作为人工智能治理策略的一部分,以确保部署环境中的模型符合既定的合规性标准,而无论构建和运行模型时使用的工具和框架如何。 此方法可确保模型不受偏见影响,可由业务用户轻松解释和理解,并可在业务交易中进行审计。

服务 Watson OpenScale 服务默认不可用。 管理员必须安装该服务。 要确定是否安装了服务,请打开服务目录。 如果服务已安装并准备就绪,目录中的图块将显示 “准备就绪 ”。

通过 Watsonx.governance ,您可以评估生成式人工智能资产和机器学习模型,从而了解模型在整个人工智能生命周期中的性能。

您可以使用以下类型的评估 watsonx.governance:

  • 质量
    评估您的模型预测与标记测试数据匹配的正确结果的准确性。
  • 公平性
    评估您的模型是否会产生偏向性结果,即对某一群体产生有利的结果。
  • 漂移
    通过将最近的交易与您的训练数据相比较,评估您的模型在准确性和数据一致性方面的变化。
  • Drift v2
    评估模型输出的变化、预测的准确性和输入数据的分布。
  • 模型健康度
    评估模型处理事务的效率。
  • 生成式人工智能质量
    衡量基础模型执行任务的能力

启用评估后,您可以选择按照以下默认计划间隔持续运行评估:

评估: 在线订阅默认时间表 批量订阅默认计划
质量 1 小时 1 周
公平性 1 小时 1 周
漂移 3小时 1 周
漂移 v2 1 天 不适用
健康模范 1 小时 不适用
生成人工智能 质量 1 小时 不适用

当您提供有效载荷数据以评估生成式人工智能资产和机器学习模型时,模型健康评估将默认启用。

评估生成人工智能资产

您可以评估生成式人工智能资产,以衡量您的模型在执行以下任务时的表现:

文本分类
将文本分类到预定义的类别或标签中。
文本摘要
准确、简洁地概括文本。
内容生成
根据您的输入生成相关且连贯的文本或其他形式的内容。
问题回答
针对您的疑问提供准确且符合上下文的答案。
实体抽取
识别文本中的特定信息并对其进行分类。
检索增强生成
将外部知识提取并整合到模型输出中。

您可以运行的评估类型取决于您希望模型执行的任务类型。 生成式人工智能评估计算指标,提供有关模型在这些任务中的性能的见解。 公平性和质量评估只能衡量文本分类任务的性能。 漂移 v2 和生成式人工智能质量评估可以测量任何任务类型的性能。

您可以评估即时模板资产,以衡量由 IBM 创建的模型的性能,也可以评估非 IBM 创建或托管的模型的独立即时模板。 您可以在项目和部署空间中运行这些评估,以了解开发环境中的单个资产。

要进行评估,您必须通过提供包含参考列的测试数据来管理模型评估数据 ,这些参考列包括每项资产的输入和预期模型输出。 您提供的测试数据类型将决定您可以进行的评估类型。 您可以提供反馈或有效载荷数据,以便对生成人工智能资产进行评估。 要进行质量评估,您必须提供反馈数据,以衡量文本分类任务的性能。 公平性和漂移 v2 评估使用有效载荷数据来衡量您的车型性能。 生成式人工智能质量评估使用反馈数据来衡量实体提取任务的性能。

生成式人工智能质量评估可以使用有效载荷和反馈数据来计算以下任务类型的指标:

  • 文本摘要
  • 内容生成
  • 问题回答
  • 检索增强生成

检索增强生成任务需要有效载荷数据。

评估机器学习模型

您可以评估机器学习模型,衡量其预测结果的准确性。 Watsonx.governance 支持对以下机器学习模型类型的评估:

分类模型

根据输入的特征预测分类结果

  • 二元分类:预测两种可能结果之一
  • 多类分类:预测几种结果之一
回归模型

预测连续数值结果

通过 watsonx.governance ,您可以在部署空间中评估机器学习模型。 要进行评估,您必须准备评估模型,提供有关您的训练数据和模型输出的模型详细信息。

您还必须管理模型评估数据,以确定可以运行哪种评估来生成指标洞察。 为了进行质量评估,您必须提供反馈数据,这些数据应包含与训练数据相同的结构和预测列,以及已知的模型结果。 为了进行公平性、漂移和漂移 v2 评估,您必须提供与训练数据结构匹配的有效载荷数据。

Watsonx.governance 记录这些数据类型,以计算评估结果的指标。 您必须发送模型交易,才能持续获得准确的结果。

您还可以创建自定义评估和指标,以获得有关车型性能的更多见解。 如需了解您的模型如何预测结果,您可以配置可解释性。

了解更多

父主题: 管理 AI 资产