苹果在加工设施中传送的俯视图,前景中有一只手握着一只苹果

什么是模型评估?

模型评估的定义

模型评估是指衡量机器学习模型表现优劣的过程。这个过程提出的问题是:当您的模型对真实世界做出判断时,其正确率有多高?或者,对于连续性结果,其接近正确的程度如何?

判断失误的代价

随着企业对 AI 模型的依赖加深,涉及的真金白银风险日益增加。2021 年 2 月,Zillow 领导层依据其预测房屋价值的机器学习模型下了重注。该模型不仅提供估值,Zillow 还经常通过名为 Zillow Offers 的关联业务自行购入其模型定价的房屋。

仅仅八个月后,Zillow 便终止了 Zillow Offers 业务,并计提了 3.04 亿美元的库存减记。该公司表示,原因在于购入的许多房屋价格超出了其认为可卖出的价格。公司股价应声下跌,Zillow 裁员约 25%。

归咎于何?其 AI 模型不够精准,无法应对后续市场变化。其预测和预报与实际房屋价值不符。1

随着机器学习模型深入医疗、招聘及刑事司法领域,评估不佳的代价会给真实人群带来切实伤害。在整个数据科学及各行业中,正确选用模型评估指标已成为负责任部署 AI 的重要环节。

模型类型与指标

不同模型旨在完成不同任务。

分类模型将输入数据归入几个类别之一。(将患者标记为脓毒症或非脓毒症的模型即为分类模型。)

回归模型则输出一个连续范围内的数值。(Zillow 的房价模型即为回归模型。)

不同的模型类型需要不同类型的测试。通常,通过多个指标综合考量性能最为理想,因为没有任何单一指标是完全确定的。 

分类模型与分类指标

某些模型处理“分类问题”,即它们将世界划分为不同类别。分类指标同样较为粗略。 模型准确率相当直观:将正确预测的数量除以总预测数量。(在机器学习中,“预测”一词指模型做出的有根据的推测——即使推测的是当下而非未来的事情。)

模型准确率的问题在于,高数值可能会让利益相关者产生错误的安全感。一个旨在检测 罕见但灾难性事件(例如某种癌症)的模型,可能会习惯性地将每次扫描结果都归为阴性。由于 99.99% 的阴性判断是正确的,该模型将获得很高的模型准确率。但对于遭遇罕见假阴性的不幸患者而言,这种高准确率不过是于事无补的安慰。该模型在技术意义上准确,但并未履行其职责。

因此,将分类模型的性能拆解为其所作出的预测或合理推测的类型会很有帮助。在二元分类任务中——例如癌症检测——存在四种可能的结果(当排列在 2x2 网格中时,该框架常被称为“混淆矩阵”):

  1. 真阳性(准确检测出癌症)
  2. 真阴性(准确排除癌症)
  3. 假阳性(检测出癌症,但结果不准确)
  4. 假阴性(未检测出癌症,且结果不准确)

至此,人们便不难理解为何区分这些类别是有意义的。假阳性癌症诊断无疑会带来创伤,直至进一步检查揭示这只是一场医疗虚惊。但假阴性结果则可能是致命的。

数据科学从业者开发了一系列子指标,用以探查分类器的性能并评估混淆矩阵各象限之间的关系。 

名为精确率的指标询问:在分类器做出的所有阳性预测中,有多少是正确的?

一个车载图像识别算法在测试路段上经过 10 个路口,其中 6 个路口设有停车标志。然而,仅说模型“识别出了全部 6 个停车标志”会忽略精确率方面的关键潜在差异。如果它准确标记了全部 6 个且未产生假阳性,那么其精确率为 6/6,即 100%。然而,如果它标记了这 6 个,但同时凭空生成了 4 个并不存在的停车标志,其精确率仅为 6/10,即 60%。

名为召回率(也称为“真阳性率”)的指标衡量的是细微不同的方面。召回率询问:在所有实际存在的停车标志中,模型捕获了多少个?

设想另一条测试路段有 100 个路口,其中 50 个设有停车标志。捕获了其中 30 个停车标志的模型召回率为 60%;捕获 40 个则为 80%,以此类推。(召回率并不关注误报,因此理论上可以通过训练模型到处都看到停车标志来“骗取”100% 的召回率。)

这两个指标——精确率和召回率——处于一种相互制约的关系中。寻求提升召回率的工程师可能会矫枉过正,创建出一个过于频繁给出假阳性的模型。通常,调整模型就是在管理较高召回率(捕获所有试图检测的现象)与较低精确率(矫枉过正并同时捕获假阳性)之间的权衡。

在处理这种权衡时,机器学习从业者常使用一个名为 F1 分数的指标它是精确率和召回率的“调和平均值”。(调和平均值与更传统的算术平均值不同,因为它会不成比例地受到低数值的影响。因此,只要精确率或召回率中任一较低,F1 分数便会迅速下降。)

完美的 F1 分数为 1.0,但遗憾的是,对于何为足够高的 F1 分数并无放之四海而皆准的指导,具体情境至关重要。2明确的一点是,F1 分数越高越好。越接近 1.0,模型就越能有效地检测出应检测的目标,同时最大限度减少假阳性和假阴性。3

与置信度和阈值相关的分类指标

在分类指标中,有两个指标涉及置信度和 阈值的相关概念。 

模型并不会简单地输出“有停车标志”或“无停车标志”。相反,它会输出类似“此为停车标志的概率为 98%”(高度置信的预测)的信息。或者输出“此为停车标志的概率为 51%”(置信度不高的预测)的信息。 

称为对数损失的指标旨在评估模型的置信度。高度置信的错误会受到严厉惩罚。对于正确预测的低置信度也会受到惩罚,尽管程度较轻。完美的模型在对数损失上的得分为 0,但这几乎无法达到。什么分数算作“好”同样取决于模型和任务类型。

无论模型的置信度分数如何,机器学习模型的人类用户最终都必须确定一个阈值,将模型的推测转化为最终的“是”或“否”判断。一个阈值可能会设立规则:“若置信度 >75%,则输出‘是,有停车标志’。”但人类用户同样可以选择 51% 置信度或 98% 置信度作为阈值。当然,根据所选阈值的不同,模型的最终输出会大相径庭。

ROC 曲线(源于技术短语“受试者工作特征曲线”)及相关指标 ROC AUC(即“曲线下面积”)旨在评估模型在许多不同阈值下的表现。从技术上讲,ROC 曲线绘制了随着阈值变化,真阳性率与假阳性率的对应关系。从概念上讲,ROC AUC 并不纠结于某个具体分界点的判断,而是观察模型的整体区分能力:“无论阈值设在哪里,当确实存在停车标志时,模型是否至少能始终如一地给出较高的置信度分数?”ROC AUC 概括了这种区分正例与负例的整体能力。

AI 学院

为什么说基础模型是 AI 的范式转变

了解灵活、可重复使用的一类全新 AI 模型,这些模型可以带来新收入、降低成本并提高工作效率。还可以参阅我们的指南手册,深入了解这些模型。

回归模型与回归指标

前一节讨论的是“分类”问题,即某一现象(无论是停车标志还是癌症)要么明确存在,要么明确不存在。但许多现象(房屋价值、患者的血糖水平)表现为连续范围,这需要不同的模型及不同的性能衡量方式。处理这类现象的模型输出的是数值而非类别。它们被称为回归模型,并使用回归指标进行评估,这些指标以各种方式询问:“那个数字偏离实际有多远?”

平均绝对误差 (MAE) 询问:“平均而言,我们偏离了多少?”如果模型本周预测某房屋售价为 500000 美元,而实际售价为 525000 美元;下周预测某房屋售价为 400000 美元,而实际售价为 390000 美元,则其平均绝对误差为 17500 美元(25000 + 10000,再除以 2)。MAE 忽略模型的预测是持续偏高还是偏低。它只关注 与实际值之间的平均距离。

均方根误差 (RMSE) 与之类似,但它对偏离较大的数值施加更严厉的惩罚。它通过对误差进行平方——这使得大误差变得更大——然后对所得平均值开平方根来实现这一点。前述示例中的均方根误差为 19039 美元。(相关的 MSE 工作原理相似,但不进行开平方根运算,这使得其可解释性较差,但有时在数学上很有用。)当较大误差会带来特别高昂的代价时,RMSE 非常实用。

一个不太直观的指标是 R 平方。R 平方衡量的并非模型预测值的偏离程度,而是模型能够解释目标变量总体变异的多少。

要了解 R 平方,首先设想一个简易的房价模型,它对每一栋房屋都给出相同的估值:该地区的平均房价。R 平方询问:我们的模型比纯粹的“平均值猜测器”好多少?模型对实际价格变异的捕捉程度越高,其 R 平方值就越高。(R 平方为 0.85 意味着模型解释了结果中约 85% 的变异;R 平方为 0 则意味着它并不比只输出平均值的模型更好。)

与所有指标一样,R 平方也并非尽善尽美。它在处理包含异常值的数据时尤其效果不佳。

 

模型评估中的挑战与问题

并非每个通过考试的学生都真正掌握了知识。学生可能只是记住了闪卡内容,却未内化概念。学生可能作弊了,不知何故提前看到了试题;也可能仅仅是运气好。机器学习模型的情况亦是如此。  

当数据有限时

评估机器学习模型时的一个初级错误,是用模型训练时使用的相同数据来测试模型。该模型可能表现极佳,但这仅仅是因为它本质上记住了数据。它未能针对其本应检测的底层现象归纳出任何规律,因此在真实世界中遇到新数据时很可能会失效。这种类似死记硬背行为的专业术语称为过拟合

通常的防范措施称为训练-测试集划分:将可用数据划分为供模型学习使用的部分(训练数据),以及考试前模型不得查看的另一部分(测试集)。但这一防范措施也可能给出不完美的结果,因为一次不走运的划分可能会歪曲模型的测试结果。此外,如果数据有限,在将数据用于训练与保留用于测试之间就会面临痛苦的权衡。 

机器学习从业者通过交叉验证来解决这些问题。使用交叉验证时,数据集被划分为所谓的。大部分折用于训练模型,而其中一折被保留用于测试。然后,在一个全新的模型副本上重复该过程, 并轮换各折角色;不同的折此时充当测试集。这些不同轮次运行的测试分数会进行平均。这种方法能更稳定地评估模型在新数据上的可能表现,同时还能更充分地利用有限的数据集(因为每个数据点既可以在一种情形下用于训练,又可以在另一种情形下用于测试)。

最终,如果没有一个候选模型的表现足够好,从业者可能会尝试超参数调优——调整诸如模型深度或学习率等内置设置——以观察性能是否有所提升。

在 Python 中,像 scikit-learn 这样的库让交叉验证的实现变得简单,这也是它成为标准做法的原因之一。

当“正确答案”不明晰时

有时所谓的“真实情况”是明确清晰的:患者要么患有癌症,要么没有;房屋以这个或那个价格售出。但随着大语言模型 (LLM) 的出现,模型性能的评判往往不那么界限分明或易于衡量。

由 LLM 驱动的聊天机器人可能面临一些二元任务,例如其陈述事实的对错。但其用户也可能从许多不同且难以定义的维度对其进行评估,例如友好性或帮助性。在此类情况下,不存在单一的正确答案,也没有可供基准比对的“真实值”。人工标注被视为评估 LLM 输出的黄金标准,但这种方法难以规模化。 

最终,在此类情况下,最终的模型评估可能来自于将模型投入实际使用,观察用户是否能从中获取价值。

作者

David Zax

Staff Writer

IBM Think

相关解决方案
IBM Bob

借助您的 AI 合作伙伴 Bob,加速软件交付,实现安全的意图感知型开发。

深入了解 IBM® Bob
IBM® watsonx Orchestrate

使用 IBM watsonx Orchestrate 轻松设计可扩展的 AI 助手和智能体,自动执行重复任务并简化复杂流程。

探索 watsonx Orchestrate
人工智能 (AI) 解决方案

借助 IBM 业界领先的 AI 专业知识和解决方案组合,让 AI 在您的业务中发挥作用。

深入了解 AI 解决方案
采取后续步骤

无论您处于开发生命周期的哪个阶段,Bob 都能满足您的需求,为您构建意图感知、安全一致的智能体式评审体系,从而加速高质量的软件交付。

  1. 了解 IBM Bob
  2. 探索 watsonx Orchestrate
脚注

1. 《Zillow iBuying 房屋估值》,美国有线电视新闻网,2021 年。 

2. 《何为理想的 F1 分数?》OneModel

3. 《计算 F1 分数》,Telnyx.com