什么是机器学习中的模型性能？| IBM

作者

Staff Writer

IBM Think

Staff Editor, AI Models

IBM Think

什么是模型性能？

模型性能是指根据各种指标衡量机器学习 (ML) 模型执行其设计任务的效果。衡量模型性能对在将 ML 模型发布到生产环境之前对其进行优化以及在部署之后进行增强都至关重要。没有经过适当的优化，模型可能会产生不准确或不可靠的预测，并存在效率低下的问题，从而导致性能不佳。

评估模型性能发生在机器学习管道的模型评估和模型监控阶段。人工智能 (AI) 从业者完成 ML 项目初始阶段后，他们会跨越多个数据集、任务和指标来评估模型的性能，以衡量其有效性。部署模型后，机器学习运营 (MLOP) 团队会监控模型性能，以实现持续改进。

影响模型性能的因素

AI 模型的性能通常使用测试集来衡量，V将模型的输出与基准测试集上的预测进行比较。通过性能评估获得的洞察分析，有助于确定模型是否已准备好进行现实世界的部署，或者是否需要调整或进行额外训练。

以下是可能影响机器学习模型性能的一些因素：

数据质量
数据泄露
特征选择
模型拟合
模型漂移
偏见

数据质量

模型的优劣取决于用于训练它的数据。当模型的训练数据存在缺陷时，例如包含重复值、缺失值以及错误的数据标签或注释等不准确或不一致的情况，其性能会大打折扣。缺乏平衡（例如，某个场景中的值远超另一个场景，或者训练数据集不够充分或不够多样化，以至于无法正确捕捉相关性）也可能导致结果偏差。

数据泄露

当模型在训练期间使用在预测时本不可用的信息时，就会发生机器学习中的数据泄漏。这可能是由于数据预处理错误，或由于将数据未能正确划分为训练集、验证集和测试集而造成的数据污染所导致的。数据泄漏会导致预测模型在对未知数据进行泛化时遇到困难，产生不准确或不可靠的结果，或者虚增或虚减性能指标。

特征选择

特征选择是指从数据集中挑选最相关的特征，用于模型训练。数据特征会影响机器学习在训练过程中配置其权重的方式，从而影响性能。此外，将特征空间缩减为一个选定的子集，可以帮助提升性能，同时降低计算需求。然而，选择不相关或无关紧要的特征可能会削弱模型性能。

模型拟合

当 ML 模型过于复杂并且与其训练数据过于接近甚至完全拟合，从而无法很好地泛化新数据时，就会发生过拟合。相反，当模型过于简单，以至于无法捕获训练和测试数据中的潜在模式时，就会发生欠拟合。

模型漂移

模型漂移是指由于数据或输入输出变量之间关系的变化，而导致模型性能下降的现象。这种衰减会对模型性能产生负面影响，导致错误的决策和不良的预测。

偏见

AI 中的偏见可能在机器学习工作流的任何阶段引入，但在数据处理和模型开发阶段尤为普遍。数据偏差会在训练和微调数据集的不具代表性性质对模型行为和性能产生不利影响时发生。同时，算法偏差并非由算法本身引起，而是源于数据科学团队收集和编码训练数据的方式，以及 AI 程序员设计和开发机器学习算法的方式。AI 偏见可能导致输出不准确，甚至产生潜在的有害后果。

行业时事通讯

专家为您带来最新的 AI 趋势

获取有关最重要且最有趣的 AI 新闻的精选洞察分析。订阅我们的每周 Think 时事通讯。请参阅 IBM 隐私声明。

模型性能指标

将指标与模型要实现的业务目标相结合非常重要。虽然每种类型的机器学习模型都有自己的一套评估指标，但许多模型都共享一些通用指标：

准确性
召回率
精确度
F1 分数

准确性

准确率的计算方法是正确预测数除以预测总数。这个百分比是一个非常常见的指标。

模型精度和模型性能常被混为一谈，但模型精度只是模型性能的一个方面。虽然它们相互交织，但仅靠准确的预测无法提供模型性能的整体视图。

召回率

召回率量化了真正的数量 - 即实际正确的预测数。它也被称为灵敏度率或真阳性率 (TPR)。

这一指标在医疗保健领域至关重要，例如在诊断疾病或检测癌症时。高召回率的 ML 模型能够正确识别阳性病例，同时最大限度地减少假阴性（即实际阳性但误测为阴性的病例）

$R e c a l l = \frac{T P}{T P + F N}$

精确度

准确率是指所有被预测为阳性的样本中实际也阳性的比例。高精度的机器学习模型可以最大限度地减少假阳性（即实际为阴性但被误测为阳性的病例）。

该指标在金融领域至关重要，例如在检测欺诈时。被标记的交易必须确实是欺诈性交易（真阳性），因为将合法交易误标为欺诈（假阳性）可能会产生负面后果。

$P r e c i s i o n = \frac{T P}{T P + F P}$

F1 分数

F1 分数是召回率和精确度的调和平均值，将这两个指标融合至一个指标。它将这两个指标视为同等重要，以平衡假阳性或假阴性。它对于不平衡的数据尤其有用，例如在检测罕见疾病时，因为阴性病例的数量远超阳性病例。

$F 1 = \frac{2 * P r e c i s i o n * R e c a l l}{P r e c i s i o n + R e c a l l}$

很多 AI 框架（例如基于 Python 的 PyTorch、scikit-learn 和 TensorFlow）均提供了用于计算准确性、召回率、精确率和 F1 分数的内置函数。它们还将模型预测可视化为混淆矩阵，即表示预测值和实际值的表格，其中方框分别表示真阳性、假阳性、真阴性和假阴性的数量。

分类模型性能指标

分类模型将数据点分类到称为类的预定义组中。以下是一些特定于分类模型的指标：

ROC 曲线：接收者操作特征曲线（ROC）曲线用于直观展示真阳性率与真阴性率之间的关系。图中绘制了模型分类中使用的每个阈值的真阳性率与真阴性率的对比情况。曲线下面积（AUC）统计量源自 ROC 曲线，衡量随机选择的阳性置信度高于随机阴性的可能性。对于涉及二元分类（将数据分为两个不同类）的任务，AUC-ROC 是一个很有用的指标。

对数损失：对数损失评估模型对其分类的置信度，对置信度高的错误分类的惩罚力度要大于置信度低的分类。这在处理概率性输出时尤其有用，因为模型需要学会对正确的分类保持确信，而对不正确的分类保持不确定。对数损失值越低，表示性能越好。

回归模型性能指标

回归模型用于涉及连续值的预测，例如零售额估计和股票价格预测。基于这些算法处理可量化的概念，其指标衡量预测中的误差：

平均绝对误差 (MAE) 的计算方法是所有误差绝对值之和除以样本量。它衡量预测值和实际值之间的平均绝对差。

均方误差 (MSE) 的计算方法是所有训练样本中预测值与真实值之间的平方差的平均值。对误差进行平方可以惩罚大的错误，并激励模型减少这些错误。

均方根误差 (RMSE) 是 MSE 的平方根。在求平均误差之前对误差进行平方，会更严厉地惩罚较大错误，从而再次鼓励模型将其最小化。

自然语言处理模型性能指标

这些指标评估自然语言处理 (NLP)模型的性能。它们也被用作大型语言模型 (LLM) 的基准。

以下是一些 NLP 模型的定量指标：

复杂度可衡量模型的预测能力。LLM 的复杂度分数越低，它理解任务的能力就越好。

双语评估辅助研究 (BLEU) 通过计算 LLM 的预测翻译和人工翻译之间匹配的 n 元语法（由 n 个相邻的文本符号组成的序列）来评估机器翻译。

以回忆为导向的摘要评估 (ROUGE) 可文本摘要进行评估，并有多种类型。例如，ROUGE-N 执行与 BLEU 类似的摘要计算，而 ROUGE-L 则计算预测摘要和人工生成摘要之间的最长公共子序列。

定性指标则包含连贯性、相关性和语义含义等指标，通常由人类评估人员对模型进行检查和评分。定量和定性指标的平衡可以进行更细致的评估。

计算机视觉模型性能指标

计算机视觉模型，特别用于实例分割和对象检测的模型，通常使用以下两种常见的性能衡量标准进行评估：

交并比 (IoU) 计算交集面积与并集面积的比率。交集指的是模型预测的检测框与真实目标之间的重叠区域。Union 表示边界框和实际对象的总面积。计算机视觉模型使用 IoU 来评估定位检测到的对象的精确度。

平均精度均值 (mAP) 计算所有对象类别的平均精度分数的均值。计算机视觉模型使用 IoU 来评估预测和检测的准确性。

提升模型性能的策略

大多数优化机器学习性能的技术，都是在模型开发、训练和评估过程中实施的。但是，一旦模型部署到现实世界中，就必须持续追踪其性能。模型监测能力为如何逐步提升性能提供了决策依据。

优化 ML 模型性能需要采用以下一种或多种技术：

数据预处理
防止数据泄露
选择合适的功能
超参数调整
集成学习
迁移学习
获得最佳模型拟合
防止模型漂移
解决偏见问题

许多 AI 框架都预置了支持上述大部分技术的功能。

数据预处理

建立和维护严格的数据预处理或数据准备程序有助于避免数据质量问题。虽然数据清理、去噪和数据规范化是数据预处理的主要内容，但数据科学家也可以使用数据自动化工具甚至人工智能驱动的工具来节省时间和精力，并防止人为错误。对于数据集不足或不平衡，合成数据可以填补空白。

防止数据泄露

谨慎处理数据是防止数据泄露的关键。必须将数据正确地划分为训练集、验证集和测试集，并为每个集单独进行预处理。

交叉验证也有所帮助。交叉验证将数据划分成多个子集，并在规定次数的迭代中，使用不同的子集进行训练和验证。

选择合适的功能

功能选择可能具有挑战性，需要领域专业知识才能确定最基本、最具影响力的功能。了解每个功能的重要性，并检查功能与目标变量（即模型负责预测的因变量）之间的相关性，这一点非常重要。

监督学习的功能选择方法包括包裹式方法和嵌入式方法。包裹式方法使用不同的功能子集来训练机器学习算法，在每次迭代中添加或删除特征并测试结果，以确定能够实现最佳模型性能的功能集。嵌入式方法将功能选择集成到模型训练中，识别出表现不佳的功能，并将其从未来的迭代中剔除。

通过无监督学习，模型可自行找出数据功能、模式和关系。无监督学习的功能选择方法包括主组件析 (PCA)、独立组件分析 (ICA) 和自动编码器。

超参数调优

超参数微调，也称为超参数优化或模型调整，可识别、选择和优化深度学习模型的超参数，以获得最佳训练性能。超参数主导着模型的学习过程，找到合适的超参数组合和配置，能够增强模型在现实世界中的性能。

常见的超参数调优方法包括网格搜索、随机搜索、贝叶斯优化和 Hyperband。数据科学家还可以实施自动化方法，通过算法发现适合其用例的最佳超参数。

集成学习

集成学习结合多种模型以提升预测性能，其假设模型的集合或集成能够比单个模型产生更好的预测。

以下是一些热门的集成学习技术：

Bagging，也称为引导聚合，以并行且彼此独立的方式进行模型训练。然后，它通过对预测结果取平均值（用于回归任务）或取多数值（用于分类问题），来计算出更准确的估计值。

Boosting 按顺序训练模型，并在每次迭代中纠正先前的错误。它会在后续模型中赋予错误或错误分类实例更大的权重，从而聚焦于具挑战性的数据点，并在此过程中提升性能。

Stacking 使用相同的数据集训练多个模型，但对每个模型应用不同的训练算法。然后，它使用已编译或堆栈的预测来训练最终模型。

迁移学习

迁移学习利用预训练模型在初始任务或数据集上获得的知识，并将其应用于新的但相关的目标任务或数据集。将预训练模型重新用于不同的任务，能够提升该模型的泛化能力，从而有助于优化性能。

获得最佳模型拟合

管理过度拟合和欠拟合是机器学习的一个核心挑战。最佳拟合模型可以准确识别数据中的模式，而不会对随机波动或噪声过于敏感。

避免过拟合和欠拟合的技术包括：找到合适的训练时长，以给模型足够的学习时间；通过数据增强来扩展训练集；以及通过正则化对具有较大系数的输入参数施加惩罚，以减少模型的方差。

防止模型漂移

漂移检测是模型监控和可观察性的核心方面，可以帮助防止模型漂移。例如，AI 漂移检测器会自动识别模型的精度何时下降或漂移到预定义的阈值以下，而监控工具会持续观察漂移情况。

一旦检测到漂移，就可以实时更新 ML 模型，或使用包含更新、更相关样本的新数据集进行重新训练。

解决偏见问题

减轻 AI 偏见始于人工智能治理，其涵盖护栏、流程和标准，以帮助确保 AI 系统和工具合乎道德且安全。以下是一些可以防止偏见的负责任的 AI 实践：

多样化数据来源，并纳入能代表各种条件、背景和人群的数据。
培养多元化的团队，促进包容性 AI 设计与开发。
采用可解释的 AI 技术来提高透明度，例如，使用模型无关的局部可解释 (LIME) 来解释 ML 算法对分类器的预测，使用 Shapley Additive Explanations (SHAP) 来解释任何 ML 模型的输出。
将公平指标纳入开发流程，并使用算法公平性工具和框架。
进行定期审计，评估数据和算法是否存在偏见。
对已部署的 ML 模型实施持续性能监控，以快速检测并纠正结果中的偏见。

Mixture of Experts | 12 月 12 日，第 85 集

解码 AI：每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见，带来最新的 AI 资讯与深度解析。

观看 Mixture of Experts 所有剧集

解锁生成式 AI + 机器学习的强大功能

了解如何自信地将生成式 AI 和机器学习融入您的业务中。

什么是模型性能？

作者

什么是模型性能？

影响模型性能的因素

数据质量

数据泄露

特征选择

模型拟合

模型漂移

偏见

专家为您带来最新的 AI 趋势

谢谢！您已订阅。

模型性能指标

准确性

召回率

精确度

F1 分数

分类模型性能指标

回归模型性能指标

自然语言处理模型性能指标

计算机视觉模型性能指标

提升模型性能的策略

数据预处理

防止数据泄露

选择合适的功能

超参数调优

集成学习

迁移学习

获得最佳模型拟合

防止模型漂移

解决偏见问题

解码 AI：每周新闻摘要

资源