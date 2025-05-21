当我们决定为某个特定的业务问题构建 ML 模型时，我们希望选择一种能够最大限度减少误差并捕捉潜在信号的模型架构。偏差和方差代表预测误差的两个来源。偏差可以衡量由于过于简单化的假设而导致的预测与真实值的差距，而方差则捕捉基于不同训练数据的预测波动程度。
要构建能够很好地概括未见数据的模型，了解和管理这种权衡至关重要。偏差较大的模型容易出现欠拟合，从而丢失重要模式，而方差较大的模型容易出现过拟合，从而将噪声像信号一样捕捉。达到正确的平衡是有效机器学习设计的核心，也有助于解释为什么在训练数据方面表现良好的模型在现实世界中仍然可能失败。
在本阅读解释器中，我们深入探讨偏差-方差权衡和预测误差的技术细节，描绘如何为数据集构建正确的模型。
在线性回归或 K 最近邻（KNN）等预测模型中，偏差和方差是相互依存的：
在本阅读解释器中，我们以线性回归为例来说明模型复杂性如何影响预测结果的偏差和方差。回想一下，在线性回归中，评估指标由均方误差 (MSE) 定义：真实值与预测值之间的平均平方误差。较大的 MSE 表示模型与训练数据的拟合度较差，而较小的 MSE 表示模型与训练数据的拟合度较好。
MSE 定义为：
或表示为残差平方和：
假设我们有了一组输入值 X 和相应的输出值 Y。X 和 Y 之间的真实关系是非线性的 — 想象成一个平滑的、弯曲的 U 形，就像正弦波一样。但我们并不知道其潜在功能。相反，我们观测到的是与之近似的噪声数据点。
我们现在要建立一个模型，通过 X 来预测 Y。
为了说明模型复杂性如何影响性能，我们可以尝试拟合三个复杂性不断增加的模型：一个线性模型、一个中等复杂度的多项式模型和一个非常复杂的多项式模型。
这种噪声组成引入了随机性，模拟真实世界的数据。多项式是涉及 X 的幂乘以系数之和的数学表达式。
例如，1 阶多项式为：
该模型表示为一条直线：
该模型非常简单，并强烈假设 X 和 Y 之间是线性关系。但数据明显呈现曲线模式。结果：
这是一个欠拟合示例 — 模型太简单，无法学习真实的结构。
4 阶多项式为：
现在我们使用一个包含 x 的幂的多项式，其上限为 :
该模型足够复杂，可以捕捉数据曲线，而不会对噪声太敏感。
这是我们示例中表现最好的模型，具有很好的通用性。
25 阶多项式为：
该模型包括 26 个参数，具有很高的灵活性，并且与训练数据非常接近，甚至包括随机噪声。曲线看起来非常弯曲并且过拟合数据。
这是过拟合的一个示例 — 模型在学习信号的同时也学习了噪声，因此不能很好地泛化到未见过的数据中。
阶数越高，曲线变得越“摆动”，它就越能适应训练数据（包括信号和噪声）。
在上面的示例中，我们可以看到模型复杂性和参数数量直接影响偏差-方差权衡。随着模型变得越来越复杂，参数越来越多，测试集中预测值的变异性也会增加，从而导致方差变大。然而，随着模型简化和参数数量的减少， 预测增加。
因此，我们在构建机器学习模型时，目标是同时提供偏差和方差，以实现最佳模型性能。这种优化不仅能从训练中产生良好的结果，还能很好地泛化到未见过的测试数据。下一节，我们将深入探讨偏差和方差计算的数学细节，以及为什么机器学习模型包含由偏差、方差和不可约误差组成的不确定性。
了解偏差和方差在现实世界机器学习模型中的表现方式对于诊断和提高性能至关重要。下一节，我们将深入探讨高偏差和高方差模型如何导致 AI 系统中可能出现的不良性能。
高偏差模型通常过于简单，无法捕捉数据中的真实模式。它们欠拟合训练集，导致训练和测试的准确性较差。一个典型的例子是将线性回归应用于之前显示的非线性数据。如果功能与目标之间的真实关系是二次函数或正弦函数，而我们拟合的是一条直线，那么模型就无法捕捉到潜在结构。
症状：训练和测试集的误差率都很高。偏差变大并导致训练集和测试集的性能不佳。
诊断这些误差的一些实用工具包括：
学习曲线（见第 I 部分）：
如果训练误差较低，而验证误差较高，且差距无法缩小，则表明方差较大。交叉验证可用于诊断模型的性能，并对所选训练集的误差进行平均。
在实践中，控制偏差-方差权衡不是选择“完美”模型，而是通过各种策略来管理复杂性。我们可运用多种技术，通过应用以下某些策略来控制预测误差的可变性：
正则化是指一组用于约束或惩罚模型复杂性以提高泛化能力（即在未见数据上的性能）的技术。在数学术语中，正则化通过添加惩罚项来修改原始损失函数，从而抑制复杂性（通常表现为权重过大或模型过于灵活）。
目标是防止过拟合，尤其是在处理高维数据或有限数据时。在训练机器学习模型时，我们通常会最小化损失函数，例如均方误差 (MSE)
RSS=∑i=1n(yi-yi^)2
通过正则化，我们对这个目标增加了惩罚。
LossRidge=∑i=1n(yi-yi^)2+λ*惩罚
此处
λ 是一个超参数，用于控制拟合训练数据和保持模型简单之间的权衡。
它增加的惩罚与系数大小的平方成正比。这样可以避免权重过大，从而减少方差。惩罚项确保预测能力低的功能具有较低的值，从而有效地降低参数的系数。
鼓励稀疏性：
Losslasso=∑i=1n(yi-ŷi)2+λ∑j=1p|βj|
它可以完全消除不相关的功能，简化模型，减少方差。惩罚期限 USD{\sum_{j=1}^{p} |\beta_j}USD 确保将无关紧要的功能减少到零，从而有效地完全消除功能。
通常通过超参数来控制模型的复杂性和正则化强度。网格搜索或随机搜索与交叉验证或贝叶斯优化等技术可以帮助找到一个模型，在保留数据上平衡偏差和方差。
偏差-方差权衡不仅是理论。它还在深度学习和大规模 AI 系统中起着关键作用。在现代 AI 时代，神经网络的选择在管理偏差和方差之间的权衡中起着关键作用。下面介绍两种基础架构（CNN 和 RNN）如何在实践中实现这种平衡。
1. 卷积神经网络 (CNN)：CNN 专为具有空间结构的数据（最常见的是图像）而设计。它们的功能使其能够减少方差，同时保持足够的表现力以保持低偏差。
2. 循环神经网络 (RNN)：RNN 专为文本、语音或时间序列等序列数据而设计，其中当前输出取决于先前的元素。其设计试图平衡长期依赖关系（减少偏差）和训练稳定性（控制方差）。
让我们深入了解偏差-方差权衡的数学基础。回顾前面的示例，我们的目标是减少预测值和实际值的总误差。该误差由三个部分组成：偏差、方差和不可约误差。我们可以分析模型的预期平方预测误差：
f^(x)
与真实函数 f(x) 相比，
其中 f^(x) 是从数据集 D 中学习到的，x 是真实（未知）函数。
设：
y=f(x)+ε,ε∼N(0,σ2)
这意味着对于函数 y=f(x)+ε，误差（用 ε 表示）呈正态分布，均值为 0，方差为 σ2 ，σ 表示分布的标准偏差
f^(x) 是模型在输入 x 处的预测值
期望值（或平均值）取自不同的训练数据集 D 和噪声 ε。符号 E 用于表示“期望值”或“预期值”，即分布平均值的真实值
我们对单点 x 处的预期预测误差感兴趣：
ED,ε[(y-f^(x))2]
替换：
y=f(x)+ε
因此表达式变为：
=ED,ε[(f(x)+ε-f^(x))2]
展开平方：
$=ED,ε[(f(x)-f^(x))2+2(f(x)-f^(x))ε+ε2]$
使用线性拆分期望值（线性是一个简单的代数概念，例如，E[A+B]=E[A]+E[B]）：
=ED[(f(x)-f^(x))2]+2ED,ε[(f(x)-f^(x))ε]+Eε[ε2]
现在，因为：
E[ε]=0⇒E[(f(x)-f^(x))ε]=0
E[ε2]=σ2
我们得到：
ED[(f(x)-f^(x))2]+σ2
加减
ED[f^(x)]：
ED[(f(x)-f^(x))2]=ED[(f(x)-ED[f^(x)]+ED[f^(x)]-f^(x))2]
设：
a=f(x)-ED[f^(x)]
b=ED[f^(x)]-f^(x)
然后：
ED[(a+b)2]=a2+ED[b2]+2aED[b]
由于 ED[b]=0，交叉项消失，我们得到：
=(f(x)-ED[f^(x)])2+ED[(f^(x)-ED[f^(x)])2]
ED,ε[(y-f^(x))2]=$$(f(x)-ED[f^(x)])2+ED[(f^(x)-ED[f^(x)])2]+σ2
在此处，第一项是偏差平方，第二项是方差，第三项是不可约误差
这表明总预期预测误差可以分解为：
- 偏差²：模型中错误假设导致的误差（例如，欠拟合、模型过于简单）
- 方差：对训练数据的敏感度误差（例如，过拟合、模型过于复杂）
- 不可约噪声：观测中不可避免的随机性和误差
总之，偏差和方差是机器学习中预测误差的两个基本来源。理解这种权衡不仅仅是一种理论练习，它直接决定了我们在实践中设计、训练和部署 ML 模型的方式。
无论您选择简单的线性模型还是复杂的深度神经网络，认识到欠拟合和过拟合之间的平衡对于构建稳健的 AI 系统至关重要。虽然我们将均方误差 (MSE) 作为损失函数，但这种权衡适用于各种分布和误差指标，因此是监督学习中的一个普遍考虑因素。
近年来，研究人员在深度神经网络等大型、过度参数化的模型中观测到有趣的行为。尽管这些模型容量很高，但即使完全符合训练数据，它们通常也能很好地泛化，这似乎违背了传统的偏差-方差框架。
这种令人费解的行为在 Belkin 等人（2019 年）的《Reconciling modern machine learning and the bias-variance trade-off》等著作中经过深入探讨，引入了“双下降”的概念，而 Bubeck 等人在《A universal law of robustness via isoperimetry》中提出了泛化的几何解释。
随着我们构建更强大的 AI 系统，更深入地了解这些动态特性变得至关重要。这不仅有助于优化性能，还有助于解释模型行为、确保公平性，并推进负责任的 AI 实践。
[1]: T. Hastie、R. Tibshirani 和 J. Friedman。《The Elements of Statistical Learning》。 《Springer》。
[2]：G. James、D. Witten、T. Hastie 和 R. Tibshirani。《An Introduction to Statistical Learning》。《Springer》。
[3]：M. Belkin、D. Hsu、S. Ma 和 S. Mandal（2019 年）。《Reconciling modern machine learning and the bias-variance trade-off》。《Proceedings of the National Academy of Sciences》，116(32)，15849–15854。
[4]：S. Bubeck、Y. T. Lee、E. Price 和 I. Razenshteyn（2021 年）。《A universal law of robustness via isoperimetry》。《Advances in Neural Information Processing Systems》，34，10167–10179。