标准多变量线性回归等式如下:
其中,Y 是预测值(因变量),X 是任何预测变量(自变量),B 是附加到该自变量的回归系数,X0 是自变量等于零时因变量的值(也称为 y 轴截距)。请注意系数如何标记因变量和给定自变量之间的关系。
多重共线性表示两个或多个预测变量具有近线性关系。Montgomery 等人提供了一个恰当的示例:试想,我们要分析一个供应链配送数据集,而其中的远程配送通常包含大量商品,而短距离配送则总是包含较小的库存。在此情况下,配送距离与商品数量呈线性相关,如图 1 所示。在单个预测模型中将这些变量用作自变量时,便会引发问题。
这只是多重共线性的其中一个示例,而它的解决方法也相对简单:收集更多为样化的数据(例如,具有大量库存的短途配送的对应数据)。然而,收集更多数据并不总是一种可行的解决办法;例如,当所研究的数据中存在多重共线性时。修复多重共线性问题的其他选项包括:增加样本量、减少自变量数量或直接部署其他模型。然而,此类解决方法并不总能成功消除多重共线性,而岭回归则是通过对模型进行正则化来解决多重共线性的另一种方法。1
在最初开发预测模型时,我们经常需要计算系数,因为训练数据中并未明确说明系数。为了估计系数,我们可以使用标准普通最小二乘法 (OLS) 矩阵系数估算器:
了解此公式的运算需要熟悉矩阵符号。简而言之,该公式的目的是通过计算每个独立变量的系数,共同得出最小的残差平方和(也称为平方误差之和),从而找到特定数据集的最佳拟合线。2
残差平方和 (RSS) 可衡量线性回归模型与训练数据的匹配程度。它可由以下公式表示:
此公式可测量训练数据中真实值的模型预测准确性。如果 RSS = 0,则该模型可完美预测因变量。但是,零分并不总是可取的结果,因为它可能表示训练数据存在过拟合的问题,尤其是在训练数据集规模较小的情况下。多重共线性可能是其中的原因之一。
较高的系数估计值往往是过拟合的表现。3如果两个或多个变量具有高度的线性相关性,OLS 可能会错误地返回高值系数。当一个或多个系数过高时,模型的输出会对输入数据的微小变化变得敏感。换句话说,模型在特定训练集上过拟合,并且无法在新的测试集上准确泛化。这种模型被认为不稳定。4
岭回归通过计算考虑潜在相关预测变量的系数修正了 OLS。具体来说,岭回归通过在 RSS 函数中引入正则化项(通常称为惩罚项)来纠正高值系数。该惩罚项是模型系数的平方和。5其表达形式如下:
在 RSS 函数的末尾插入 L2 惩罚项,从而生成一个新的公式,即岭回归估算器。因此,它对模型的影响将由超参数 lambda (λ) 来控制:
请记住,系数标记给定预测变量(即自变量)对预测值(即因变量)的影响。一旦添加到 RSS 公式中,L2 惩罚项就会通过减少所有系数值来抵消特别高的系数。统计学中将此称为系数收缩。因此,上述岭估计会计算新的回归系数,从而降低给定模型的 RSS。这样可以最大限度地降低每个预测变量的影响,并减少对训练数据的过拟合。6
请注意,岭回归不会将每个系数缩小相同的值。相反,系数会按其初始大小的比例缩小。随着 λ 的增大,高值系数的缩减速度大于低值系数。7因此,高值系数的惩罚要大于低值系数。
请注意,L2 惩罚会将系数缩小至零,但永远不会缩小至绝对零;尽管模型功能权重可能变得小到可以忽略不计,但在岭回归中它们永远不会等于零。将系数减小到零,实际上就是将配对预测变量从模型中删除。这称为特征选择,是校正多重共线性的另一种方法。8由于岭回归不会将回归系数减小到零,因此它不执行特征选择。9这通常被视为岭回归的一个缺点。此外,另一个经常提到的缺点是,岭回归在面对严重的多重共线性时无法分离预测变量影响。10
套索回归(也称为 L1 正则化)是线性回归中的另外几种正则化方法之一。L1 正则化的工作原理是将系数减少为零,以便彻底从模型中消除这些自变量。因此,套索回归和岭回归均可降低模型复杂性,尽管其实现方式各有不同。套索回归可减少影响输出的独立变量的数量。岭回归则可降低每个独立变量对输出的权重。
弹性网络是正则化的另一种形式。岭回归是从误差的平方和中获得其正则化参数,套索回归是从误差的绝对值之和获得其正则化参数,而弹性网络则会将这两个正则化参数合并到 RSS 成本函数中。11
主成分回归 (PCR) 也可充当正则化过程。虽然 PCR 可解决多重共线性问题,但其实现方法却不同于岭回归和套索回归(即,通过对 RSS 函数执行惩罚来实现此目的)。相反,PCR 会生成相关预测变量的线性组合,而从中可创建新的最小二乘模型。12
在机器学习中,岭回归有助于减少模型复杂性导致的过拟合。模型复杂性可能源于:
就本质而言,较简单的模型并不比复杂模型表现更好。然而,较高的模型复杂性却可能会抑制模型对训练集之外的新数据进行泛化的能力。
由于岭回归不进行特征选择,因此无法通过消除特征来降低模型复杂性。但是,如果一个或多个特征对模型的输出结果影响过大,则岭回归可以根据 L2 惩罚项降低模型中的高特征权重(即系数)。这降低了模型的复杂性,有助于减少模型预测对任何一个或多个特征的不稳定依赖。
就机器学习术语而言,岭回归相当于向模型添加偏差,以减少模型的方差。偏差-方差权衡是机器学习中众所周知的一个问题。但是,要理解偏差-方差权衡,首先需要了解机器学习研究中“偏差”和“方差”各自的含义。
简而言之:偏差可衡量预测值与真实值之间的平均差异;方差则可衡量给定模型的不同实现中各预测之间的差异。随着偏差的上升,模型对训练数据集的预测精度会降低。随着方差的上升,模型对其他数据集的预测精度会降低。因此,偏差和方差分别衡量针对训练集和测试集的模型准确度。显然,开发人员希望减少模型偏差和方差。但是,同时减少两者却并不总是可行,因此需要使用岭回归一类的正则化技术。
如前所述,岭回归正则化为了减少方差而引入了额外的偏差。换言之,通过岭回归来正则化的模型对训练数据的预测准确度较低(偏差较大),但对测试数据的预测准确度则较高(方差较小)。这便是“偏差-方差权衡”。通过岭回归,用户可确定可接受的训练准确率损失(较高的偏差),以提高给定模型的泛化程度(较低的方差)。13因此,增大偏差有助于提高模型的整体性能。
L2 惩罚的强度以及模型的偏差-方差权衡是由岭估算器损失函数方程中的 λ 值决定的。如果 λ 为零,则只剩下一个普通的最小二乘法函数。此时会创建一个未经任何正则化处理的标准线性回归模型。相比之下,较高的 λ 值意味着较高的正则化程度。随着 λ 的上升,模型偏差会增大,而方差会减小。因此,当 λ 等于零时,模型会过度拟合训练数据;但当 λ 过大时,模型则会欠拟合所有数据。14
均方误差 (MSE) 可帮助确定合适的 λ 值。MSE 与 RSS 密切相关,它是一种用于测量预测值与真实值之间平均差异的方法。模型的 MSE 越低,其预测便越准确。但随着 λ 的上升,MSE 也会增大。但是,有人认为始终存在大于零的 λ 值,使得岭回归获得的 MSE 小于通过 OLS 获得的 MSE。15要推导出合适的 λ 值,其中一种方法是找出不会增大 MSE 的最大 λ 值,如图 2 所示。其他交叉验证方法可帮助用户选择最佳 λ 值,以便调整其模型。16
计算生物学和遗传研究通常涉及预测变量数量远大于数据集样本量的模型,尤其是在研究基因表达时。通过减少众多特征的总权重从而压缩模型的预测范围,岭回归可为解决此类模型复杂性问题提供一种方法。
众多的预测变量可决定房屋的最终销售价格,且其中很多预测变量均互有关联,例如卧室与浴室的数量。高度相关的特征会导致高回归系数以及训练数据的过拟合。岭回归可通过降低模型最终预测值的总特征权重来纠正此类模型复杂性问题。
它们仅为更广泛数据科学学科中的其中两个示例。但正如这两个示例所示,当模型特征多于数据样本时,或当模型具有两个或更多高度相关的特征时,便可最有效地利用回归。
最近的研究深入了解了用于进行特征选择的岭回归的改进变体。18这种改进形式的岭回归对每个系数使用不同的正则化参数。这样,我们就可以对功能权重进行单独惩罚,从而有可能通过岭回归实现特征选择。19
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。