套索回归是一种正则化技术,它应用惩罚来防止过拟合并提高统计模型的准确性。
套索回归(也称为 L1 正则化)是线性回归模型的正则化类型之一。正则化是一种统计方法,可用于减少因训练数据过拟合而引起的误差。此方法可用以下公式来体现:
w-hat = argminw MSE(W ) + ||w||1
套索技术背后的概念可追溯到 Santosa 和 Symes 于 1986 年发表的一篇地球物理学研究论文(ibm.com 外部链接)1,该论文对系数使用了 L1 惩罚。但在 1996 年,统计学家 Robert Tibshirani 独立制定并推广了“套索”一词2(ibm.com 外部链接),而此成就是在 Breiman 的非负绞杀工作3(ibm.com 外部链接)的基础上完成的。
“套索”代表“最小绝对值收敛”和“选择算子”。它常用于机器学习中以便处理高维数据,因为它有助于通过其应用来自动选择特征。通过向残差平方和 (RSS) 添加罚项,然后将其乘以正则化参数(lambda 或 λ),即可实现此目的。该正则化参数可控制所应用的正则化程度。lambda 的值越大,惩罚也越高,从而可将更多系数缩小为零;随后,此操作会降低(或完全消除)模型中某些特征的重要性,从而实现自动特征选择。相反,较小的 lambda 值会降低惩罚的影响,从而在模型中保留更多特征。
该惩罚可促进模型内的稀疏性,从而有助于避免数据集中的多重共线性与过度拟合问题。当两个或多个独立变量彼此高度相关时,就会出现多重共线性,这可能会给因果建模带来问题。过拟合模型对新数据的泛化效果很差,从而会完全降低它们的价值。通过将回归系数降低为零,套索回归可从模型中有效消除独立变量,从而避免在建模过程中出现这些潜在问题。较之其他正则化技术(如岭回归(也称为 L2 正则化)),模型稀疏性还可提高模型的可解释性。
需要注意的是,本文虽重点介绍线性回归模型的正则化,但应注意,套索回归也可应用于逻辑回归。
偏差-方差权衡是众所周知的预测模型特性。在此背景下,偏差衡量预测值与真实值之间的平均差异;方差衡量给定模型的不同实现中各预测之间的差异。随着偏差的上升,模型对训练数据集的预测精度会降低。随着方差的上升,模型对其他数据集的预测精度会降低。因此,偏差和方差分别衡量针对训练集和测试集的模型准确度。同时减少偏差和方差并非始终可行,因此需要正则化技术,如套索回归。
在套索回归中,超参数 lambda (λ)(也称为 L1 惩罚)平衡结果系数中偏差和方差之间的权衡。随着 λ 的增加,偏差会增加,而方差会减少,导致模型更简单,参数更少。相反,随着 λ 的减小,方差会增加,导致模型更复杂,参数更多。如果 λ 是零,则返回 OLS 函数,即未经任何正则化处理的标准线性回归模型。
本节总结如何应用套索回归并强调数据科学中的常见用例。
在对数据集应用线性回归算法之前,请先探索数据,了解可能存在的潜在问题。重要的是要了解是否:
存在任何缺失数据
特征较多
连续变量的分布以均值为中心,标准差相等
任何预测变量相互关联
理解这些问题十分重要,因为具有高维和相关变量的数据集可能容易出现过度拟合问题。不以标准偏差 1 的平均值为中心的数据也需进行重新缩放,以限制大比例对模型造成的影响。如果不重新缩放特征,则可能会对成本函数产生不利影响,从而影响 beta 系数。简而言之,由于单位的不同,未缩放的特征可能会导致在套索回归中应用无意惩罚。
一旦我们进行了探索性数据分析,我们会将数据拆分为训练集和测试集。拆分数据后,根据需要对数据进行重新缩放。Z 分数缩放是一种常见的特征缩放方法,它重新缩放特征以共享标准偏差 1 和均值 0。
在训练数据的基础上对套索回归模型进行拟合,然后为 λ 选择一个旨在最小化均方误差 (MSE) 的值。均方误差 (MSE) 可帮助确定合适的 λ 值。MSE 是一种用于测量因变量的预测值与真实值之间平均差值的方法。套索回归在平衡偏差和方差这两个对立因素的同时,可将均方误差 (MSE) 降到最低,从而构建最准确的预测模型。它可通过向残差平方和 (RSS) 添加一个罚项来实现此目的,而该罚项等于系数的绝对值之和乘以参数 λ。
您可以使用交叉验证技术(例如 k 倍交叉验证)来确定 λ 的最佳值;该方法可找到能最小化均方误差或其他性能指标的 λ 值。
如前所述,λ 值越高,正则化程度越高。随着 λ 的上升,模型偏差会增大,而方差会减少。这是因为随着 λ 变大,更多的系数 𝛽 会缩减为零。
通常,我们可能会输出一些值来了解模型性能,特别是 R2 和 MSE。R2 告诉我们因变量(或响应变量)中由自变量解释的方差比例。通过比较不同 λ 值的 MSE 值,您将看到模型是否已针对全局最小值进行有效优化。
套索回归是处理预测问题的理想选择;它能自动选择变量,从而简化模型并提高预测准确性。尽管如此,由于套索回归会通过将系数降为零从而产生偏差,因此岭回归的效果可能优于套索回归。它对这些数据中的相关特征也会施加限制,因为它会随意选择要包含在模型中的特征。
在这些场景下,套索回归可能是理想之选。
当预测变量的数量远大于观测值的数量时,将数据集视为高维数据集。套索回归可以通过将权重参数缩减为零,帮助降低数据集内的维数,从而从模型中剔除不太重要的特征。
L1 惩罚引入的偏差会人为地将系数缩减为零。一些变量会完全缩减为零,从而为模型留下最重要变量的子集来进行预测。
套索回归可以处理一些多重共线性,而不会对模型的可解释性产生负面影响,但它无法克服严重的多重共线性4。如果协变量高度相关,套索回归会从模型中任意删除其中一个特征。在这种情况下,弹性网络正则化是一个不错的选择。
Python 和 R 在数据科学领域均有广泛应用。Python 非常灵活,且可处理各种任务。而 R 则专为统计计算和数据可视化而设计,其中包括用于绘图和图表的丰富图形选项。
可通过使用 sklearn 等库(ibm.com 外部链接)在 Python 中实现套索回归,而该库提供了套索类以用于此目的。R 是一个很好的选择,因为 glmnet 包可用于针对 λ 选择的有效交叉验证,且可灵活地将 α 设为不同的值。此外,R 的可视化功能也非常出色,而这对于理解和解释套索回归模型有着至关重要的作用。
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。
1 《Linear Inversion of Band-Limited Reflection Seismograms》(ibm.com 外部链接),Society for Industrial and Applied Mathematics,1986 年
2 《Regression Shrinkage and Selection via the Lasso》(ibm.com 外部链接),《Journal of the Royal Statistical Society》,1996 年
3 《Better Subset Regression Using the Nonnegative Garrote》(ibm.com 外部链接),《Technmetrics》,2012 年
4 《Regularized Multiple Regression Methods to Deal with Severe Multicollinearity》(ibm.com 外部链接),《International Journal of Statistics and Applications》,2018 年