什么是套索回归?

最高法院前台阶和立柱

套索回归是一种正则化技术,它应用惩罚来防止过拟合并提高统计模型的准确性。

套索回归(也称为 L1 正则化)是线性回归模型的正则化类型之一。正则化是一种统计方法,可用于减少因训练数据过拟合而引起的误差。此方法可用以下公式来体现:

w-hat = argminw MSE(W ) + ||w||1

套索技术背后的概念可追溯到 Santosa 和 Symes 于 1986 年发表的一篇地球物理学研究论文(ibm.com 外部链接)1,该论文对系数使用了 L1 惩罚。但在 1996 年,统计学家 Robert Tibshirani 独立制定并推广了“套索”一词2(ibm.com 外部链接),而此成就是在 Breiman 的非负绞杀工作3(ibm.com 外部链接)的基础上完成的。

“套索”代表“最小绝对值收敛”和“选择算子”。它常用于机器学习中以便处理高维数据,因为它有助于通过其应用来自动选择特征。通过向残差平方和 (RSS) 添加罚项,然后将其乘以正则化参数(lambda 或 λ),即可实现此目的。该正则化参数可控制所应用的正则化程度。lambda 的值越大,惩罚也越高,从而可将更多系数缩小为零;随后,此操作会降低(或完全消除)模型中某些特征的重要性,从而实现自动特征选择。相反,较小的 lambda 值会降低惩罚的影响,从而在模型中保留更多特征。

该惩罚可促进模型内的稀疏性,从而有助于避免数据集中的多重共线性过度拟合问题。当两个或多个独立变量彼此高度相关时,就会出现多重共线性,这可能会给因果建模带来问题。过拟合模型对新数据的泛化效果很差,从而会完全降低它们的价值。通过将回归系数降低为零,套索回归可从模型中有效消除独立变量,从而避免在建模过程中出现这些潜在问题。较之其他正则化技术(如岭回归(也称为 L2 正则化)),模型稀疏性还可提高模型的可解释性。

需要注意的是,本文虽重点介绍线性回归模型的正则化,但应注意,套索回归也可应用于逻辑回归

偏差-方差权衡

偏差-方差权衡是众所周知的预测模型特性。在此背景下,偏差衡量预测值与真实值之间的平均差异;方差衡量给定模型的不同实现中各预测之间的差异。随着偏差的上升,模型对训练数据集的预测精度会降低。随着方差的上升,模型对其他数据集的预测精度会降低。因此,偏差和方差分别衡量针对训练集和测试集的模型准确度。同时减少偏差和方差并非始终可行,因此需要正则化技术,如套索回归。

在套索回归中,超参数 lambda (λ)(也称为 L1 惩罚)平衡结果系数中偏差和方差之间的权衡。随着 λ 的增加,偏差会增加,而方差会减少,导致模型更简单,参数更少。相反,随着 λ 的减小,方差会增加,导致模型更复杂,参数更多。如果 λ 是零,则返回 OLS 函数,即未经任何正则化处理的标准线性回归模型。

套索回归如何工作?

本节总结如何应用套索回归并强调数据科学中的常见用例。

进行探索性数据分析

在对数据集应用线性回归算法之前,请先探索数据,了解可能存在的潜在问题。重要的是要了解是否:

  • 存在任何缺失数据

  • 特征较多

  • 连续变量的分布以均值为中心,标准差相等

  • 任何预测变量相互关联

理解这些问题十分重要,因为具有高维和相关变量的数据集可能容易出现过度拟合问题。不以标准偏差 1 的平均值为中心的数据也需进行重新缩放,以限制大比例对模型造成的影响。如果不重新缩放特征,则可能会对成本函数产生不利影响,从而影响 beta 系数。简而言之,由于单位的不同,未缩放的特征可能会导致在套索回归中应用无意惩罚。

分割数据并重新缩放连续预测变量

一旦我们进行了探索性数据分析,我们会将数据拆分为训练集和测试集。拆分数据后,根据需要对数据进行重新缩放。Z 分数缩放是一种常见的特征缩放方法,它重新缩放特征以共享标准偏差 1 和均值 0。

拟合套索模型并选择 λ 值

在训练数据的基础上对套索回归模型进行拟合,然后为 λ 选择一个旨在最小化均方误差 (MSE) 的值。均方误差 (MSE) 可帮助确定合适的 λ 值。MSE 是一种用于测量因变量的预测值与真实值之间平均差值的方法。套索回归在平衡偏差和方差这两个对立因素的同时,可将均方误差 (MSE) 降到最低,从而构建最准确的预测模型。它可通过向残差平方和 (RSS) 添加一个罚项来实现此目的,而该罚项等于系数的绝对值之和乘以参数 λ。

通过交叉验证为 λ 进行优化

您可以使用交叉验证技术(例如 k 倍交叉验证)来确定 λ 的最佳值;该方法可找到能最小化均方误差或其他性能指标的 λ 值。

如前所述,λ 值越高,正则化程度越高。随着 λ 的上升,模型偏差会增大,而方差会减少。这是因为随着 λ 变大,更多的系数 𝛽 会缩减为零。

评估模型的性能

通常,我们可能会输出一些值来了解模型性能,特别是 R2 和 MSE。R2 告诉我们因变量(或响应变量)中由自变量解释的方差比例。通过比较不同 λ 值的 MSE 值,您将看到模型是否已针对全局最小值进行有效优化。

何时使用套索回归

套索回归是处理预测问题的理想选择;它能自动选择变量,从而简化模型并提高预测准确性。尽管如此,由于套索回归会通过将系数降为零从而产生偏差,因此岭回归的效果可能优于套索回归。它对这些数据中的相关特征也会施加限制,因为它会随意选择要包含在模型中的特征。

常见应用

在这些场景下,套索回归可能是理想之选。

处理高维数据集

当预测变量的数量远大于观测值的数量时,将数据集视为高维数据集。套索回归可以通过将权重参数缩减为零,帮助降低数据集内的维数,从而从模型中剔除不太重要的特征。

了解有关降维的更多信息
自动选择特征

L1 惩罚引入的偏差会人为地将系数缩减为零。一些变量会完全缩减为零,从而为模型留下最重要变量的子集来进行预测。

套索回归的局限性

套索回归可以处理一些多重共线性,而不会对模型的可解释性产生负面影响,但它无法克服严重的多重共线性4。如果协变量高度相关,套索回归会从模型中任意删除其中一个特征。在这种情况下,弹性网络正则化是一个不错的选择。

在 Python 或 R 中实现套索回归

Python 和 R 在数据科学领域均有广泛应用。Python 非常灵活,且可处理各种任务。而 R 则专为统计计算和数据可视化而设计,其中包括用于绘图和图表的丰富图形选项。

可通过使用 sklearn 等库(ibm.com 外部链接)在 Python 中实现套索回归,而该库提供了套索类以用于此目的。R 是一个很好的选择,因为 glmnet 包可用于针对 λ 选择的有效交叉验证,且可灵活地将 α 设为不同的值。此外,R 的可视化功能也非常出色,而这对于理解和解释套索回归模型有着至关重要的作用。

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

Mixture of Experts | 8 月 28 日,第 70 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

相关解决方案
IBM watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解 AI 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示
脚注

《Linear Inversion of Band-Limited Reflection Seismograms》(ibm.com 外部链接),Society for Industrial and Applied Mathematics,1986 年

《Regression Shrinkage and Selection via the Lasso》(ibm.com 外部链接),《Journal of the Royal Statistical Society》,1996 年

《Better Subset Regression Using the Nonnegative Garrote》(ibm.com 外部链接),《Technmetrics》,2012 年

《Regularized Multiple Regression Methods to Deal with Severe Multicollinearity》(ibm.com 外部链接),《International Journal of Statistics and Applications》,2018 年