什么是正则化?

2023 年 11 月 16 日

作者

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

什么是正则化?

正则化是一组用于减少机器学习模型中过拟合的方法。通常,正则化会用训练准确性的边际下降来换取泛化性的提高。

正则化包含一系列用于纠正机器学习模型过拟合问题的方法。因此,正则化是一种增强模型泛化性的方法,即模型在新数据集上生成准确预测的能力。1 正则化可在增大训练误差的前提下提高泛化性。换言之,正则化方法通常会导致对训练数据的预测不太准确,但对测试数据的预测更为准确。

正则化不同于优化。从本质上讲,前者提高模型的泛化性,而后者提高模型训练的准确性。两者都是机器学习和数据科学中的重要概念。

正则化有多种形式。任何完整的指南都需要更长的篇幅。尽管如此,本文还是概述了理解机器学习中正则化目的所需的相关理论,并对几种流行的正则化技术进行了评述。

偏差-方差权衡

这种通过增加训练误差来减少测试误差的做法称为偏差-方差权衡。偏差-方差权衡是机器学习中众所周知的一个问题。首先必须定义“偏差”和“方差”。简而言之:

- 偏差可衡量预测值与真实值之间的平均差异。随着偏差的上升,模型对训练数据集的预测精度会降低。高偏差是指训练中的高误差。

- 方差可衡量给定模型的不同实现中各预测之间的差异。随着方差的上升,模型对未知数据的预测精度会降低。高方差是指测试和验证期间的误差较大。

因此,偏差和方差分别反向表示训练集和测试集上的模型准确性。2 显而易见,开发人员的目标是减少模型偏差和方差。两者同时减少并非总是可以实现,因此需要正则化。正则化会降低模型方差,但会增加偏差。

回归模型拟合

通过增大偏差并减少方差,正则化可解决模型过拟合问题。当训练数据的误差下降,而测试数据的误差停止下降或开始增大时,便会出现过拟合。3 换言之,过拟合描述了偏差较低而方差较高的模型。但是,如果正则化导致的偏差过大,模型便会欠拟合。

尽管它的名字为欠拟合,但却并不表示过拟合的相反情况。相反,欠拟合描述了以高偏差和高方差为特征的模型。在训练和测试期间,欠拟合的模型会生成令人不满意的错误预测。此问题通常源于训练数据或参数不足。

但是,正则化也可能会导致模型欠拟合。如果通过正则化引入过大偏差,模型方差则可能会停止下降甚至还会上升。正则化尤其可能会对简单模型产生这种影响,即参数很少的模型。因此,在确定要实现的正则化的类型和程度时,必须考虑模型的复杂性、数据集等因素。4

小球在轨道上滚动的三维设计

最新的 AI 新闻 + 洞察分析

在每周的 Think 时事通讯中,发现专家精选的有关 AI、云等的洞察分析和新闻。 

线性模型的正则化类型

线性回归逻辑回归均为用于支撑机器学习的预测模型。线性回归(或普通最小二乘法)旨在通过提供的数据点(即训练数据)找到最佳拟合线,来测量和预测一个或多个预测变量对给定输出的影响。逻辑回归旨在通过给定的一系列预测变量的二进制输出来确定类概率。换言之,线性回归会做出连续的定量预测,而逻辑回归会生成离散的分类预测。5

当然,随着任一回归模型中预测变量数量的增加,输入-输出关系并不总是那么简单明了,而是需要对回归公式进行处理。说到正则化,针对回归模型,共有三种主要的正则化形式。请注意,此列表仅为一项简短调查。在线性回归或逻辑回归中应用这些正则化技术的差别很小。

- 套索回归(或 L1 正则化)是一种可对高值相关系数进行惩罚的正则化方法。它可将正则化项(也称为惩罚项)引入模型的误差平方和 (SSE) 损失函数中。该惩罚项为系数和的绝对值。它由超参数 lambda (λ) 进行控制,且会将选择特征权重减少为零。因此,套索回归会将多重共线特征从模型中彻底移除。

- 岭回归(或L2 正则化)是一种正则化技术,它通过在 SSE 损失函数中引入惩罚项来惩罚高值系数。但它与套索回归不同。首先,岭回归中的惩罚项是系数的平方和,而不是系数的绝对值。其次,岭回归不进行特征选择。虽然套索回归的惩罚项可以通过将系数值缩小到零来从模型中删除特征,但岭回归只会使特征权重尽可能趋近于零,而不会缩小到零。

- 弹性网络正则化本质上结合了岭回归和套索回归,但会在 SSE 损失函数中同时插入 L1 与 L2 惩罚项。L2 和 L1 会分别通过对特征权重之和求平方或取绝对值来推导出各自的惩罚项值。随后,弹性网络会将这两个惩罚值都插入到成本函数 (SSE) 方程中。通过此方式,弹性网络可解决多重共线性问题,同时还可实现特征选择。6

在统计学中,这些方法也称为“系数收缩”,因为它们会收缩预测模型中的预测变量系数值。在这三种方法中,惩罚项的强度由 lambda 控制,可以使用各种交叉验证方法来计算。

专家荟萃 | 播客

解码 AI:每周新闻摘要

加入我们的世界级专家团队,包括工程师、研究人员、产品负责人等,他们将穿透 AI 的喧嚣,为您带来最新的 AI 新闻和见解。

机器学习中的正则化类型

数据集

数据增强是一种修改模型训练数据的正则化技术。它通过创建从预先存在的训练数据中派生的人工数据样本来扩展训练集的规模。向训练集添加更多样本,尤其是真实世界数据中罕见的实例,会使模型接触到更多数量和种类的数据,以便从中学习。机器学习研究最近探索了分类器的数据增强,特别是作为解决不平衡数据集的一种手段。7 然而,数据增强与合成数据不同。后者涉及创建新的人工数据,而前者生成预先存在数据的修改副本,以使数据集多样化并扩大数据集。

模型训练

提前停止可能是最容易实现的正则化方法。简而言之,它限制了模型训练期间的迭代次数。在这种情况下,模型会不断地传递训练数据,一旦训练和验证的准确性没有提高(甚至可能下降),模型就会停止。目标是训练一个模型,直到它在验证误差达到或增加之前达到尽可能低的训练误差。8

很多机器学习 Python 软件包均提供用于提前停止的训练命令选项。事实上,在某些软件包中,提前停止属于默认的训练设置。

神经网络

神经网络是一种复杂的机器学习模型,它们可推动实现众多人工智能应用和服务。神经网络由一个输入层、一个或多个隐藏层以及一个输出层组成,且每层又由多个节点组成。

在训练过程中,暂退法 (Dropout) 会随机从网络中丢弃某些节点及其输入与输出连接,从而对神经网络进行正则化处理(图 3)。暂退法会训练采用固定大小的架构的多个变体,而每个变体均有不同的随机节点被排除在架构之外。缺少暂退法的单个神经网络会用于测试,以便采用从随机修改的训练架构中得出的近似平均方法。这样,暂退法便近似于训练具有多种架构的大量神经网络。9

权重衰减是用于深度神经网络的另一种正则化形式。它通过正则化参数来减少网络权重平方和,类似于线性模型中的 L2 正则化。10 但是,在神经网络中采用这种方法时,这种减少方法具有与 L1 正则化类似的效果:选择神经元权重减少到零。11 这有效地从网络中移除了节点,通过稀疏性降低了网络复杂性。12

表面上,权重衰减可能与深度神经网络中的暂退法相似,但这两种技术实有不同。其中一大区别在于:在暂退法中,惩罚值会因特定情况而在网络深度中呈指数增长,而权重衰减的惩罚值则呈线性增长。某些人认为,较之权重衰减,此特性会让暂退法在惩罚网络复杂性方面更有意义。13

大量在线文章与教程错误地将 L2 正则化和权重衰减混为一谈。事实上,相关学术研究并不一致,有些区分 L2 和权重衰减,14 有些将它们等同起来,15 而另一些在描述它们之间的关系时不一致。16 解决术语中的这种不一致是未来学术研究的一个必要但被忽视的领域。

相关解决方案
IBM watsonx.ai

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

了解 watsonx.ai
人工智能 (AI) 解决方案

借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。

深入了解 AI 解决方案
AI 咨询与服务

通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。

深入了解人工智能服务
采取后续步骤

一站式访问跨越 AI 开发生命周期的功能。利用用户友好型界面、工作流并访问行业标准 API 和 SDK,生成功能强大的 AI 解决方案。

深入了解 watsonx.ai 预约实时演示
脚注

1 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/

2 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, and Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://link.springer.com/book/10.1007/978-3-031-38747-0

3 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/

4 Vincent Vandenbussche, The Regularization Cookbook, Packt Publishing, 2023.

5 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, and Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://link.springer.com/book/10.1007/978-3-031-38747-0

6 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, and Brian D. Marx, Regression: Models, Methods and Applications, 2nd edition, Springer, 2021.

7 Trong-Hieu Nguyen-Mau, Tuan-Luc Huynh, Thanh-Danh Le, Hai-Dang Nguyen, and Minh-Triet Tran, "Advanced Augmentation and Ensemble Approaches for Classifying Long-Tailed Multi-Label Chest X-Rays," Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pp. 2729-2738, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Nguyen-Mau_Advanced_Augmentation_and_Ensemble_Approaches_for_Classifying_Long-Tailed_Multi-Label_Chest_ICCVW_2023_paper.html . Changhyun Kim, Giyeol Kim, Sooyoung Yang, Hyunsu Kim, Sangyool Lee, and Hansu Cho"Chest X-Ray Feature Pyramid Sum Model with Diseased Area Data Augmentation Method," Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pp. 2757-2766, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Kim_Chest_X-Ray_Feature_Pyramid_Sum_Model_with_Diseased_Area_Data_ICCVW_2023_paper.html

8 Grégoire Montavon, Geneviève B. Orr, and Klaus-Robert Müller, Neural Networks: Tricks of the Trade, 2nd edition, Springer, 2012.

9 Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov, "Dropout: A Simple Way to Prevent Neural Networks from Overfitting," Journal of Machine Learning Research, Vol. 15, No. 56, 2014, pp. 1929−1958, https://jmlr.org/papers/v15/srivastava14a.html

10 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

11 Rahul Parhi and Robert D. Nowak, "Deep Learning Meets Sparse Regularization: A Signal Processing Perspective," IEEE Signal Processing Magazine, Vol. 40, No. 6, 2023, pp. 63-74, https://arxiv.org/abs/2301.09554

12 Stephen Hanson and Lorien Pratt, "Comparing Biases for Minimal Network Construction with Back-Propagation," Advances in Neural Information Processing Systems 1, 1988, pp. 177-185, https://proceedings.neurips.cc/paper/1988/file/1c9ac0159c94d8d0cbedc973445af2da-Paper.pdf

13 David P. Helmbold, Philip M. Long, "Surprising properties of dropout in deep networks," Journal of Machine Learning Research, Vol. 18, No. 200, 2018, pp. 1−28, https://jmlr.org/papers/v18/16-549.html

14 Guodong Zhang, Chaoqi Wang, Bowen Xu, and Roger Grosse, "Three Mechanisms of Weight Decay Regularization," International Conference on Learning Representations (ILCR) 2019, https://arxiv.org/abs/1810.12281

15 David P. Helmbold and Philip M. Long, "Fundamental Differences between Dropout and Weight Decay in Deep Networks," 2017, https://arxiv.org/abs/1602.04484v3

16 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/