正则化是一组用于减少机器学习模型中过拟合的方法。通常,正则化会用训练准确性的边际下降来换取泛化性的提高。
正则化包含一系列用于纠正机器学习模型过拟合问题的方法。因此,正则化是一种增强模型泛化性的方法,即模型在新数据集上生成准确预测的能力。1 正则化可在增大训练误差的前提下提高泛化性。换言之,正则化方法通常会导致对训练数据的预测不太准确,但对测试数据的预测更为准确。
正则化不同于优化。从本质上讲,前者提高模型的泛化性,而后者提高模型训练的准确性。两者都是机器学习和数据科学中的重要概念。
正则化有多种形式。任何完整的指南都需要更长的篇幅。尽管如此,本文还是概述了理解机器学习中正则化目的所需的相关理论,并对几种流行的正则化技术进行了评述。
这种通过增加训练误差来减少测试误差的做法称为偏差-方差权衡。偏差-方差权衡是机器学习中众所周知的一个问题。首先必须定义“偏差”和“方差”。简而言之:
- 偏差可衡量预测值与真实值之间的平均差异。随着偏差的上升,模型对训练数据集的预测精度会降低。高偏差是指训练中的高误差。
- 方差可衡量给定模型的不同实现中各预测之间的差异。随着方差的上升,模型对未知数据的预测精度会降低。高方差是指测试和验证期间的误差较大。
因此,偏差和方差分别反向表示训练集和测试集上的模型准确性。2 显而易见,开发人员的目标是减少模型偏差和方差。两者同时减少并非总是可以实现,因此需要正则化。正则化会降低模型方差,但会增加偏差。
通过增大偏差并减少方差,正则化可解决模型过拟合问题。当训练数据的误差下降,而测试数据的误差停止下降或开始增大时,便会出现过拟合。3 换言之,过拟合描述了偏差较低而方差较高的模型。但是,如果正则化导致的偏差过大,模型便会欠拟合。
尽管它的名字为欠拟合,但却并不表示过拟合的相反情况。相反,欠拟合描述了以高偏差和高方差为特征的模型。在训练和测试期间,欠拟合的模型会生成令人不满意的错误预测。此问题通常源于训练数据或参数不足。
但是,正则化也可能会导致模型欠拟合。如果通过正则化引入过大偏差,模型方差则可能会停止下降甚至还会上升。正则化尤其可能会对简单模型产生这种影响,即参数很少的模型。因此,在确定要实现的正则化的类型和程度时,必须考虑模型的复杂性、数据集等因素。4
线性回归和逻辑回归均为用于支撑机器学习的预测模型。线性回归(或普通最小二乘法)旨在通过提供的数据点(即训练数据)找到最佳拟合线,来测量和预测一个或多个预测变量对给定输出的影响。逻辑回归旨在通过给定的一系列预测变量的二进制输出来确定类概率。换言之,线性回归会做出连续的定量预测,而逻辑回归会生成离散的分类预测。5
当然,随着任一回归模型中预测变量数量的增加,输入-输出关系并不总是那么简单明了,而是需要对回归公式进行处理。说到正则化,针对回归模型,共有三种主要的正则化形式。请注意,此列表仅为一项简短调查。在线性回归或逻辑回归中应用这些正则化技术的差别很小。
- 套索回归(或 L1 正则化)是一种可对高值相关系数进行惩罚的正则化方法。它可将正则化项(也称为惩罚项)引入模型的误差平方和 (SSE) 损失函数中。该惩罚项为系数和的绝对值。它由超参数 lambda (λ) 进行控制,且会将选择特征权重减少为零。因此,套索回归会将多重共线特征从模型中彻底移除。
- 岭回归(或L2 正则化)是一种正则化技术,它通过在 SSE 损失函数中引入惩罚项来惩罚高值系数。但它与套索回归不同。首先,岭回归中的惩罚项是系数的平方和,而不是系数的绝对值。其次,岭回归不进行特征选择。虽然套索回归的惩罚项可以通过将系数值缩小到零来从模型中删除特征,但岭回归只会使特征权重尽可能趋近于零,而不会缩小到零。
- 弹性网络正则化本质上结合了岭回归和套索回归,但会在 SSE 损失函数中同时插入 L1 与 L2 惩罚项。L2 和 L1 会分别通过对特征权重之和求平方或取绝对值来推导出各自的惩罚项值。随后,弹性网络会将这两个惩罚值都插入到成本函数 (SSE) 方程中。通过此方式,弹性网络可解决多重共线性问题,同时还可实现特征选择。6
在统计学中,这些方法也称为“系数收缩”,因为它们会收缩预测模型中的预测变量系数值。在这三种方法中,惩罚项的强度由 lambda 控制,可以使用各种交叉验证方法来计算。
数据增强是一种修改模型训练数据的正则化技术。它通过创建从预先存在的训练数据中派生的人工数据样本来扩展训练集的规模。向训练集添加更多样本,尤其是真实世界数据中罕见的实例,会使模型接触到更多数量和种类的数据,以便从中学习。机器学习研究最近探索了分类器的数据增强,特别是作为解决不平衡数据集的一种手段。7 然而,数据增强与合成数据不同。后者涉及创建新的人工数据,而前者生成预先存在数据的修改副本,以使数据集多样化并扩大数据集。
提前停止可能是最容易实现的正则化方法。简而言之,它限制了模型训练期间的迭代次数。在这种情况下,模型会不断地传递训练数据,一旦训练和验证的准确性没有提高(甚至可能下降),模型就会停止。目标是训练一个模型,直到它在验证误差达到或增加之前达到尽可能低的训练误差。8
很多机器学习 Python 软件包均提供用于提前停止的训练命令选项。事实上,在某些软件包中,提前停止属于默认的训练设置。
权重衰减是用于深度神经网络的另一种正则化形式。它通过正则化参数来减少网络权重平方和,类似于线性模型中的 L2 正则化。10 但是,在神经网络中采用这种方法时,这种减少方法具有与 L1 正则化类似的效果:选择神经元权重减少到零。11 这有效地从网络中移除了节点,通过稀疏性降低了网络复杂性。12
表面上,权重衰减可能与深度神经网络中的暂退法相似,但这两种技术实有不同。其中一大区别在于:在暂退法中,惩罚值会因特定情况而在网络深度中呈指数增长,而权重衰减的惩罚值则呈线性增长。某些人认为,较之权重衰减,此特性会让暂退法在惩罚网络复杂性方面更有意义。13
大量在线文章与教程错误地将 L2 正则化和权重衰减混为一谈。事实上,相关学术研究并不一致,有些区分 L2 和权重衰减,14 有些将它们等同起来,15 而另一些在描述它们之间的关系时不一致。16 解决术语中的这种不一致是未来学术研究的一个必要但被忽视的领域。
IBM Granite 是我们开放式、性能优异、值得信赖的 AI 模型系列,专门为企业量身定制,并经过优化,可以帮助您扩展 AI 应用程序。深入了解语言、代码、时间序列和护栏选项。
我们对 2,000 家组织进行了调查,旨在了解他们的 AI 计划,以发现哪些方法有效、哪些方法无效,以及如何才能取得领先。
深入探讨监督学习方法,如支持向量机和概率分类器。
学习基本概念并通过亲手实验、课程、指导项目、试用等方式培养您的技能。
了解如何为您的用例选择最合适的 AI 基础模型。
1 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/
2 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, and Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://link.springer.com/book/10.1007/978-3-031-38747-0
3 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/
4 Vincent Vandenbussche, The Regularization Cookbook, Packt Publishing, 2023.
5 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, and Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://link.springer.com/book/10.1007/978-3-031-38747-0
6 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang, and Brian D. Marx, Regression: Models, Methods and Applications, 2nd edition, Springer, 2021.
7 Trong-Hieu Nguyen-Mau, Tuan-Luc Huynh, Thanh-Danh Le, Hai-Dang Nguyen, and Minh-Triet Tran, "Advanced Augmentation and Ensemble Approaches for Classifying Long-Tailed Multi-Label Chest X-Rays," Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pp. 2729-2738, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Nguyen-Mau_Advanced_Augmentation_and_Ensemble_Approaches_for_Classifying_Long-Tailed_Multi-Label_Chest_ICCVW_2023_paper.html . Changhyun Kim, Giyeol Kim, Sooyoung Yang, Hyunsu Kim, Sangyool Lee, and Hansu Cho, "Chest X-Ray Feature Pyramid Sum Model with Diseased Area Data Augmentation Method," Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2023, pp. 2757-2766, https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Kim_Chest_X-Ray_Feature_Pyramid_Sum_Model_with_Diseased_Area_Data_ICCVW_2023_paper.html
8 Grégoire Montavon, Geneviève B. Orr, and Klaus-Robert Müller, Neural Networks: Tricks of the Trade, 2nd edition, Springer, 2012.
9 Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov, "Dropout: A Simple Way to Prevent Neural Networks from Overfitting," Journal of Machine Learning Research, Vol. 15, No. 56, 2014, pp. 1929−1958, https://jmlr.org/papers/v15/srivastava14a.html
10 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
11 Rahul Parhi and Robert D. Nowak, "Deep Learning Meets Sparse Regularization: A Signal Processing Perspective," IEEE Signal Processing Magazine, Vol. 40, No. 6, 2023, pp. 63-74, https://arxiv.org/abs/2301.09554
12 Stephen Hanson and Lorien Pratt, "Comparing Biases for Minimal Network Construction with Back-Propagation," Advances in Neural Information Processing Systems 1, 1988, pp. 177-185, https://proceedings.neurips.cc/paper/1988/file/1c9ac0159c94d8d0cbedc973445af2da-Paper.pdf
13 David P. Helmbold, Philip M. Long, "Surprising properties of dropout in deep networks," Journal of Machine Learning Research, Vol. 18, No. 200, 2018, pp. 1−28, https://jmlr.org/papers/v18/16-549.html
14 Guodong Zhang, Chaoqi Wang, Bowen Xu, and Roger Grosse, "Three Mechanisms of Weight Decay Regularization," International Conference on Learning Representations (ILCR) 2019, https://arxiv.org/abs/1810.12281
15 David P. Helmbold and Philip M. Long, "Fundamental Differences between Dropout and Weight Decay in Deep Networks," 2017, https://arxiv.org/abs/1602.04484v3
16 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/