正则化是一组用于减少机器学习模型中过拟合的方法。通常,正则化会用训练准确性的边际下降来换取泛化性的提高。
这种通过增加训练误差来减少测试误差的做法称为偏差-方差权衡。偏差-方差权衡是机器学习中众所周知的一个问题。首先必须定义“偏差”和“方差”。简而言之:
因此,偏差和方差分别反向表示训练集和测试集上的模型准确性。2显而易见,开发人员的目标是减少模型偏差和方差。两者同时减少并非总是可以实现,因此需要正则化。正则化会降低模型方差,但会增加偏差。
通过增大偏差并减少方差,正则化可解决模型过拟合问题。当训练数据的误差下降,而测试数据的误差停止下降或开始增大时,便会出现过拟合。3换言之,过拟合描述了偏差较低而方差较高的模型。但是,如果正则化导致的偏差过大,模型便会欠拟合。
尽管它的名字为欠拟合,但却并不表示过拟合的相反情况。相反,欠拟合描述了以高偏差和高方差为特征的模型。在训练和测试期间,欠拟合的模型会生成令人不满意的错误预测。此问题通常源于训练数据或参数不足。
但是,正则化也可能会导致模型欠拟合。如果通过正则化引入过大偏差,模型方差则可能会停止下降甚至还会上升。正则化尤其可能会对简单模型产生这种影响,即参数很少的模型。因此,在确定要实现的正则化的类型和程度时,必须考虑模型的复杂性、数据集等因素。4
线性回归和逻辑回归均为用于支撑机器学习的预测模型。线性回归(或普通最小二乘法)旨在通过提供的数据点(即训练数据)找到最佳拟合线,来测量和预测一个或多个预测变量对给定输出的影响。逻辑回归旨在通过给定的一系列预测变量的二进制输出来确定类概率。换言之,线性回归会做出连续的定量预测,而逻辑回归会生成离散的分类预测。5
当然,随着任一回归模型中预测变量数量的增加,输入-输出关系并不总是那么简单明了,而是需要对回归公式进行处理。说到正则化,针对回归模型,共有三种主要的正则化形式。请注意,此列表仅为一项简短调查。在线性回归或逻辑回归中应用这些正则化技术的差别很小。
在统计学中,这些方法也称为“系数收缩”,因为它们会收缩预测模型中的预测变量系数值。在这三种方法中,惩罚项的强度由 lambda 控制,可以使用各种交叉验证方法来计算。
数据增强是一种修改模型训练数据的正则化技术。它通过创建从预先存在的训练数据中派生的人工数据样本来扩展训练集的规模。向训练集添加更多样本,尤其是真实世界数据中罕见的实例,会使模型接触到更多数量和种类的数据,以便从中学习。机器学习研究最近探索了分类器的数据增强,特别是作为解决不平衡数据集的一种手段。7然而,数据增强与合成数据不同。后者涉及创建新的人工数据,而前者生成预先存在数据的修改副本,以便实现数据集的多样化和扩大。
提前停止可能是最容易实现的正则化方法。简而言之,它限制了模型训练期间的迭代次数。在这种情况下,模型会不断地传递训练数据,一旦训练和验证的准确性没有提高(甚至可能下降),模型就会停止。目标是训练一个模型,直到它在验证误差达到或增加之前达到尽可能低的训练误差。8
很多机器学习 Python 软件包均提供用于提前停止的训练命令选项。事实上,在某些软件包中,提前停止属于默认的训练设置。
权重衰减是用于深度神经网络的另一种正则化形式。它通过正则化参数来减少网络权重平方和,类似于线性模型中的 L2 正则化。10但是,在神经网络中采用这种方法时,这种减少方法具有与 L1 正则化类似的效果:选择神经元权重减少到零。11这有效地从网络中移除了节点,通过稀疏性降低了网络复杂性。12
表面上,权重衰减可能与深度神经网络中的暂退法相似,但这两种技术实有不同。其中一大区别在于:在暂退法中,惩罚值会因特定情况而在网络深度中呈指数增长,而权重衰减的惩罚值则呈线性增长。某些人认为,较之权重衰减,此特性会让暂退法在惩罚网络复杂性方面更有意义。13
大量在线文章与教程错误地将 L2 正则化和权重衰减混为一谈。事实上,相关学术研究并不一致,有些区分 L2 和权重衰减,14有些将它们等同起来,15而另一些在描述它们之间的关系时不一致。16解决术语中的这种不一致是未来学术研究的一个必要但被忽视的领域。
[1] Deep Learning, Goodfellow et al., The MIT Press, 2016
[2] An Introduction to Statistical Learning, G. James et al., Springer, 2013
[3] Deep Learning, Goodfellow et al.
[4] Vandenbussche, Vincent, Regularization cookbook, Packt Publishing, 2023
[5] An Introduction to Statistical Learning, G. James et al.
[6] Applied Predictive Modeling, Kuhn, Max and Johnson, Kjell, Springer, 2016. Also, Regression: Models, Methods and Applications, Fahrmeir, Ludwig, et al. 2nd edition, Springer, 2021
[7] “Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation,” Ghiasi et al., CVPR, 2021
[8] Neural Networks: Tricks of the Trade, Montavon, et al. 2nd Ed. 2012
[9] “Dropout: A Simple Way to Prevent Neural Networks from Overfitting,” JMLR, Srivastava et al., 2014
[10] Applied Predictive Modeling, Kuhn, Max and Johnson, Kjell, Springer, 2016.
[11] “Deep Learning Meets Sparse Regularization: A Signal Processing Perspective,” arXiv, Jan. 2023
[12] “Comparing Biases for Minimal Network Construction with Back-propagation,” Proceedings, Hanson and Pratt, 1988
[13] “Surprising properties of dropout in deep networks,” Helmbold, David and Long, Philip, JMLR, 2018
[14] “Three Mechanisms of Weight Decay Regularization,” Zhang, Guodong, Wang, Chaoqi, Xu, Bowen, Roger, Grosse, arXiv, 2018
[15] “Fundamental differences between Dropout and Weight Decay in Deep Networks,” Helmbold, David and Long, Philip, ResearchGate, 2016
[16] Deep Learning, Goodfellow et al.
使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。
借助 IBM 业界领先的人工智能专业知识和解决方案组合,让人工智能在您的业务中发挥作用。
通过增加 AI 重塑关键工作流程和运营,最大限度提升体验、实时决策和商业价值。