什么是欠拟合？

欠拟合是数据科学中的一种情况，即数据模型无法准确地捕捉输入和输出变量之间的关系，因此对训练集和不可见的数据都会产生很高的错误率。当模型过于简单时，就会发生欠拟合的情况，这可能意味着模型需要更长的训练时间、更多的输入特征或更少的正则化。就像过拟合一样，当模型欠拟合时，它无法在数据中建立主导趋势，从而导致训练误差和差强人意的模型表现。如果模型无法有效归纳新数据，就不能用于分类或预测任务。通过使模型归纳涵盖新数据，我们最终将能够每天使用机器学习算法进行预测并对数据进行分类。

高偏差和低方差是欠拟合的主要指标。由于这种行为可以在使用训练数据集时被看到，因此，欠拟合模型通常比过拟合模型更容易被发现。

特色产品

Watson Studio

IBM Cloud Pak for Data

欠拟合与过拟合

简单来说，过拟合与欠拟合正好相反，如果模型过度训练或者模型太过复杂，就会发生过拟合，导致测试数据的高错误率。过拟合模型比欠拟合模型更常见，欠拟合通常是在为了避免过拟合而实施"早停法"时出现的。

如果训练不足或缺乏复杂性而导致欠拟合，那么，合理的预防策略是延长训练的持续时间或添加更多的相关输入。然而，如果对模型训练过度，或添加了太多特征，可能会导致模型过拟合，从而带来低偏差但高方差（即偏差-方差权衡）问题。在这种情况下，统计模型与其训练数据太紧密地拟合，导致其无法有效地归纳新的数据点。需要注意的是，某些类型的模型可能比其他类型更容易过拟合，比如决策树或 KNN。

发现过拟合可能比发现欠拟合更困难，因为与欠拟合不同，训练数据在过拟合模型中具有较高的准确性。为评估算法的准确性，通常使用名为 k-折交叉验证的方法。

在 K 折交叉验证中，数据被拆分为 k 个大小相等的数据包，这些子集也称为"折"。其中一个"k 折"将充当测试集（也称为留出集或验证集），其余"折"将训练模型。一直重复这个过程，直到每个"折"都用作留出。每次评估后，都会保留一个分数，在完成所有迭代后，将对分数求平均值以评估整体模型的表现。

拟合模型时最理想的情况是在过拟合与欠拟合之间找到平衡。确定两者之间的"最佳点"有助于让机器学习模型做出准确预测。

如何避免欠拟合

由于我们可以根据训练集来检测欠拟合，因此，我们可以在一开始便帮助在输入和输出变量之间建立更好的主导关系。通过保持足够的模型复杂性，我们可以避免欠拟合，从而做出更准确的预测。下面是一些可用于减少欠拟合问题的方法：

降低正则化程度

正则化通常用于对输入参数应用较大的罚分系数，以减少模型的方差。 L1 正则化、Lasso 正则化和 dropout 等许多方法都有助于降低模型中的噪声和异常值。但是，如果数据特征过于统一，模型就无法确定主导趋势，从而导致欠拟合。通过降低正则化的程度，在模型中引入更多的复杂性和变化，可对模型进行成功的训练。

延长训练的持续时间

如前所述，过早地停止训练也会导致欠拟合模型。因此，通过延长训练的持续时间，可以避免发生欠拟合。但您必须知道过度训练会导致过拟合。在这两种情况之间找到平衡点是关键。

特征选择

对于任何模型，都使用特定的特征来确定具体的结果。如果没有足够的预测特征，则应当引入更多的特征或更重要的特征。例如在神经网络中，可添加更多的隐藏神经元；或者，在随机森林中，可添加更多的树。这个过程会给模型注入更大的复杂性，产生更理想的训练结果。