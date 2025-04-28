梯度提升是数据科学中一种强大且广泛使用的机器学习算法，用于分类任务。它与装袋方法一起，是集成学习方法家族的一部分，通过组合多个更简单模型的预测来提高整体性能。梯度提升回归使用梯度提升来更好地基于线性回归生成输出数据。本教程中将介绍一种梯度提升分类器，它使用梯度提升来更好地将输入数据分类为属于两个或多个不同的类别。

梯度提升是 Adaboost 算法的更新，它使用决策树桩而非决策树。这些决策树桩类似于随机森林中的树，但它们只有一个节点和两片叶子。梯度提升算法按顺序构建模型，每个步骤都试图纠正上一次迭代的错误。训练过程通常从创建一个弱学习器（例如用于训练数据的浅层决策树）开始。经过初始训练后，梯度提升法会计算实际值和预测值之间的误差（通常称为残差），然后训练一个新的估计器来预测此误差。将该新树添加到集成中，以更新预测，从而创建一个强大的学习器。梯度提升会重复此过程，直到改进停止或达到固定的迭代次数。提升方法本身类似于梯度下降 ，但通过引入新模型来“下降”梯度。

提升方法有几个优点：它在表格数据上表现良好，并且可以处理数值和分类数据。即使使用默认参数也能良好工作，并且对数据集中的异常值具有稳健性。然而，它的训练速度可能很慢，而且通常对训练过程中设置的超参数非常敏感。在处理大型数据集时，保持较小的树数量可以加快训练过程。此步骤通常是通过最大深度参数完成的。如果调整不当，梯度提升方法也容易造成过拟合。为防止过拟合，您可以配置训练过程中的学习率。对于分类器或梯度提升回归器，此过程大致相同，并用于流行的 xgboost，它通过添加正则化在梯度提升的基础上构建。

在本教程中，您将学习如何使用两种不同的编程语言和梯度提升库，通过流行的 Palmer Penguins 数据集对企鹅进行分类。

您可以从 Github 下载本教程的笔记本。