El boosting de gradiente es un algoritmo de machine learning potente y ampliamente utilizado en la ciencia de datos para tareas de clasificación. Forma parte de una familia de métodos de aprendizaje por conjuntos, junto con el bagging, que combinan las predicciones de varios modelos más simples para mejorar el rendimiento general. La regresión con boosting de gradiente utiliza el boosting de gradiente para generar mejor output basado en una regresión lineal. Un clasificador de boosting de gradiente, que explorará en este tutorial, utiliza el boosting de gradiente para clasificar mejor los datos de entrada como pertenecientes a dos o más clases diferentes.

El boosting de gradiente es una actualización del algoritmo adaboost que utiliza tocones de decisión en lugar de árboles. Estos tocones de decisión son similares a los árboles de un bosque aleatorio, pero solo tienen un nodo y dos hojas. El algoritmo de boosting de gradiente construye modelos secuencialmente, cada paso intenta corregir los errores de la iteración anterior. El proceso de entrenamiento a menudo comienza con la creación de un aprendiz débil como un árbol de decisión superficial para los datos de entrenamiento. Después de ese entrenamiento inicial, el boosting de gradiente calcula el error entre los valores reales y predichos (a menudo llamados residuos) y luego entrena un nuevo estimador para predecir este error. Ese nuevo árbol se añade al conjunto para actualizar las predicciones y crear un aprendiz fuerte. El boosting de gradiente repite este proceso hasta que se detiene la mejora o hasta que se alcanza un número fijo de iteraciones. El impulso en sí mismo es similar al descenso de gradiente, pero "desciende" el gradiente introduciendo nuevos modelos.

El impulso tiene varias ventajas: tiene un buen rendimiento en datos tabulares y puede manejar datos numéricos y categóricos. Funciona bien incluso con parámetros predeterminados y es resistente a los valores atípicos en el conjunto de datos. Sin embargo, puede ser lento de entrenar y, a menudo, muy sensible a los hiperparámetros establecidos para el proceso de entrenamiento. Reducir el número de árboles creados puede acelerar el proceso de entrenamiento cuando se trabaja con un gran conjunto de datos. Este paso suele realizarse a través del parámetro de profundidad máxima. El boosting de gradiente también puede ser propenso al sobreajuste si no se ajusta correctamente. Para evitar el sobreajuste, puede configurar la tasa de aprendizaje para el proceso de entrenamiento. Este proceso es aproximadamente el mismo para un clasificador o un regresor de boosting de gradiente y se utiliza en el popular xgboost, que se basa en el boosting de gradiente añadiendo regularización.

En este tutorial, aprenderá a utilizar dos lenguajes de programación diferentes y bibliotecas de boosting de gradiente para clasificar pingüinos utilizando el popular conjunto de datos Palmer Penguins.

Puede descargar el cuaderno para este tutorial desde Github.