¿Qué es boosting?

Conozca los algoritmos de boosting y cómo pueden mejorar la capacidad predictiva de sus iniciativas de minería de datos.

Boosting es un método de aprendizaje por conjuntos que combina una serie de aprendices débiles en un aprendiz fuerte para minimizar los errores de entrenamiento. En el boosting, se selecciona una muestra aleatoria de datos, que se ajusta a un modelo y luego se entrena de forma secuencial, es decir, cada modelo intenta compensar las debilidades de su predecesor. Con cada iteración, las reglas débiles de cada clasificador individual se combinan para formar una única regla de predicción fuerte.

Antes de continuar, vamos a explorar la categoría del aprendizaje por conjuntos de forma más general, con especial atención en dos de los métodos más conocidos: bagging y boosting.

Aprendizaje por conjuntos

El aprendizaje por conjuntos respalda la idea de la “sabiduría de las multitudes”, que sugiere que la toma de decisiones de un grupo más grande de personas suele ser mejor que la de una persona experta. De manera similar, el aprendizaje por conjuntos se refiere a un grupo (o conjunto) de aprendices básicos, o modelos, que trabajan colectivamente para lograr una predicción final mejor. Un solo modelo, también conocido como aprendiz básico o débil, puede no funcionar bien individualmente debido a una alta varianza o sesgo. Sin embargo, cuando se agregan aprendices débiles, pueden formar un aprendiz fuerte, ya que su combinación reduce el sesgo o la varianza y, en última instancia, mejora el rendimiento del modelo.

Los métodos por conjuntos se ilustran con frecuencia mediante árboles de decisiones, ya que este algoritmo puede ser propenso a sobreajustes (alta varianza y bajo sesgo) si no se ha podado y también puede prestarse a subajustes (baja varianza y alto sesgo) cuando es muy pequeño, como un tocón de decisión, que es un árbol de decisiones con un solo nivel. Recuerde que, cuando un algoritmo se sobreajusta o subajusta a su conjunto de datos de entrenamiento, no se puede generalizar bien a nuevos conjuntos de datos, por lo que se utilizan métodos por conjuntos para contrarrestar este comportamiento y permitir la generalización del modelo a nuevos conjuntos de datos. Si bien los árboles de decisiones pueden presentar una alta varianza o un alto sesgo, cabe señalar que no es la única técnica de modelado que aprovecha el aprendizaje por conjuntos para encontrar el “punto óptimo” de equilibrio entre sesgo y varianza.

Bagging frente a boosting

Bagging y boosting son dos tipos principales de métodos de aprendizaje por conjuntos. Como se describe en este estudio (PDF, 242 KB) (enlace externo a ibm.com), la principal diferencia entre estos métodos de aprendizaje es la forma en que se entrenan. En bagging, los aprendices débiles se entrenan en paralelo, pero en boosting aprenden secuencialmente. Esto significa que se construyen una serie de modelos y, con cada nueva iteración del modelo, se incrementan las ponderaciones de los datos mal clasificados en el modelo anterior. Esta redistribución de ponderaciones ayuda al algoritmo a identificar los parámetros en los que necesita centrarse para mejorar su rendimiento. AdaBoost, que significa “algoritmo de boosting adaptativo”, es uno de los algoritmos de boosting más populares, ya que fue uno de los primeros de su clase. Otros tipos de algoritmos de boosting son XGBoost, GradientBoost y BrownBoost.

Otra de las diferencias entre bagging y boosting se encuentra en su forma de uso. Por ejemplo, los métodos de bagging normalmente se aplican en aprendices débiles que presentan una alta varianza y un sesgo bajo, mientras que los métodos de boosting se utilizan cuando se observa una baja varianza y un sesgo alto. Mientras que el bagging se puede utilizar para evitar el sobreajuste, los métodos de boosting pueden ser más propensos a presentar este elemento (enlace externo a ibm.com), aunque realmente depende del conjunto de datos. Sin embargo, el ajuste de parámetros puede ayudar a evitar el problema.

Como resultado, el bagging y el boosting también tienen diferentes aplicaciones en la vida real. El bagging se ha empleado para los procesos de aprobación de préstamos y la genómica estadística, mientras que el boosting se ha utilizado más en aplicaciones de reconocimiento de imágenes y motores de búsqueda.

Productos destacados

SPSS Modeler

Tipos de boosting

Los métodos de boosting se centran en la combinación iterativa de aprendices débiles para crear un aprendiz fuerte que pueda predecir resultados más precisos. Conviene recordar que los aprendices débiles clasifican los datos ligeramente mejor que las suposiciones aleatorias. Este enfoque puede proporcionar resultados firmes a problemas de predicción, e incluso puede superar a las redes neuronales y dar soporte a máquinas vectoriales para tareas como la recuperación de imágenes (PDF, 1,9 MB) (enlace externo a ibm.com).

Los algoritmos de boosting pueden diferir en la forma en que crean y agregan aprendices débiles durante el proceso secuencial. Hay tres conocidos tipos de métodos de boosting, entre otros:

Boosting adaptativo o AdaBoost: la creación del algoritmo AdaBoost se le atribuye a Yoav Freund y Robert Schapire. Este método funciona de forma iterativa; identifica puntos de datos mal clasificados y ajusta sus pesos para minimizar el error de entrenamiento. El modelo continúa optimizándose de manera secuencial hasta que obtiene el predictor más fuerte.
Boosting de gradiente: sobre la base del trabajo de Leo Breiman, Jerome H. Friedman desarrolló el boosting de gradiente, que funciona agregando secuencialmente predictores a un conjunto en el que cada uno de ellos corrige los errores de su predecesor. Sin embargo, en lugar de cambiar el peso de los puntos de datos como AdaBoost, el boosting de gradiente entrena los errores residuales del predictor anterior. Se le llama boosting de gradiente porque combina el algoritmo de descenso de gradiente y el método de boosting.
Boosting de gradiente extremo o XGBoost: XGBoost es una implementación de boosting de gradiente diseñada para mejorar la velocidad y la escalabilidad computacionales. XGBoost emplea múltiples núcleos en la CPU, que permiten que el aprendizaje ocurra en paralelo durante el entrenamiento.

Ventajas y desafíos de boosting

Podemos destacar una serie de ventajas y desafíos que presenta el método de boosting cuando se utiliza para problemas de clasificación o regresión.

Las principales ventajas de boosting incluyen:

Facilidad de implementación: el boosting se puede utilizar con varias opciones de configuración de hiperparámetros para mejorar el ajuste. No se requiere preprocesamiento de datos, y los algoritmos de boosting tienen rutinas integradas para gestionar los datos faltantes. En Python, la biblioteca scikit-learn de métodos por conjuntos (también conocida como sklearn.ensemble) facilita la implementación de los métodos de boosting populares, incluidos AdaBoost, XGBoost, etc.
Reducción de sesgos: los algoritmos de boosting combinan varios aprendices débiles en un método secuencial y mejoran iterativamente las observaciones. Este enfoque puede ayudar a reducir el alto sesgo, que se observa comúnmente en árboles de decisión poco profundos y modelos de regresión logística.
Eficiencia computacional: dado que los algoritmos de boosting solo seleccionan características que aumentan su poder predictivo durante el entrenamiento, puede ayudar a reducir la dimensionalidad, así como a aumentar la eficiencia computacional.

Los principales desafíos del boosting son:

Sobreajuste: existe cierto debate en este estudio (enlace externo a ibm.com) sobre si el boosting puede ayudar a reducir el sobreajuste o empeorarlo. Lo incluimos en los desafíos porque, en los casos en que ocurre, las predicciones no se pueden generalizar a nuevos conjuntos de datos.
Cálculo intenso: el entrenamiento secuencial en el boosting es difícil de escalar. Dado que cada estimador se basa en sus predecesores, el coste de los modelos de boosting puede ser muy elevado a nivel de cálculo, aunque XGBoost intenta corregir los problemas de escalabilidad que se observan en otros tipos de métodos de boosting. Los algoritmos de boosting pueden ser más lentos de entrenar en comparación a los de bagging, ya que una gran cantidad de parámetros también pueden influir en el comportamiento del modelo.

Aplicaciones del boosting

Los algoritmos de boosting son adecuados para proyectos de inteligencia artificial en una amplia gama de sectores, que incluyen:

Atención sanitaria: el boosting se utiliza para reducir los errores en las predicciones de datos médicos, como la predicción de factores de riesgo cardiovascular y las tasas de supervivencia de los pacientes con cáncer. Por ejemplo, este estudio (enlace externo a ibm.com) muestra que los métodos por conjuntos mejoran significativamente la precisión en la identificación de pacientes que podrían beneficiarse del tratamiento preventivo de enfermedades cardiovasculares, mientras se evita el tratamiento innecesario de otros. Del mismo modo, otro estudio (enlace externo a IBM) concluyó que la aplicación del boosting en múltiples plataformas de genómica puede mejorar la predicción del tiempo de supervivencia del cáncer.

TI: los árboles de regresión potenciados por gradientes se utilizan en los motores de búsqueda para clasificar las páginas, mientras que el algoritmo de boosting de Viola-Jones se utiliza para la recuperación de imágenes. Tal como señala Cornell, (enlace externo a ibm.com), los clasificadores potenciados permiten detener antes los cálculos, cuando está claro hacia dónde se dirige una predicción. Esto significa que un motor de búsqueda puede detener la evaluación de las páginas de posicionamiento más bajo, mientras que los escáneres de imágenes solo examinarán las imágenes que efectivamente contengan el objeto deseado.
Finanzas: el boosting se utiliza con modelos de deep learning para automatizar tareas esenciales, incluida la detección de fraudes o el análisis de precios, entre otras. Por ejemplo, los métodos de boosting en la detección de fraudes con tarjetas de crédito y el análisis de precios de productos financieros (enlace externo a ibm.com) mejoran la precisión del análisis de conjuntos de datos masivos para minimizar las pérdidas financieras.

Soluciones relacionadas

SPSS Modeler

Impulse el retorno de la inversión y acelere la generación de valor con una herramienta de ciencia de datos intuitiva, con la función de arrastrar y soltar.

Explore IBM SPSS Modeler

Soluciones de IBM Cloud

Híbridas. Abiertas. Resilientes. Su plataforma y su socio para la transformación digital.

Explore las soluciones en cloud

Soluciones Cloud Pak

Software de cloud híbrido basado en IA.

Explore las soluciones Cloud Pak

Dé el siguiente paso

Las soluciones de IBM dan soporte a todo el ciclo de vida de machine learning. Descubra cómo las herramientas de minería de datos de IBM, como IBM SPSS Modeler, le permiten desarrollar modelos predictivos para desplegarlos en operaciones de negocio. Mejoran la precisión de los modelos con modelado. Para obtener más información sobre las ventajas de los métodos de boosting y bagging, consulte IBM Data Science Community.

Únase hoy a la IBM Data Science Community