El boosting es un método de aprendizaje conjunto que combina un conjunto de alumnos débiles en un alumno fuerte para minimizar los errores de entrenamiento. Los algoritmos de boosting pueden mejorar el potencial predictivo de sus iniciativas de extracción de datos.
En el boosting, se selecciona una muestra aleatoria de datos, se ajusta a un modelo y luego se entrena secuencialmente, es decir, cada modelo intenta compensar las debilidades de su predecesor. En cada iteración, las reglas débiles de cada clasificador individual se combinan para formar una regla de predicción fuerte.
El aprendizaje conjunto da crédito a la idea de la "sabiduría de las multitudes", que sugiere que la toma de decisiones de un grupo más amplio de personas suele ser mejor que la de un experto individual. Del mismo modo, el aprendizaje conjunto se refiere a un grupo de aprendices base, o modelos, que trabajan colectivamente para lograr una mejor predicción final. Un modelo único, también conocido como modelo básico o de aprendizaje débil, puede no funcionar bien individualmente debido al alta varianza o al alto sesgo. Sin embargo, cuando se agregan aprendices débiles, pueden formar un aprendiz fuerte, ya que su combinación reduce el sesgo o la varianza, lo que produce un mejor rendimiento del modelo.
Los métodos de ensamblaje se ilustran con frecuencia utilizando árboles de decisión, ya que este algoritmo puede ser propenso al sobreajuste (alta varianza y bajo sesgo) cuando no se ha podado y también puede prestarse al subajuste (baja varianza y alto sesgo) cuando es muy pequeño, como un tocón de decisión, que es un árbol de decisión con un nivel. Recuerde que, cuando un algoritmo se ajusta en exceso o en defecto a su conjunto de datos de entrenamiento, no puede generalizar bien a nuevos conjuntos de datos, por lo que los métodos de conjunto se utilizan para contrarrestar este comportamiento y permitir la generalización del modelo a nuevos conjuntos de datos. Aunque los árboles de decisión pueden presentar una varianza o un sesgo elevados, cabe señalar que no es la única técnica de modelado que aprovecha el aprendizaje por conjuntos para encontrar el "punto óptimo" dentro del equilibrio sesgo-varianza.
El Bagging y el boosting son dos tipos principales de métodos de aprendizaje por conjuntos. Como se destaca en este estudio (enlace externo a ibm.com), la principal diferencia entre estos métodos de aprendizaje es la forma en que se entrenan. En el bagging, los alumnos débiles se entrenan en paralelo, pero en el boosting, aprenden secuencialmente. Esto significa que se construye una serie de modelos y, con cada nueva iteración del modelo, aumentan los pesos de los datos mal clasificados en el modelo anterior. Esta redistribución de las ponderaciones ayuda al algoritmo a identificar los parámetros en los que debe centrarse para mejorar su rendimiento. AdaBoost, que significa "algoritmo de boosting adaptativo", es uno de los algoritmos de boosting más populares, ya que fue uno de los primeros de su tipo. Otros tipos de algoritmos de boosting incluyen XGBoost, GradientBoost y BrownBoost.
Otra diferencia entre el bagging y el boosting radica en cómo se utilizan. Por ejemplo, los métodos de bagging se utilizan normalmente en alumnos débiles que muestran una varianza alta y un sesgo bajo, mientras que los métodos de boosting se aprovechan cuando se observa una varianza baja y un sesgo alto. Aunque el bagging se puede utilizar para evitar el sobreajuste, los métodos de refuerzo pueden ser más propensos a esto (enlace externo a ibm.com), aunque realmente depende del conjunto de datos. Sin embargo, el ajuste de parámetros puede ayudar a evitar el problema.
En consecuencia, el bagging y el boosting también tienen diferentes aplicaciones en el mundo real. El bagging se empleó en procesos de aprobación de préstamos y genómica estadística, mientras que el boosting se empleó más en aplicaciones de reconocimiento de imágenes y motores de búsqueda.
Los métodos de impulso se centran en combinar iterativamente aprendices débiles para crear un aprendiz fuerte que pueda predecir resultados más precisos. Como recordatorio, un aprendiz débil clasifica los datos ligeramente mejor que las conjeturas aleatorias. Este enfoque puede proporcionar resultados estables para problemas de predicción e incluso puede superar a las neural networks y admitir máquinas de vectores para tareas como la recuperación de imágenes (enlace externo a ibm.com).
Los algoritmos de impulso pueden diferir en la forma en que crean y agregan aprendices débiles durante el proceso secuencial. Tres tipos populares de métodos de impulso incluyen:
Beneficios y desafíos del boosting
El método de boosting presenta una serie de ventajas y retos clave cuando se utiliza para problemas de clasificación o regresión.
Los beneficios clave del boosting incluyen:
Los desafíos clave del impulso incluyen:
Los algoritmos de impulso son adecuados para proyectos de inteligencia artificial en una amplia gama de industrias, que incluyen:
Atención médica: el boosting se utiliza para reducir los errores en las predicciones de datos médicos, como la predicción de los factores de riesgo cardiovascular y las tasas de supervivencia de los pacientes con cáncer. Por ejemplo, la investigación (enlace externo a ibm.com) muestra que los métodos de conjunto mejoran significativamente la precisión en la identificación de pacientes que podrían beneficiarse del tratamiento preventivo de la enfermedad cardiovascular, al tiempo que evitan el tratamiento innecesario de otros. Del mismo modo, otro estudio (enlace externo a ibm.com) descubrió que la aplicación del boosting a múltiples plataformas genómicas puede mejorar la predicción del tiempo de supervivencia del cáncer.
IT: Los árboles de regression de gradiente reforzado se emplean en los motores de búsqueda para la clasificación de páginas, mientras que el algoritmo de refuerzo de Viola-Jones se emplea para la recuperación de imágenes. Como señala Cornell (el enlace se encuentra fuera de ibm.com), los clasificadores potenciados permiten detener antes los cálculos cuando está claro hacia dónde se dirige una predicción. Esto significa que un motor de búsqueda puede detener la evaluación de las páginas peor clasificadas, mientras que los escáneres de imágenes sólo tendrán en cuenta las imágenes que realmente contengan el objeto deseado.
Finanzas: el boosting se utiliza con modelos de aprendizaje profundo para automatizar tareas críticas, como la detección de fraude, el análisis de precios y mucho más. Por ejemplo, impulsar los métodos de detección de fraudes con tarjetas de crédito y análisis de precios de productos financieros (enlace externo a ibm.com) mejora la precisión del análisis de conjuntos de datos masivos para minimizar las pérdidas financieras.
