La agregación de bootstrap o autodocimante, conocida por su nombre en inglés bagging, es el método de aprendizaje por conjuntos que se suele utilizar para reducir la varianza dentro de un conjunto de datos ruidoso. En el bagging, se selecciona una muestra aleatoria de datos en un conjunto de entrenamiento con reemplazo, lo que significa que los puntos de datos individuales se pueden elegir más de una vez. Tras generar varias muestras de datos, estos modelos débiles se entrenan de forma independiente, y en función del tipo de tarea —regresión o clasificación, por ejemplo— el promedio o la mayoría de estas predicciones genera una estimación más precisa.
Como nota, el algoritmo de bosque aleatorio se considera una extensión de bagging, ya que utiliza tanto este método como la aleatoriedad de características para crear un bosque no correlacionado de árboles de decisiones.
El aprendizaje por conjuntos respalda la idea de la "sabiduría de las multitudes", que sugiere que la toma de decisiones de un grupo más grande de personas suele ser mejor que la de una persona experta. De manera similar, el aprendizaje por conjuntos se refiere a un grupo (o conjunto) de aprendices básicos, o modelos, que trabajan colectivamente para lograr una predicción final mejor. Un solo modelo, también conocido como aprendiz básico o débil, puede no funcionar bien individualmente debido a una alta varianza o sesgo. Sin embargo, cuando se agregan aprendices débiles, pueden formar un aprendiz fuerte, ya que su combinación reduce el sesgo o la varianza y, en última instancia, mejora el rendimiento del modelo.
Los métodos por conjuntos se ilustran con frecuencia mediante árboles de decisiones, ya que este algoritmo puede ser propenso a sobreajustes (alta varianza y bajo sesgo) si no se ha podado y también puede prestarse a subajustes (baja varianza y alto sesgo) cuando es muy pequeño, como un tocón de decisión, que es un árbol de decisiones con un solo nivel. Recuerde que, cuando un algoritmo se sobreajusta o subajusta a su conjunto de datos de entrenamiento, no se puede generalizar bien a nuevos conjuntos de datos, por lo que se utilizan métodos por conjuntos para contrarrestar este comportamiento y permitir la generalización del modelo a nuevos conjuntos de datos. Si bien los árboles de decisiones pueden presentar una alta varianza o un alto sesgo, cabe señalar que no es la única técnica de modelado que aprovecha el aprendizaje por conjuntos para encontrar el "punto óptimo" de equilibrio entre sesgo y varianza.
Bagging y boosting son dos tipos principales de métodos de aprendizaje por conjuntos. Como se describe en este estudio (PDF, 248 KB) (enlace extermo a ibm.com), la principal diferencia entre estos métodos de aprendizaje es la forma en que se entrenan. En bagging, los aprendices débiles se entrenan en paralelo, pero en boosting aprenden secuencialmente. Esto significa que se construyen una serie de modelos y, con cada nueva iteración del modelo, se incrementan las ponderaciones de los datos mal clasificados en el modelo anterior. Esta redistribución de ponderaciones ayuda al algoritmo a identificar los parámetros en los que necesita centrarse para mejorar su rendimiento. AdaBoost, que significa "algoritmo de boosting adaptativo", es uno de los algoritmos de boosting más populares, ya que fue uno de los primeros de su clase. Otros tipos de algoritmos de boosting son XGBoost, GradientBoost y BrownBoost.
Otra diferencia entre bagging y boosting son los escenarios en los que se utilizan. Por ejemplo, los métodos de bagging normalmente se aplican en estudiantes débiles que presentan una alta varianza y un sesgo bajo, mientras que los métodos de boosting se utilizan cuando se observa una baja varianza y un sesgo alto.
En 1996, Leo Breiman (PDF, 829 KB) (enlace externo a ibm.com) presentó el algoritmo de bagging, que consta de tres pasos básicos:
Podemos destacar una serie de ventajas y desafíos que presenta el método de bagging cuando se utiliza para problemas de clasificación o regresión. Las principales ventajas de bagging incluyen:
Los principales desafíos para el bagging son:
La técnica de bagging se utiliza en un gran número de sectores, lo que proporciona información para obtener un valor real y perspectivas interesantes, como en los Debates GRAMMY con Watson. Entre los casos de uso destacamos:
IBM SPSS Modeler proporciona analítica predictiva para ayudar a descubrir patrones de datos, ganar precisión predictiva y mejorar la toma de decisiones.
Cree y escale IA fiable en cualquier cloud. Automatice el ciclo de vida de IA para ModelOps.
Explore la IBM Data Science Community para obtener más información sobre ciencia de datos y machine learning.