Cualquier algoritmo de entrenamiento de un modelo consta de numerosas variables, por ejemplo, datos de entrenamiento, hiperparámetros, etc., que afectan el error total del modelo consecuente. Por lo tanto, incluso un único algoritmo de entrenamiento puede producir diferentes modelos, cada uno con su propio sesgo, varianza y tasas de error irreducibles. Al combinar varios modelos diversos, los algoritmos de conjunto pueden producir una tasa de error general más baja, al tiempo que conservan las complejidades y beneficios propios de cada modelo individual, como un sesgo notablemente bajo para un subconjunto de datos específico.7
Las investigaciones sugieren que, en general, cuanto mayor sea la diversidad entre los modelos combinados, más preciso será el modelo del conjunto resultante. De esta manera, el aprendizaje conjunto puede abordar problemas de regression como el sobreajuste sin eliminar el sesgo del modelo. De hecho, las investigaciones sugieren que los conjuntos compuestos por diversos modelos subregularizados (es decir, los modelos que se sobreajustan a sus datos de entrenamiento) superan a los modelos regularizados individuales.8 Además, las técnicas de aprendizaje por conjuntos pueden ayudar a resolver problemas derivados de datos de alta dimensión y, por lo tanto, servir eficazmente como una alternativa a la reducción de la dimensionalidad.