Cualquier algoritmo de entrenamiento de modelos consta de numerosas variables, por ejemplo, los datos de entrenamiento, los hiperparámetros, etc., que afectan al error total del modelo consecuente. Así, incluso un único algoritmo de entrenamiento puede producir modelos diferentes, cada uno con su propio sesgo, varianza y tasas de error irreducibles. Al combinar varios modelos diversos, los algoritmos de conjunto pueden producir una tasa de error general más baja, al mismo tiempo que conservan las complejidades y ventajas propias de cada modelo individual, como un sesgo notablemente bajo para un subconjunto de datos específico.7
Las investigaciones sugieren que, en general, cuanto mayor sea la diversidad entre los modelos combinados, más preciso será el modelo de conjunto resultante. De esta manera, el aprendizaje conjunto puede abordar problemas de regresión como el sobreajuste sin eliminar el sesgo del modelo. De hecho, las investigaciones sugieren que los conjuntos compuestos por diversos modelos subregularizados (es decir, los modelos que se ajustan en exceso a sus datos de entrenamiento) superan a los modelos regularizados individuales.8 Además, las técnicas de aprendizaje conjunto pueden ayudar a resolver problemas derivados de datos de alta dimensión y, por lo tanto, servir eficazmente como una alternativa a la reducción de la dimensionalidad.