L'apprendimento d'insieme dà credito all'idea della "saggezza delle folle", che suggerisce che il processo decisionale di un gruppo più ampio di persone sia in genere migliore di quello di un singolo esperto. Allo stesso modo, l'apprendimento d'insieme si riferisce a un gruppo (o insieme) di base learner, o modelli, che lavorano collettivamente per ottenere una previsione finale migliore.
Un singolo modello, noto anche come base o weak learner, potrebbe non funzionare bene singolarmente a causa dell'elevata varianza o dell'elevata distorsione. Tuttavia, quando i weak learner vengono aggregati, possono formare uno strong learner, poiché la loro combinazione riduce distorsioni o varianze, producendo migliori prestazioni del modello.
I metodi d'insieme utilizzano spesso decision tree per l'illustrazione. Questo algoritmo può essere incline all'overfitting, con elevata varianza e bassa distorsione, quando non è stato sottoposto a pruning. Al contrario, può anche prestarsi all'underfitting, con bassa varianza e alta distorsione, quando è molto piccolo, come un decision stump, che è un decision tree con un solo livello.
Bisogna ricordare che, quando un algoritmo è soggetto a overfitting o underfitting sul suo set di addestramento, non riesce a generalizzare bene sui nuovi set di dati. Perciò, i metodi d'insieme sono utilizzati per contrastare questo comportamento e permettere la generalizzazione del modello a nuovi set di dati. Sebbene i decision trees possano presentare una varianza elevata o un'elevata distorsione, vale la pena notare che non è l'unica tecnica di modellazione che sfrutta l'apprendimento d'insieme per trovare il "punto di forza" all'interno del compromesso distorsione-varianza.