L'apprendimento d'insieme dà credito all'idea della "saggezza delle folle", che suggerisce che il processo decisionale di un gruppo più ampio di persone sia in genere migliore di quello di un singolo esperto. Allo stesso modo, l'apprendimento d'insieme si riferisce a un gruppo (o insieme) di base learner, o modelli, che lavorano collettivamente per ottenere una previsione finale migliore. Un singolo modello, noto anche come base o weak learner, potrebbe non funzionare bene singolarmente a causa dell'elevata varianza o dell'elevata distorsione. Tuttavia, quando i weak learner vengono aggregati, possono formare uno strong learner, poiché la loro combinazione riduce le distorsioni o le varianze, producendo migliori prestazioni del modello.
I metodi d'insieme vengono spesso illustrati utilizzando alberi decisionali, poiché questo algoritmo può essere incline all'overfitting (elevata varianza e bassa distorsione) quando non è stato sottoposto a pruning e può anche prestarsi all'underfitting (bassa varianza e alta distorsione) quando è molto piccolo, come un albero di classificatori, che è un albero decisionale con un solo livello. Ricorda che, quando un algoritmo si adatta eccessivamente o insufficientemente al suo set di dati di addestramento, non riesce a generalizzare bene sui nuovi set di dati. Per questo motivo, vengono utilizzati i metodi d'insieme per contrastare questo comportamento e consentire la generalizzazione del modello a nuovi set di dati. Mentre gli alberi decisionali possono mostrare un'elevata varianza o un'elevata distorsione, è importante sottolineare che non è l'unica tecnica di modellazione che utilizza l'apprendimento d'insieme per trovare il "punto debole" all'interno del compromesso tra distorsione e varianza.