Il bagging, noto anche come aggregazione di bootstrap, è il metodo di apprendimento d'insieme comunemente utilizzato per ridurre la varianza in un set di dati rumorosi. Nel bagging, un campione casuale di dati in un set di addestramento è selezionato con sostituzione, il che significa che i singoli punti di dati possono essere scelti più di una volta. Dopo che sono stati generati diversi campioni di dati, questi modelli vengono addestrati in modo indipendente e, a seconda del tipo di attività - ossia regressione o classificazione - la media o la maggioranza di queste previsioni produce una stima più accurata.

Come nota, l'algoritmo a foresta casuale è considerato un'estensione del metodo di bagging, che utilizza sia il bagging che la casualità delle funzioni per creare una foresta non correlata di alberi delle decisioni.

Apprendimento d'insieme

L'apprendimento d'insieme dà credito all'idea della "saggezza delle folle," che suggerisce che il processo decisionale di un gruppo più ampio di persone è tipicamente migliore di quello di un singolo esperto. Allo stesso modo, l'apprendimento d'insieme si riferisce a un gruppo (o insieme) di "allievi" base, o modelli, che lavorano collettivamente per ottenere una previsione finale migliore. Le prestazioni di un singolo modello, noto anche come allievo base o debole, potrebbero non essere individualmente buone, a causa del livello elevato di varianza o distorsione (bias). Tuttavia, quando gli allievi deboli vengono aggregati, possono formare un allievo forte, poiché la loro combinazione riduce la distorsione o varianza, producendo prestazioni migliori del modello.

I metodi d'insieme sono spesso illustrati utilizzando alberi delle decisioni poiché questo algoritmo può essere incline a overfitting (elevata varianza e bassa distorsione) quando non è stato ripulito e può anche prestarsi ad underfitting (bassa varianza ed elevata distorsione) quando ha dimensioni molto ridotte, ad esempio un tronco delle decisioni, cioè un albero delle decisioni con un solo livello. Tieni presente che, quando si adatta troppo o troppo poco al suo set di dati di addestramento, un algoritmo non può generalizzare in modo efficiente a nuovi set di dati, quindi vengono utilizzati metodi d'insieme per consentire la generalizzazione del modello a nuovi set di dati. Anche se gli alberi delle decisioni possono presentare elevata varianza o distorsione, vale la pena notare che non è l'unica tecnica di creazione di modelli che utilizza efficacemente l'apprendimento d'insieme per individuare il punto di equilibrio ottimale nel compromesso tra distorsione e varianza.

Confronto tra bagging e boosting

Bagging e boosting sono due tipologie principali di metodi di apprendimento d'insieme. Come evidenziato in questo studio (PDF, 248 KB) (link esterno a ibm.com), la differenza principale tra questi metodi di apprendimento è il modo in cui i modelli vengono addestrati. Nel bagging, gli allievi deboli vengono addestrati in parallelo, invece nel boosting apprendono in sequenza. Ciò significa che viene costruita una serie di modelli e, ad ogni nuova iterazione del modello, vengono aumentati i pesi dei dati erroneamente classificati nel modello precedente. Questa ridistribuzione dei pesi aiuta l'algoritmo a identificare i parametri su cui deve focalizzarsi per migliorare le sue prestazioni. AdaBoost, ovvero "algoritmo di boosting adattivo", è uno dei più diffusi algoritmi di boosting, in quanto è stato uno dei primi nel suo genere. Altri tipi di algoritmi di boosting includono XGBoost, GradientBoost e BrownBoost.

Un'altra differenza tra bagging e boosting è rappresentata dagli scenari in cui vengono utilizzati. Ad esempio, i metodi di bagging sono in genere utilizzati su allievi deboli che presentano elevata varianza e bassa distorsione, mentre i metodi di boosting vengono sfruttati quando si osserva una bassa varianza e un'elevata distorsione.