Il bagging, noto anche come bootstrap aggregation, è il metodo di apprendimento d'insieme comunemente usato per ridurre la varianza all'interno di un set di dati rumoroso.
Nel bagging, un campione casuale di dati in un set di addestramento viene selezionato con sostituzione, il che significa che i singoli punti dati possono essere scelti più di una volta. Dopo aver generato diversi campioni di dati, questi modelli deboli vengono quindi addestrati in modo indipendente. A seconda del tipo di attività, regression o classificazione, la media o la maggioranza di tali previsioni forniscono una stima più accurata.
A titolo di nota, l'algoritmo random forest è considerato un'estensione del metodo del bagging, che utilizza sia il bagging che la casualità delle caratteristiche per creare una foresta di decision trees non correlati.
L'apprendimento d'insieme dà credito all'idea della "saggezza delle folle", che suggerisce che il processo decisionale di un gruppo più ampio di persone è in genere migliore di quello di un singolo esperto. Allo stesso modo, l'apprendimento d'insieme si riferisce a un gruppo (o insieme) di base learner, o modelli, che lavorano collettivamente per ottenere una previsione finale migliore.
Un singolo modello, noto anche come base o weak learner, potrebbe non funzionare bene individualmente a causa dell'elevata varianza o dell'elevata distorsione. Tuttavia, quando i weak learner vengono aggregati, possono formare uno strong learner, poiché la loro combinazione riduce distorsioni o varianze, producendo migliori prestazioni del modello.
I metodi d'insieme utilizzano spesso decision trees per l'illustrazione. Questo algoritmo può essere incline all'overfitting, mostrando un'elevata varianza e una bassa distorsione, quando non è stato sottoposto a pruning. Al contrario, può anche prestarsi all'underfitting, con bassa varianza e alta distorsione, quando è molto piccolo, come un decision stump, che è un decision tree con un solo livello.
Bisogna ricordare che, quando un algoritmo è soggetto a overfitting o underfitting sul suo set di addestramento, non riesce a generalizzare bene sui nuovi set di dati. Perciò, i metodi d'insieme sono utilizzati per contrastare questo comportamento e permettere la generalizzazione del modello a nuovi set di dati. Sebbene i decision trees possano presentare una varianza elevata o un'elevata distorsione, vale la pena notare che non è l'unica tecnica di modellazione che sfrutta l'apprendimento d'insieme per trovare il "punto di forza" all'interno del compromesso distorsione-varianza.
Il bagging e il boosting sono i due tipi principali di metodi di apprendimento d'insieme. Come evidenziato in questo studio (link esterno a ibm.com), la differenza principale tra questi metodi di apprendimento è il modo in cui vengono addestrati.
Nel bagging, i weak learner vengono addestrati in parallelo, mentre nel boosting l'apprendimento avviene in sequenza. Ciò significa che viene costruita una serie di modelli e ad ogni nuova iterazione del modello vengono aumentati i pesi dei dati mal classificati nel modello precedente.
Questa ridistribuzione dei pesi aiuta l'algoritmo a identificare i parametri su cui deve concentrarsi per migliorare le sue prestazioni. AdaBoost, acronimo di "adaptive boosting algorithm", è uno degli algoritmi di boosting più popolari in quanto è stato uno dei primi del suo genere. Altri tipi di algoritmi di boosting includono XGBoost, GradientBoost e BrownBoost.
Un'altra differenza tra il bagging e il boosting riguarda gli scenari in cui vengono utilizzati. Ad esempio, i metodi di bagging sono tipicamente utilizzati su weak learner che mostrano un'elevata varianza e una bassa distorsione, mentre i metodi di potenziamento vengono utilizzati quando si osservano una bassa varianza e un'elevata distorsione.
Nel 1996, Leo Breiman (link esterno a ibm.com) introdusse l'algoritmo di bagging, che prevede tre passaggi fondamentali:
Il metodo del bagging presenta diversi vantaggi e sfide chiave quando viene utilizzato per problemi di classificazione o regression. I principali vantaggi del bagging includono:
Le principali sfide del bagging includono:
La tecnica del bagging viene utilizzata in molti settori, fornendo spunti di valore reale e prospettive interessanti, come nel caso dei GRAMMY Debates with Watson. I principali casi d’uso includono:
Utilizza la predictive analytics per identificare modelli di dati, ottenere previsioni accurate e migliorare il processo decisionale.
Crea e scala un'IA attendibile su qualsiasi cloud. Automatizza il ciclo di vita dell'IA per ModelOps.