Home

topics

random forest

Che cos'è la foresta casuale?
Esplora la soluzione di foresta casuale di IBM Iscriviti per ricevere gli aggiornamenti sull'AI
Immagine di un albero con un diagramma di flusso
Che cos'è la foresta casuale?

La foresta casuale è un algoritmo di apprendimento automatico di uso comune, registrato da Leo Breiman e Adele Cutler, che combina l'output di più decision trees per raggiungere un unico risultato. La sua facilità d'uso e la sua flessibilità ne hanno favorito l'adozione, in quanto gestisce sia i problemi di classificazione che quelli di regressione.

Processi decisionali

Poiché il modello di foresta casuale è composto da più alberi decisionali, sarebbe utile iniziare a descrivere brevemente l'algoritmo dell'albero decisionale. Gli alberi decisionali iniziano con una domanda di base, come ad esempio: "Dovrei fare surf?" Da lì, puoi porre una serie di domande per determinare una risposta, come ad esempio: "È un'onda di lungo periodo?" o "Il vento soffia al largo?". Queste domande costituiscono i nodi decisionali dell'albero, che servono a suddividere i dati. Ogni domanda aiuta l'individuo a prendere una decisione finale, che viene indicata dal nodo foglia. Le osservazioni che soddisfano i criteri seguiranno il percorso "Sì", mentre quelle che non lo soddisfano seguiranno il percorso alternativo. Gli alberi decisionali cercano di trovare la migliore suddivisione dei dati e sono in genere addestrati attraverso l'algoritmo Classification and Regression Tree (CART). Per valutare la qualità della suddivisione, si possono utilizzare metriche come l'impurità Gini, il guadagno di informazioni o l'errore quadratico medio (MSE).

Questo decision tree è un esempio di problema di classificazione, in cui le etichette delle classi sono "surf" e "don't surf".

Mentre i decision trees sono comuni algoritmi di apprendimento supervisionato, possono essere soggetti a problemi, come distorsioni e sovradattamento. Tuttavia, quando più decision trees formano un insieme nell'algoritmo foresta casuale, prevedono risultati più precisi, in particolare quando i singoli alberi non sono correlati tra loro.

Metodi d'insieme

I metodi di apprendimento d'insieme sono costituiti da un insieme di classificatori, ad esempio strutture ad albero decisionali, e le relative previsioni vengono aggregate per individuare il risultato più popolare. I metodi d'insieme più noti sono il bagging, noto anche come aggregazione bootstrap, e il boosting. Nel 1996, Leo Breiman(link esterno a ibm.com) ha introdotto il metodo del bagging; in questo metodo, un campione casuale di dati in un set di addestramento viene selezionato con sostituzione, il che significa che i singoli punti dati possono essere scelti più di una volta. Dopo aver generato diversi campioni di dati, questi modelli vengono addestrati in modo indipendente e, a seconda del tipo di attività, ossia regressione o classificazione, la media o la maggior parte di tali previsioni producono una stima più accurata. Questo approccio è comunemente usato per ridurre la varianza all'interno di un set di dati rumoroso.

Algoritmo di foresta casuale

L'algoritmo della foresta casuale è un'estensione del metodo di bagging in quanto utilizza sia il bagging, sia la casualità delle funzioni per creare una foresta non correlata di alberi decisionali. La feature randomness, nota anche come feature bagging o "metodo del subspazio casuale" (link esterno a ibm.com), genera un sottoinsieme casuale di funzioni, che garantisce una bassa correlazione tra alberi decisionali. Questa è una differenza fondamentale tra alberi decisionali e foreste casuali. Mentre gli alberi decisionali considerano tutte le possibili suddivisioni delle funzioni, le foreste casuali selezionano solo un sottoinsieme di tali funzioni.

Se torniamo all'esempio "dovrei fare surf?", le domande che potrei porre per determinare la previsione potrebbero non essere così complete come l'insieme di domande di un'altra persona. Tenendo conto di tutta la potenziale variabilità dei dati, possiamo ridurre il rischio di overfitting, bias e varianza complessiva, ottenendo previsioni più precise.

IBM nominata leader da IDC

Leggi perché IBM è stata nominata leader nel report IDC MarketScape: Worldwide AI Governance Platforms 2023.

Contenuti correlati Registrati per ricevere l'ebook sui workflow con l'AI responsabile
Come funziona

Gli algoritmi delle foreste casuali hanno tre iperparametri principali, che devono essere impostati prima dell'addestramento. Tra questi rientrano la dimensione del nodo, il numero di alberi e il numero di funzioni campionate. Da lì, il classificatore della foresta casuale può essere utilizzato per risolvere problemi di regression o classificazione.

L'algoritmo foresta casuale è costituito da una raccolta di decision trees e ogni albero dell'insieme è composto da un campione di dati tratto da un set di addestramento con sostituzione, chiamato Bootstrapping. Di quel campione di allenamento, un terzo viene accantonato come dati di test, noti come campione out-of-bag (oob), su cui torneremo più avanti. Un altro esempio di casualità viene poi immesso attraverso il feature bagging, aggiungendo maggiore diversità al set di dati e riducendo la correlazione tra decision trees. A seconda del tipo di problema, la determinazione della previsione varierà. Per un'attività di regressione, verrà calcolata la media dei singoli decision trees e per un'attività di classificazione, un voto di maggioranza (ovvero la variabile categorica più frequente) produrrà la classe prevista. Infine, il campione oob viene quindi utilizzato per la convalida incrociata, finalizzando tale previsione.

Vantaggi e sfide della foresta casuale

Ci sono tanti vantaggi e sfide chiave che l'algoritmo della foresta casuale presenta quando viene utilizzato per problemi di classificazione o regression. Alcuni di questi includono:

Vantaggi chiave

  • Rischio ridotto di overfitting: gli alberi decisionali corrono il rischio di overfitting in quanto tendono a inserire perfettamente tutti i campioni all'interno dei dati di addestramento. Tuttavia, quando è presente un numero elevato di alberi decisionali in una foresta casuale, il classificatore non sovraadatta il modello perché la media degli alberi non correlati riduce la varianza complessiva e l'errore di previsione.
  • Offre flessibilità: poiché la foresta casuale è in grado di gestire sia le attività di regression sia quelle di classificazione con un alto grado di precisione, è un metodo popolare tra i data scientist. Il feature bagging rende inoltre il classificatore della foresta casuale uno strumento efficace per stimare i valori mancanti in quanto mantiene la precisione quando manca una parte dei dati.
  • Facilità nel determinare l'importanza delle funzionalità: la foresta casuale semplifica la valutazione dell'importanza variabile, o del contributo, al modello. Esistono alcuni modi per valutare l'importanza delle funzionalità. L'importanza di Gini e la diminuzione media delle impurità (MDI) sono solitamente utilizzate per misurare quanto l'accuratezza del modello diminuisce quando una determinata variabile viene esclusa. Tuttavia, l'importanza della permutazione, nota anche come accuratezza della diminuzione media (MDA), è un'altra misura di importanza. L'MDA identifica la diminuzione media dell'accuratezza permutando in modo casuale i valori delle caratteristiche nei campioni oob.

Sfide principali

  • Processo dispendioso in termini di tempo: poiché gli algoritmi foresta casuale sono in grado di gestire set di dati di grandi dimensioni, possono fornire previsioni più accurate, ma possono essere lenti nell'elaborazione dei dati poiché li elaborano per ogni singolo decision tree.
  • Più risorse necessarie: poiché le foreste casuali elaborano set di dati più grandi, richiederanno più risorse per memorizzarli.
  • Più complesso: la previsione di un singolo albero decisionale è più facile da interpretare rispetto a una loro foresta.
Applicazioni della foresta casuale

L'algoritmo della foresta casuale è stato applicato in diversi settori, consentendo loro di prendere decisioni aziendali migliori. Alcuni casi d'uso includono:

  • Finanza: Questo algoritmo viene preferito rispetto ad altri perché riduce il tempo dedicato alla gestione dei dati e alle attività di pre-elaborazione. Può essere utilizzato per valutare i clienti ad alto rischio di credito, per rilevare le frodi e individuare i problemi relativi ai prezzi delle opzioni.
  • Assistenza sanitaria: l'algoritmo foresta casuale ha applicazioni nell'ambito della biologia computazionale (link esterno a ibm.com), consentendo ai medici di affrontare problemi come la classificazione dell'espressione genica, la scoperta di biomarcatori e l'annotazione delle sequenze. Di conseguenza, i medici possono effettuare stime sulla risposta a specifici medicinali.
  • E-commerce: può essere utilizzato per i motori di raccomandazione per scopi di cross-selling.
Soluzioni correlate
IBM® SPSS Modeler

IBM SPSS Modeler utilizza l'analytics predittiva per aiutarti a individuare modelli di dati, ottenere previsioni accurate e migliorare il processo decisionale.

Esplora SPSS Modeler
Risorse Strumento di data science drag and drop di IBM® SPSS Modeler

Scopri come le organizzazioni di tutto il mondo utilizzano SPSS® Modeler per la preparazione e il rilevamento dei dati, l'analitica predittiva, la gestione e l'implementazione di modelli e il machine learning per monetizzare le risorse di dati.

Reti neurali ispirate a foreste casuali

Scopri come una rete neurale attentamente progettata con una struttura a foresta casuale può avere una migliore capacità di generalizzazione.

Utilizzo di una foresta casuale per prevedere i default di credito tramite Python

Crea un modello di foresta casuale e ottimizzalo con l'ottimizzazione degli iperparametri utilizzando scikit-learn.

Fai il passo successivo

IBM SPSS Modeler è una soluzione di visual data science e machine learning (ML) che rivela pattern e modelli nascosti nei dati attraverso un approccio di generazione di ipotesi bottom-up. È utilizzata dalle organizzazioni di tutto il mondo per la preparazione e il rilevamento dei dati, l'analitica predittiva, la gestione e l'implementazione di modelli e il machine learning per monetizzare le risorse dati.

Esplora SPSS Modeler Provalo gratis per 30 giorni