L'incertezza si presenta in due tipi principali: incertezza basata sui dati e incertezza basata sui modelli. In entrambi i casi, può essere utile sapere quanto sia affidabile una previsione sia prima che dopo che venga effettuata.
Si può pensare a questo come a un modello che predice quante volte una cerniera può aprirsi e chiudersi prima di rompersi, con un margine di errore di circa più o meno 1000 operazioni. Il modello può anche stimare la probabilità che la cerniera si rompa proprio in questa chiusura.
Metodi basati sul campionamento
Gli approcci basati sul campionamento sono alcune delle tecniche più comunemente utilizzate per la quantificazione dell'incertezza perché sono in grado di gestire qualsiasi tipo di complessità del modello e forniscono una caratterizzazione intuitiva e completa dell'incertezza. Generando molti scenari possibili, il campionamento può creare un quadro statistico dei risultati probabili e dell'incertezza delle nostre previsioni se applicate ai dati del mondo reale. Invece di calcolare l'incertezza in modo analitico, questi metodi utilizzano l'analisi statistica di molti output di campioni per caratterizzare le distribuzioni di incertezza.
La simulazione Monte Carlo è uno degli approcci più comuni. In questo modo vengono eseguite migliaia di simulazioni di modelli con input variati in modo casuale per vedere la gamma di output possibili. Questi sono particolarmente comuni nei modelli parametrici in cui gli intervalli di confidenza e gli output per i diversi modelli vengono confrontati per vedere l'intervallo di tutti i valori possibili.
Una variante della simulazione Monte Carlo chiamata campionamento dell'ipercubo latino è una versione più efficiente che richiede meno esecuzioni pur coprendo bene lo spazio di input.
Il Monte Carlo dropout è un'altra tecnica che mantiene attivo l'abbandono durante la previsione, eseguendo più passaggi in avanti per ottenere una distribuzione degli output.2 Il dropout è utilizzato principalmente come tecnica di regolarizzazione, un metodo impiegato per mettere a punto i modelli di machine learning. Ha lo scopo di ottimizzare la funzione di perdita regolata, evitando al contempo i problemi di overfitting o underfitting.
Il Monte Carlo dropout applica l'abbandono al momento del test ed esegue più passaggi in avanti con maschere di abbandono diverse. Questo fa sì che il modello produca una distribuzione delle previsioni anziché una stima a punto singolo. La distribuzione fornisce insight sull'incertezza del modello riguardo alle previsioni. È una tecnica computazionalmente efficiente per far sì che le reti neurali forniscano come output delle distribuzioni senza richiedere che le reti vengano addestrate più volte.
Quando eseguire molte volte il modello effettivo è troppo costoso, gli statistici creano modelli "surrogati" semplificati utilizzando tecniche come la regressione del processo gaussiano (GPR).5 La GPR è un approccio bayesiano per la modellazione della certezza nelle previsioni che lo rende uno strumento prezioso per l'ottimizzazione, la previsione di serie temporali e altre applicazioni. La GPR si basa sul concetto di "processo gaussiano", un insieme di variabili casuali che hanno una distribuzione gaussiana congiunta.
Puoi pensare a un processo gaussiano come a una distribuzione di funzioni. La GPR posiziona una distribuzione precedente sulle funzioni e quindi utilizza i dati osservati per creare una distribuzione a posteriori. L'uso della GPR per calcolare l'incertezza non richiede ulteriore addestramento o esecuzione di modelli, perché l'output esprime intrinsecamente quanto il modello sia certo o incerto riguardo alla stima attraverso la distribuzione. Librerie come Scikit-learn forniscono implementazioni GPR per l'analisi dell'incertezza.
La scelta del metodo di campionamento dipende dalle caratteristiche più importanti per il modello e lo scenario. La maggior parte delle applicazioni del mondo reale combina più approcci.
Metodi bayesiani
La statistica bayesiana è un approccio all'inferenza statistica che utilizza il teorema di Bayes per combinare le convinzioni precedenti con i dati osservati e aggiornare la probabilità di un'ipotesi. La statistica bayesiana si occupa esplicitamente dell'incertezza, assegnando una distribuzione di probabilità piuttosto che un singolo valore fisso. Invece di fornire un'unica stima "migliore" per un parametro del modello, i metodi bayesiani forniscono una distribuzione della probabilità di possibili stime.
L'inferenza bayesiana aggiorna le previsioni non appena sono disponibili nuovi dati, il che naturalmente incorpora l'incertezza in tutto il processo di stima delle covariate. I metodi Markov Chain Monte Carlo (MCMC) aiutano a implementare approcci bayesiani quando le soluzioni matematiche sono complesse. L'approccio MCMC campiona da distribuzioni di probabilità complesse e ad alta dimensione che non possono essere campionate direttamente, in particolare le distribuzioni posteriori nell'inferenza bayesiana.
Le reti neurali bayesiane (BNN) si discostano dalle reti neurali tradizionali che trattano i pesi delle reti neurali come distribuzioni di probabilità, piuttosto che come stime a virgola fissa. Questo approccio probabilistico consente una quantificazione dell'incertezza rigorosa e basata su principi. Invece di stime a punto singolo per i pesi, mantengono le distribuzioni di probabilità su tutti i parametri di rete. Le previsioni in genere includono
- stime della media e della varianza per la distribuzione predittiva
- campioni dalla distribuzione predittiva
- intervalli credibili derivati dalla distribuzione
Esistono diverse librerie open source popolari per l'implementazione di BNN come PyMC e Tensorflow-Probability.
Metodi d'insieme
L'idea alla base della quantificazione dell'incertezza basata su insiemi è che, se più modelli addestrati indipendentemente non sono d'accordo su una previsione, questo disaccordo indica incertezza sulla risposta corretta.4 Al contrario, quando tutti i modelli dell'insieme sono d'accordo, ciò suggerisce una maggiore fiducia nella previsione. Questa intuizione si traduce in misure concrete di incertezza attraverso la varianza o la diffusione delle previsioni d'insieme.
Se f₁, f₂, ..., fn rappresentano gli stimatori di N membri dell'ensemble per l'input x, l'incertezza può essere quantificata come
dove f̄(x) è la media dell'insieme. Questo metodo consiste nell'addestrare più modelli diversi (per architettura, sottoinsiemi di dati o inizializzazione) e combinare le loro previsioni. Lo svantaggio principale di questo approccio è il costo computazionale: richiede l'addestramento e l'esecuzione di più modelli.
Previsione conforme
La previsione conforme è una tecnica per la quantificazione dell'incertezza. Fornisce un framework indipendente dal modello e privo di distribuzione per la creazione di intervalli di previsione (per scenari di regressione) o set di previsione (per applicazioni di classificazione).3 Ciò fornisce valide garanzie di copertura con ipotesi minime sul modello o sui dati. Questo rende la previsione conforme particolarmente utile quando si lavora con modelli pre-addestrati black-box.
La previsione conforme ha diverse caratteristiche che la rendono ampiamente applicabile. Ad esempio, richiede solo che i punti dati siano scambiabili, anziché richiedere che siano indipendenti e distribuiti in modo identico. La previsione conforme può essere applicata anche a qualsiasi modello predittivo e consente di impostare l'incertezza predittiva ammissibile di un modello.
Ad esempio, in un'attività di regressione, potresti voler ottenere una copertura del 95%, il che significherebbe che il modello dovrebbe produrre un intervallo in cui il valore vero rientra nell'output il 95% delle volte. Questo approccio è indipendente dal modello e funziona bene con la classificazione, la regressione, le reti neurali e un'ampia varietà di modelli di serie temporali.
Per utilizzare la previsione conforme, è necessario suddividere i dati in tre set: un set di addestramento, un set di test di base e un set di calibrazione. Il set di calibrazione viene utilizzato per calcolare i punteggi di non conformità, spesso indicati come si. Questo punteggio misura quanto sia insolita una previsione. Dato un nuovo input, si forma un intervallo di previsione basato su questi punteggi per garantire la copertura.
In un'attività di classificazione, la previsione conforme del punteggio di non conformità è una misura di quanto una nuova istanza si discosti dalle istanze esistenti nel set di addestramento. In questo modo si determina se una nuova istanza appartiene o meno a una determinata classe. Per la classificazione multiclasse, si tratta in genere di una probabilità di classe prevista per la particolare etichetta.
Quindi, se la probabilità prevista di una nuova istanza appartenente a una certa classe è alta, il punteggio di non conformità è basso, e viceversa. Un approccio comune consiste nel calcolare i punteggi si per ogni istanza nel set di calibrazione e ordinare i punteggi da basso (certo) ad alto (incerto).
Per arrivare alla copertura conforme al 95%, si calcola la soglia q dove il 95% dei punteggi si è inferiore. Per i nuovi esempi di test, si include un'etichetta nel set di previsione se si è inferiore alla soglia q.
Se chiedevi la garanzia che il modello avesse una copertura conforme del 95%, otterresti punteggi si medi per tutte le classi. Quindi, troveresti una soglia di punteggi si che contengono il 95% dei dati. Puoi quindi essere certo che il tuo classificatore identifichi correttamente il 95% delle nuove istanze in tutte le classi.
Questo è leggermente diverso dalla precisione del classificatore, perché la previsione conforme potrebbe identificare più classi. In un classificatore multiclasse, la previsione conforme mostra anche la copertura per tutte le classi. Puoi assegnare un tasso di copertura per le singole lezioni, anziché per l'intero set di addestramento.