Cos'è la quantificazione dell'incertezza nell'apprendimento automatico?

Joshua Noble

Data Scientist

Che cos'è la quantificazione dell'incertezza?

Lo statistico George Box ha scritto: "Tutti i modelli sono sbagliati, ma alcuni sono utili".1 I modelli, siano essi qualitativi, di intelligenza artificiale, dinamici, matematici o statistici, non sono sempre all'altezza della complessità della realtà.

Esistono molteplici tipi di incertezza che influenzano i modelli di ogni genere. Le fonti di incertezza includono il processo casuale o le caratteristiche stocastiche in un sistema (indicate come incertezza aleatoria), la conoscenza incompleta (indicata come incertezza epistemica) o le limitazioni computazionali.

L'incertezza del modello ci aiuta a stimare non solo l'accuratezza di un modello nel tempo, ma può anche aiutare a mostrare la gamma dei risultati possibili. Aiuta anche a capire come ridurre l'incertezza sia nella misurazione che nei modelli.

L'incertezza e l'accuratezza sono concetti diversi, ma strettamente correlati tra loro. L'accuratezza della previsione è quanto una previsione si avvicina a un valore noto. L'incertezza è quanto possono variare le previsioni e i valori target.

Un sistema di computer vision che classifica solo le immagini delle mele in rosso o verde ha molte meno incertezze intrinseche rispetto a un sistema che classifica le foto di ogni tipo di frutta conosciuto nel mondo. La quantificazione dell'incertezza (UQ) è un modo per misurare esattamente quanto più incerti siano questi due problemi l'uno dall'altro.

Quando un modello contiene incertezze, i suoi output possono variare con diverse probabilità. Trattiamo questi output come variabili casuali e utilizziamo distribuzioni di probabilità per misurare l'incertezza. Più ampia è la distribuzione, più incerto è il risultato. Mentre la varianza funziona bene per le distribuzioni gaussiane, molti sistemi del mondo reale creano distribuzioni non standard che richiedono approcci di misurazione diversi.

I metodi di quantificazione dell'incertezza aiutano a capire quanto si dovrebbe essere sicuri di una particolare previsione. Può essere una previsione fatta con una tecnica statistica come un test delle distribuzioni o può essere una previsione o un'inferenza fatta da un algoritmo di machine learning. L'UQ ci aiuta anche a capire la gamma di possibili risultati per i modelli.

Ad esempio, se un modello meteorologico prevede una probabilità del 70% di pioggia, l'UQ aiuta a determinare se tale 70% si basa su dati di addestramento solidi o se c'è così tanta incertezza che la probabilità effettiva potrebbe essere compresa tra il 50% e il 90%.

I metodi di UQ sono importanti perché mostrano come gli errori e le incognite influenzino i risultati finali. In questo modo si evita che i modelli diventino troppo sicuri di sé e ci si concentra su come migliorare l'accuratezza di un modello di machine learning.

Il calcolo dell'UQ aiuta a identificare quali incertezze sono più importanti e aiuta a ottimizzare l'addestramento del modello. L'UQ aiuta anche i responsabili delle decisioni a comprendere l'affidabilità delle previsioni. L'UQ ti aiuta a trasformare un'affermazione come "questo modello potrebbe essere sbagliato" in informazioni specifiche e misurabili su quanto potrebbe essere sbagliato e in che modo potrebbe essere sbagliato. Questo è inestimabile quando si lavora in campi come la medicina, l'ingegneria intollerante ai guasti o altri scenari in cui l'affidabilità è fondamentale.

Le ultime tendenze in materia di AI, proposte da esperti

Ricevi insight selezionati sulle notizie più importanti e interessanti sull'AI. Iscriviti alla nostra newsletter settimanale Think. Leggi l'Informativa sulla privacy IBM.

Grazie per aver effettuato l'iscrizione!

L'abbonamento sarà fornito in lingua inglese. Troverai un link per annullare l'iscrizione in tutte le newsletter. Puoi gestire i tuoi abbonamenti o annullarli qui. Per ulteriori informazioni, consulta l'Informativa sulla privacy IBM.

Metodi per l'UQ

L'incertezza si presenta in due tipi principali: incertezza basata sui dati e incertezza basata sui modelli. In entrambi i casi, può essere utile sapere quanto sia affidabile una previsione sia prima che dopo che venga effettuata.

Si può pensare a questo come a un modello che predice quante volte una cerniera può aprirsi e chiudersi prima di rompersi, con un margine di errore di circa più o meno 1000 operazioni. Il modello può anche stimare la probabilità che la cerniera si rompa proprio in questa chiusura.

Metodi basati sul campionamento

Gli approcci basati sul campionamento sono alcune delle tecniche più comunemente utilizzate per la quantificazione dell'incertezza perché sono in grado di gestire qualsiasi tipo di complessità del modello e forniscono una caratterizzazione intuitiva e completa dell'incertezza. Generando molti scenari possibili, il campionamento può creare un quadro statistico dei risultati probabili e dell'incertezza delle nostre previsioni se applicate ai dati del mondo reale. Invece di calcolare l'incertezza in modo analitico, questi metodi utilizzano l'analisi statistica di molti output di campioni per caratterizzare le distribuzioni di incertezza.

La simulazione Monte Carlo è uno degli approcci più comuni. In questo modo vengono eseguite migliaia di simulazioni di modelli con input variati in modo casuale per vedere la gamma di output possibili. Questi sono particolarmente comuni nei modelli parametrici in cui gli intervalli di confidenza e gli output per i diversi modelli vengono confrontati per vedere l'intervallo di tutti i valori possibili.

Una variante della simulazione Monte Carlo chiamata campionamento dell'ipercubo latino è una versione più efficiente che richiede meno esecuzioni pur coprendo bene lo spazio di input.

Il Monte Carlo dropout è un'altra tecnica che mantiene attivo l'abbandono durante la previsione, eseguendo più passaggi in avanti per ottenere una distribuzione degli output.2 Il dropout è utilizzato principalmente come tecnica di regolarizzazione, un metodo impiegato per mettere a punto i modelli di machine learning. Ha lo scopo di ottimizzare la funzione di perdita regolata, evitando al contempo i problemi di overfitting o underfitting.

Il Monte Carlo dropout applica l'abbandono al momento del test ed esegue più passaggi in avanti con maschere di abbandono diverse. Questo fa sì che il modello produca una distribuzione delle previsioni anziché una stima a punto singolo. La distribuzione fornisce insight sull'incertezza del modello riguardo alle previsioni. È una tecnica computazionalmente efficiente per far sì che le reti neurali forniscano come output delle distribuzioni senza richiedere che le reti vengano addestrate più volte.

Quando eseguire molte volte il modello effettivo è troppo costoso, gli statistici creano modelli "surrogati" semplificati utilizzando tecniche come la regressione del processo gaussiano (GPR).5 La GPR è un approccio bayesiano per la modellazione della certezza nelle previsioni che lo rende uno strumento prezioso per l'ottimizzazione, la previsione di serie temporali e altre applicazioni. La GPR si basa sul concetto di "processo gaussiano", un insieme di variabili casuali che hanno una distribuzione gaussiana congiunta.

Puoi pensare a un processo gaussiano come a una distribuzione di funzioni. La GPR posiziona una distribuzione precedente sulle funzioni e quindi utilizza i dati osservati per creare una distribuzione a posteriori. L'uso della GPR per calcolare l'incertezza non richiede ulteriore addestramento o esecuzione di modelli, perché l'output esprime intrinsecamente quanto il modello sia certo o incerto riguardo alla stima attraverso la distribuzione. Librerie come Scikit-learn forniscono implementazioni GPR per l'analisi dell'incertezza.

La scelta del metodo di campionamento dipende dalle caratteristiche più importanti per il modello e lo scenario. La maggior parte delle applicazioni del mondo reale combina più approcci.

Metodi bayesiani

La statistica bayesiana è un approccio all'inferenza statistica che utilizza il teorema di Bayes per combinare le convinzioni precedenti con i dati osservati e aggiornare la probabilità di un'ipotesi. La statistica bayesiana si occupa esplicitamente dell'incertezza, assegnando una distribuzione di probabilità piuttosto che un singolo valore fisso. Invece di fornire un'unica stima "migliore" per un parametro del modello, i metodi bayesiani forniscono una distribuzione della probabilità di possibili stime.

L'inferenza bayesiana aggiorna le previsioni non appena sono disponibili nuovi dati, il che naturalmente incorpora l'incertezza in tutto il processo di stima delle covariate. I metodi Markov Chain Monte Carlo (MCMC) aiutano a implementare approcci bayesiani quando le soluzioni matematiche sono complesse. L'approccio MCMC campiona da distribuzioni di probabilità complesse e ad alta dimensione che non possono essere campionate direttamente, in particolare le distribuzioni posteriori nell'inferenza bayesiana.

Le reti neurali bayesiane (BNN) si discostano dalle reti neurali tradizionali che trattano i pesi delle reti neurali come distribuzioni di probabilità, piuttosto che come stime a virgola fissa. Questo approccio probabilistico consente una quantificazione dell'incertezza rigorosa e basata su principi. Invece di stime a punto singolo per i pesi, mantengono le distribuzioni di probabilità su tutti i parametri di rete. Le previsioni in genere includono

  • stime della media e della varianza per la distribuzione predittiva
  • campioni dalla distribuzione predittiva
  • intervalli credibili derivati dalla distribuzione

Esistono diverse librerie open source popolari per l'implementazione di BNN come PyMC e Tensorflow-Probability.

Metodi d'insieme

L'idea alla base della quantificazione dell'incertezza basata su insiemi è che, se più modelli addestrati indipendentemente non sono d'accordo su una previsione, questo disaccordo indica incertezza sulla risposta corretta.4 Al contrario, quando tutti i modelli dell'insieme sono d'accordo, ciò suggerisce una maggiore fiducia nella previsione. Questa intuizione si traduce in misure concrete di incertezza attraverso la varianza o la diffusione delle previsioni d'insieme.

Se f₁, f₂, ..., fn rappresentano gli stimatori di N membri dell'ensemble per l'input x, l'incertezza può essere quantificata come

 Var[f(x)]=1Ni=1N(fi(x)-f¯(x))2

dove f̄(x) è la media dell'insieme. Questo metodo consiste nell'addestrare più modelli diversi (per architettura, sottoinsiemi di dati o inizializzazione) e combinare le loro previsioni. Lo svantaggio principale di questo approccio è il costo computazionale: richiede l'addestramento e l'esecuzione di più modelli.

Previsione conforme

 

La previsione conforme è una tecnica per la quantificazione dell'incertezza. Fornisce un framework indipendente dal modello e privo di distribuzione per la creazione di intervalli di previsione (per scenari di regressione) o set di previsione (per applicazioni di classificazione).3 Ciò fornisce valide garanzie di copertura con ipotesi minime sul modello o sui dati. Questo rende la previsione conforme particolarmente utile quando si lavora con modelli pre-addestrati black-box.

La previsione conforme ha diverse caratteristiche che la rendono ampiamente applicabile. Ad esempio, richiede solo che i punti dati siano scambiabili, anziché richiedere che siano indipendenti e distribuiti in modo identico. La previsione conforme può essere applicata anche a qualsiasi modello predittivo e consente di impostare l'incertezza predittiva ammissibile di un modello.

Ad esempio, in un'attività di regressione, potresti voler ottenere una copertura del 95%, il che significherebbe che il modello dovrebbe produrre un intervallo in cui il valore vero rientra nell'output il 95% delle volte. Questo approccio è indipendente dal modello e funziona bene con la classificazione, la regressione, le reti neurali e un'ampia varietà di modelli di serie temporali.

Per utilizzare la previsione conforme, è necessario suddividere i dati in tre set: un set di addestramento, un set di test di base e un set di calibrazione. Il set di calibrazione viene utilizzato per calcolare i punteggi di non conformità, spesso indicati come si. Questo punteggio misura quanto sia insolita una previsione. Dato un nuovo input, si forma un intervallo di previsione basato su questi punteggi per garantire la copertura.

In un'attività di classificazione, la previsione conforme del punteggio di non conformità è una misura di quanto una nuova istanza si discosti dalle istanze esistenti nel set di addestramento. In questo modo si determina se una nuova istanza appartiene o meno a una determinata classe. Per la classificazione multiclasse, si tratta in genere di una probabilità di classe prevista per la particolare etichetta.

 si=1-f(xi)[yi]

Quindi, se la probabilità prevista di una nuova istanza appartenente a una certa classe è alta, il punteggio di non conformità è basso, e viceversa. Un approccio comune consiste nel calcolare i punteggi si per ogni istanza nel set di calibrazione e ordinare i punteggi da basso (certo) ad alto (incerto).

Per arrivare alla copertura conforme al 95%, si calcola la soglia q dove il 95% dei punteggi si è inferiore. Per i nuovi esempi di test, si include un'etichetta nel set di previsione se si è inferiore alla soglia q.

Se chiedevi la garanzia che il modello avesse una copertura conforme del 95%, otterresti punteggi si medi per tutte le classi. Quindi, troveresti una soglia di punteggi si che contengono il 95% dei dati. Puoi quindi essere certo che il tuo classificatore identifichi correttamente il 95% delle nuove istanze in tutte le classi.

Questo è leggermente diverso dalla precisione del classificatore, perché la previsione conforme potrebbe identificare più classi. In un classificatore multiclasse, la previsione conforme mostra anche la copertura per tutte le classi. Puoi assegnare un tasso di copertura per le singole lezioni, anziché per l'intero set di addestramento.

Mixture of Experts | 12 dicembre, episodio 85

Decoding AI: Weekly News Roundup

Unisciti al nostro gruppo di livello mondiale di ingegneri, ricercatori, leader di prodotto e molti altri mentre si fanno strada nell'enorme quantità di informazioni sull'AI per darti le ultime notizie e gli ultimi insight sull'argomento.

Applicazioni della quantificazione dell'incertezza

La quantificazione dell'incertezza è importante in molti campi del machine learning, dello sviluppo dell'AI e dell'informatica. Ecco solo alcune delle applicazioni più comuni.

Incertezza nella previsione delle serie temporali

Gestire e quantificare l'incertezza nelle previsioni delle serie temporali è fondamentale per i processi decisionali in materia di finanza, economia, previsioni meteo e gestione della supply chain. I modelli probabilistici sono favoriti per la loro capacità di output distribuzioni anziché stime di singoli punti. Questi modelli possono essere messi a confronto con i modelli deterministici, che output un solo valore anziché una distribuzione di valori possibili. Esistono numerosi modelli probabilistici per la previsione delle serie temporali, ad esempio modelli ARIMA o reti neurali bayesiane.

L'adattamento di un modello ARIMA inizia con l'acquisizione dei componenti autoregressivi (AR) e della media mobile (MA) e con la garanzia della stazionarietà attraverso la differenziazione. Dopo aver generato le previsioni puntuali, il modello valuta i residui, che rappresentano le differenze tra i valori osservati e quelli previsti. ARIMA utilizza la deviazione standard dei residui distribuiti normalmente per costruire intervalli di previsione attorno alle previsioni puntuali.

In sostanza, più ampio è l'intervallo di previsione, maggiore è l'incertezza associata alla previsione. Questa metodologia tecnica non solo perfeziona l'accuratezza delle previsioni puntuali, ma fornisce anche una misura statisticamente valida dell'intervallo entro il quale è probabile che le osservazioni future rientrino.

Deep learning e incertezza

Il deep learning presenta molteplici sfide per la quantificazione dell'incertezza perché i modelli di deep learning hanno spesso una dimensionalità così elevata e relazioni non lineari tra i livelli della rete. Ci sono spesso anche vincoli computazionali significativi sia nell'addestramento che nella distribuzione di questi modelli, il che rende difficile quantificare la quantità di incertezza presente in qualsiasi inferenza.

Diverse tecniche comunemente usate sono state sviluppate specificamente per le reti neurali profonde. Ad esempio, metodi basati sul campionamento come i "deep ensemble" in cui più reti addestrate indipendentemente hanno inizializzazioni o sottoinsiemi di dati diversi. La varianza tra le previsioni dell'insieme può indicare incertezza nella previsione dell'architettura stessa. Si tratta di una tecnica semplice ma costosa dal punto di vista computazionale in quanto richiede l'addestramento di più modelli completi.

Un'altra tecnica comunemente usata è il Monte Carlo Dropout, che mantiene attivi i livelli di dropout durante l'inferenza.6 Questo approccio esegue più passaggi in avanti per approssimare l'inferenza bayesiana. Ogni maschera di dropout crea una sottorete diversa e la varianza di previsione stima l'incertezza. Questa operazione è facile da implementare con i modelli esistenti perché non sono necessarie modifiche all'architettura del modello. Invece di disattivare il dropout durante l'inferenza, lo si mantiene attivo e si eseguono più passaggi in avanti. Un approccio simile è quello dell'incertezza tramite normalizzazione batch, che campiona casualmente dalle statistiche batch apprese al momento dell'inferenza per creare distribuzioni di previsione.

Apprendimento attivo

L'apprendimento attivo è un paradigma di machine learning scalabile in cui l'algoritmo può scegliere selettivamente da quali dati imparare, anziché essere addestrato su un set di dati fisso. Un algoritmo di apprendimento può ottenere prestazioni migliori con un minor numero di esempi etichettati se gli è permesso di scegliere i dati da cui apprende. L'apprendimento supervisionato tradizionale presuppone che sia disponibile un ampio set di dati etichettati fin dall'inizio del processo di sviluppo del modello. In molti scenari del mondo reale, i dati senza etichetta sono abbondanti mentre i dati etichettati sono costosi, richiedono tempo o richiedono conoscenze esperte per essere acquisiti. Dopo aver addestrato un modello su un piccolo insieme etichettato, si utilizza il modello per valutare un grande insieme di esempi non etichettati. L'apprendimento attivo seleziona gli esempi non etichettati più "informativi" secondo una certa strategia di acquisizione.

Le strategie di apprendimento attivo possono utilizzare stime di quantificazione dell'incertezza per identificare quali esempi non etichettati sarebbero più preziosi da etichettare successivamente. La premessa di base è che il modello dovrebbe richiedere etichette per i punti dati in cui è più incerto, poiché è probabile che questi esempi forniscano il massimo guadagno di informazioni.

Metriche per l'UQ

Le metriche per la quantificazione dell'incertezza vengono spesso utilizzate per confrontare diversi modelli che utilizzano la stessa architettura piuttosto che per confrontare architetture diverse o come valore assoluto. Alcuni tipi di misure, come l'errore di calibrazione previsto, consentono di misurare la calibrazione di un modello specifico.

Se però non stai misurando la calibrazione del modello in base ai dati del test, potresti utilizzare più metriche complementari anziché fare affidamento su un'unica misura, poiché metriche diverse catturano diversi aspetti dell'incertezza.

In generale, le metriche di incertezza si dividono in due grandi categorie, le regole di punteggio corrette e le metriche di calibrazione.

Regole di punteggio corrette

Le regole di punteggio corrette funzionano meglio con i modelli probabilistici con stime dell'incertezza naturale, perché stimano la deviazione dalla distribuzione di probabilità reale. Un valore elevato indica che la probabilità prevista è lontana dalla probabilità reale. Questo fornisce una metrica per valutare una previsione probabilistica, che spesso è un intervallo di possibili output anziché un singolo valore.

Le tipiche funzioni di perdita, come l'errore quadratico medio, assegnano un punteggio di bontà di adattamento a un valore previsto e a un valore osservato. Tuttavia, le regole di punteggio assegnano un punteggio a una distribuzione di probabilità stimata e a un valore osservato.

La negative log likelihood (NLL) è un metodo comunemente usato per ottimizzare le reti neurali per le attività di classificazione. Tuttavia, questa funzione di perdita può essere utilizzata anche come metrica di incertezza. Poiché la NLL misura direttamente il grado di allineamento delle distribuzioni di probabilità previste di un modello con i risultati osservati, cattura intrinsecamente sia l'accuratezza che la qualità di affidabilità delle previsioni probabilistiche.

Nel caso di un modello di classificazione che prevede [0,9, 0,1] per un problema binario in cui la distribuzione di classe reale è 60-40, tale modello ha in media una NLL più alta. Questo perché la NLL penalizza pesantemente il secondo modello troppo sicuro di sé quando le sue previsioni sicure sono sbagliate.

Il punteggio Brier è un'altra regola di punteggio corretta in genere utilizzata per le attività di classificazione. A volte è preferito a NLL perché è strettamente limitato all'interno di un intervallo di 0-1 e quindi è numericamente più stabile. È una metrica di incertezza completa perché valuta sia l'accuratezza delle probabilità previste che corrispondono alle frequenze osservate sia la sicurezza delle previsioni.

Il Continuous Ranked Probability Score (CRPS) è una metrica ampiamente utilizzata in campi come la meteorologia, l'idrologia e la scienza del clima. Il CRPS misura la discrepanza tra la funzione di distribuzione cumulativa prevista (CDF) di una previsione e una funzione graduale che rappresenta il risultato reale. Il CRPS quantifica la dispersione della distribuzione prevista attorno al valore osservato.

Metriche di calibrazione

Le metriche di calibrazione funzionano meglio con modelli pre-addestrati come i foundation model o i modelli linguistici di grandi dimensioni (LLM), oppure con attività di classificazione che utilizzano un output softmax. Aiutano a misurare la differenza tra "vera fiducia" e "fiducia prevista". Quando una regola di punteggio adeguata confronta le distribuzioni, la calibrazione confronta la certezza stessa. Se la metrica di calibrazione viene calcolata come 0,6, dovrebbe significare che le reti neurali sono certe al 60% in una particolare previsione.7

Un modello è considerato calibrato quando i suoi punteggi di confidenza previsti riflettono accuratamente la reale probabilità di correttezza. Più formalmente, la calibrazione significa che tra tutte le previsioni in cui il modello esprime la confidenza p, approssimativamente la frazione p dovrebbe essere corretta. Le metriche di calibrazione vengono calcolate sull'intero set di dati per raggruppare diverse probabilità. Al contrario, le regole di punteggio corrette confrontano le probabilità individuali.8

L'errore di calibrazione previsto (ECE) è una delle metriche più utilizzate. Suddivide le previsioni in bin in base ai livelli di confidenza e misura la differenza media tra la confidenza e l'accuratezza all'interno di ciascun bin. Un approccio tipico utilizza 10-15 bin equidistanti, che vengono utilizzati per calcolare la media delle probabilità previste in tale bin e la frazione di previsioni effettivamente corrette in tale bin.

Un modello perfettamente calibrato dovrebbe essere corretto il 90% delle volte quando è sicuro al 90%. L'ECE misura questo valore restituendo un valore da 0 (calibrazione perfetta) a 1 (peggiore calibrazione possibile). La metrica considera allo stesso modo l'eccesso di confidenza e la mancanza di fiducia a causa del valore assoluto della metrica. È più utile per confrontare i modelli tra loro, al posto di applicare una metrica a un modello specifico in isolamento.

L'errore massimo di calibrazione (MCE) misura l'errore di calibrazione nel caso peggiore, prendendo la differenza massima tra affidabilità e precisione in tutti i bin, anziché la media. Ciò fornisce insight sulle regioni meno calibrate.

L'Adaptive Calibration Error (ACE) affronta i limiti del binning fisso utilizzando strategie di binning adattivo che assicurano che ogni bin contenga all'incirca lo stesso numero di campioni, fornendo stime più affidabili soprattutto con dati limitati.

Soluzioni correlate
IBM watsonx.ai

Addestra, convalida, adatta e implementa le funzionalità di AI generativa, foundation model e machine learning con IBM watsonx.ai, uno studio aziendale di nuova generazione per builder AI. Crea applicazioni AI in tempi ridotti e con una minima quantità di dati.

Scopri watsonx.ai
Soluzioni di intelligenza artificiale

Metti l'AI al servizio della tua azienda grazie all'esperienza leader di settore e alla gamma di soluzioni di IBM nel campo dell'AI.

Esplora le soluzioni AI
Consulenza e servizi sull'AI

Reinventa i flussi di lavoro e le operazioni critiche aggiungendo l'AI per massimizzare le esperienze, il processo decisionale in tempo reale e il valore di business.

Esplora i servizi AI
Fai il passo successivo

Ottieni l'accesso completo a funzionalità che coprono l'intero ciclo di vita dello sviluppo dell'AI. Crea soluzioni AI all'avanguardia con interfacce intuitive, workflow e accesso alle API e agli SDK standard di settore.

Esplora watsonx.ai Prenota una demo live
Note a piè di pagina

1. Box, G.E.P. (1976). Science and statistics. Journal of the American Statistical Association, 71(356), 791–799. https://doi.org/10.1080/01621459.1976.10480949

2. Gal, Y., Ghahramani, Z. e Università di Cambridge. (2016). Dropout as a Bayesian approximation: representing model uncertainty in deep learning. In Proceedings of the 33rd International Conference on Machine Learning.

3. Angelopoulos, A. N., & Bates, S. (2021, luglio 15). A gentle introduction to conformal prediction and Distribution-Free uncertainty quantification. arXiv.org. https://arxiv.org/abs/2107.07511

4. Lakshminarayanan, B., Pritzel, A., & Blundell, C. (5 dicembre 2016). Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles. arXiv.org. https://arxiv.org/abs/1612.01474

5. Williams, C. K. I., Neural Computing Research Group, Rasmussen, C. E., Department of Computer Science, & University of Toronto. (1996). Gaussian processes for regression. https://proceedings.neurips.cc/paper_files/paper/1995/file/7cce53cf90577442771720a370c3c723-Paper.pdf

6. Wang, C. (2 agosto 2023). Calibration in Deep Learning: A Survey of the State-of-the-Art. arXiv.org. https://arxiv.org/abs/2308.01222

7. Guo, C., Pleiss, G., Sun, Y., & Weinberger, K. Q. (2017). On calibration of modern neural networks. International Conference on Machine Learning, 1321–1330. https://proceedings.mlr.press/v70/guo17a/guo17a.pdf

8. Nixon, J., Dusenberry, MW, Zhang, L., Jerfel, G. e Tran, D. (2019). Measuring calibration in deep learning. Computer Vision and Pattern Recognition, 38–41. https://openaccess.thecvf.com/content_CVPRW_2019/papers/Uncertainty and Robustness in Deep Visual Learning/Nixon_Measuring_Calibration_in_Deep_Learning_CVPRW_2019_paper.pdf