Qu’est-ce que la quantification de l’incertitude en machine learning ?

Joshua Noble

Data Scientist

Qu’est-ce que la quantification de l’incertitude ?

Comme l’écrit le statisticien George Box, « Tous les modèles sont faux, mais certains sont utiles ».1 Les modèles, qu’ils soient qualitatifs, artificiels, mathématiques dynamiques ou statistiques, sont toujours en deçà des complexités de la réalité.

Il existe plusieurs types d’incertitudes qui affectent les modèles de toutes sortes. Les sources d’incertitude comprennent les processus aléatoires ou les caractéristiques stochastiques d’un système (l’incertitude aléatoire), les connaissances incomplètes (l’incertitude épistémique) ou encore les limitations informatiques.

L’incertitude des modèles nous aide à estimer non seulement leur précision au fil du temps, mais aussi les résultats possibles. Cela permet également de comprendre comment réduire l’incertitude dans les mesures et dans les modèles.

L’incertitude et la précision sont des notions étroitement liées. La précision d’une prévision désigne sa proximité avec une valeur connue. L’incertitude mesure l’écart entre les prévisions et les valeurs cibles.

Un système de vision par ordinateur qui classe uniquement les images de pommes en rouge ou en vert présente beaucoup moins d’incertitude inhérente qu’un système qui classe des photos de chaque type de fruit connu dans le monde. La quantification de l’incertitude (QI) permet de mesurer le degré exact d’incertitude de ces deux problèmes l’un par rapport à l’autre.

Lorsqu’un modèle comporte des incertitudes, ses sorties peuvent varier avec différentes probabilités. Nous traitons ces sorties comme des variables aléatoires et utilisons des distributions de probabilité pour mesurer l’incertitude. Plus la distribution est large, plus le résultat est incertain. Bien que la variance fonctionne bien pour les distributions gaussiennes, de nombreux systèmes du monde réel créent des distributions non standard, qui exigent différentes approches de mesure.

Les méthodes de quantification de l’incertitude vous permettent de savoir à quel point vous pouvez vous fier à une prévision donnée. Il peut s’agir d’une prédiction faite à l’aide d’une technique statistique comme un test de distributions, ou d’une prédiction ou d’une inférence faite par un algorithme de machine learning. La quantification de l’incertitude nous aide également à comprendre l’éventail de résultats possibles pour un modèle.

Par exemple, si un modèle météorologique prévoit une probabilité de pluie de 70 %, la QI aide à déterminer si ces 70 % sont basés sur des données d’entraînement solides ou s’il existe tellement d’incertitudes que la probabilité réelle pourrait se situer entre 50 et 90 %.

Les méthodes UQ sont importantes car elles montrent comment les erreurs et les inconnues affectent les résultats finaux. Cela permet d’éviter que les modèles ne deviennent trop confiants et de déterminer comment améliorer la précision des modèles de machine learning.

Le calcul de l’UQ permet d’identifier les incertitudes qui comptent le plus et d’optimiser l’entraînement du modèle. L’UQ aide également les décideurs à évaluer la fiabilité des prévisions. L’UQ vous aide à transformer une affirmation telle que « ce modèle peut se tromper » en informations spécifiques et mesurables sur l’erreur (à quel point et en quoi il peut se tromper). C’est inestimable dans des domaines tels que la médecine, l’ingénierie intolérante aux pannes et d’autres scénarios où la fiabilité est primordiale.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Méthodes UQ

L’incertitude se décline en deux principaux types : l’incertitude liée aux données et l’incertitude liée au modèle. Dans les deux cas, il peut être utile de connaître la fiabilité d’une prédiction, avant et après.

On peut considérer cela comme un modèle qui prédit le nombre de fois qu’une charnière de porte pourra s’ouvrir et se fermer avant de tomber en panne à approximativement 1000 opérations. Cela peut également indiquer la probabilité que la charnière casse cette fois-ci à la fermeture de la porte.

Méthodes basées sur l’échantillonnage

Les approches basées sur l’échantillonnage font partie des techniques les plus utilisées pour quantifier l’incertitude, car elles peuvent gérer même les modèles les plus complexes et permettent une caractérisation intuitive et complète de l’incertitude. En générant de nombreux scénarios possibles, l’échantillonnage permet de dresser un tableau statistique des résultats probables et du degré d’incertitude de nos prédictions lorsqu’elles sont appliquées à des données réelles. Au lieu de calculer l’incertitude de manière analytique, ces méthodes analysent statistiquement de nombreuses sorties d’échantillon pour caractériser les distributions d’incertitude.

La simulation Monte Carlo est l’une des approches les plus courantes. Elle consiste à exécuter des milliers de simulations de modèles avec des entrées variées de manière aléatoire pour voir l’éventail des sorties possibles. Elles sont particulièrement fréquentes avec les modèles paramétriques. Ici, les intervalles de confiance et les sorties de différents modèles sont comparés pour connaître toutes les valeurs possibles.

Une variante de la simulation Monte Carlo appelée méthode d’échantillonnage Hypercube latin est une version plus efficace qui nécessite moins d’exécutions tout en couvrant correctement l’espace d’entrée.

Le dropout Monte Carlo est une autre technique qui permet de maintenir le dropout actif pendant la prédiction, en effectuant plusieurs passes vers l’avant pour obtenir une distribution des sorties.2 Le dropout est principalement utilisé comme technique de régularisation, une méthode utilisée pour affiner les modèles de machine learning. Elle vise à optimiser la fonction de perte ajustée tout en évitant les problèmes de surajustement ou de sous-ajustement.

Le dropout Monte Carlo applique le dropout au moment du test et exécute plusieurs passes avant avec différents masques de dropout. Le modèle doit ainsi produire une distribution de prédictions plutôt qu’une simple estimation de point. La distribution fournit des informations sur l’incertitude du modèle par rapport aux prédictions. Il s’agit d’une technique de calcul efficace pour permettre aux réseaux neuronaux de produire des distributions sans avoir besoin de les entraîner plusieurs fois.

Lorsque l’exécution répétée du modèle est trop coûteuse, les statisticiens créent des modèles de substitution simplifiés à l’aide de techniques telles que la régression par processus gaussien (RPG). 5 Il s’agit d’une approche bayésienne permettant de modéliser la certitude dans les prévisions, ce qui en fait un outil précieux pour l’optimisation, la prévision de séries chronologiques et d’autres applications. La RPG repose sur la notion de « processus gaussien », c’est-à-dire un ensemble de variables aléatoires ayant une distribution gaussienne commune.

Un processus gaussien peut être considéré comme une distribution de fonctions. La RPG place une distribution a priori sur les fonctions, puis utilise les données observées pour créer une distribution a posteriori. L’utilisation de la RPG pour calculer l’incertitude ne nécessite pas d’entraînement supplémentaire ni d’exécutions de modèles, car la sortie exprime intrinsèquement le degré de certitude ou d’incertitude du modèle par rapport à l’estimation via la distribution. Des bibliothèques comme Scikit-learn proposent des implémentations de la RPG pour l’analyse de l’incertitude.

Le choix de la méthode d’échantillonnage dépend des caractéristiques qui comptent le plus pour votre modèle et votre scénario. La plupart des applications concrètes combinent plusieurs approches.

Méthodes bayésiennes

Les statistiques bayésiennes sont une approche de l’inférence statistique qui utilise le théorème de Bayes pour combiner les convictions a priori avec les données observées et mettre à jour la probabilité d’une hypothèse. Les statistiques bayésiennes traitent explicitement de l’incertitude en attribuant une distribution de probabilité plutôt qu’une valeur fixe unique. Au lieu de donner une seule « meilleure » estimation pour un paramètre de modèle, les méthodes bayésiennes fournissent une distribution de la vraisemblance des estimations possibles.

L’inférence bayésienne met à jour les prédictions au fur et à mesure que de nouvelles données sont disponibles, ce qui intègre naturellement l’incertitude tout au long du processus d’estimation des covariables. Les méthodes Monte Carlo par chaîne de Markov (MCMC) aident à mettre en œuvre des approches bayésiennes lorsque les solutions mathématiques sont complexes. L’approche MCMC échantillonne des distributions de probabilité complexes et de grande dimension qui ne peuvent pas être échantillonnées directement, en particulier les distributions a posteriori dans l’inférence bayésienne.

Les réseaux neuronaux bayésiens (BNN) s’écartent des réseaux neuronaux traditionnels, qui traitent les poids du réseau comme des distributions de probabilité plutôt que comme des estimations à points fixes. Cette approche probabiliste permet une quantification rigoureuse et fondée sur des principes. Au lieu d’estimer un point unique pour les poids, ces modèles conservent des distributions de probabilité sur tous les paramètres du réseau. Les prédictions comprennent généralement

  • des estimations de moyenne et de variance pour la distribution prédictive
  • des échantillons de la distribution prédictive
  • des intervalles crédibles issus de la distribution

Plusieurs bibliothèques open source populaires permettent d’implémenter des BNN, telles que PyMC et Tensorflow-Probability.

Méthodes d’ensemble

L’idée centrale de la quantification de l’incertitude basée sur u ensemble est que si plusieurs modèles entraînés indépendamment divergent sur une prédiction, cette divergence indique une incertitude quant à la réponse correcte.4 Inversement, lorsque tous les modèles de l’ensemble sont d’accord, cela suggère une plus grande confiance dans la prédiction. Cette intuition se traduit par des mesures d’incertitude concrètes grâce à la variance ou à l’étendue des prédictions d’ensemble.

Si f₁, f₂, ..., fₙ représentent les estimateurs de N membres de l’ensemble pour l’entrée x, l’incertitude peut être quantifiée comme suit :

 Var[f(x)]=1Ni=1N(fi(x)-f¯(x))2

où f̄(x) est la moyenne d’ensemble. Entraîner divers modèles (architectures, sous-ensembles de données d’entraînement ou initialisation qui diffèrent) et combiner leurs prévisions. Le principal inconvénient de cette approche est le coût de calcul ; elle exige l’entraînement et l’exécution de plusieurs modèles.

Prédiction conforme

 

La prédiction conforme est une technique de quantification de l’incertitude. Elle fournit un cadre sans distribution et indépendant du modèle pour créer des intervalles de prédiction (pour les scénarios de régression) ou des ensembles de prédiction (pour les applications de classification).3 Cela permet de garantir une couverture valide avec un minimum d’hypothèses sur le modèle ou les données. La prédiction conforme est donc particulièrement utile lorsque l’on travaille avec des modèles pré-entraînés de type boîte noire.

La prédiction conforme présente plusieurs fonctionnalités qui la rendent largement applicable. Par exemple, elle exige uniquement que les points de données soient échangeables, au lieu d’exiger qu’ils soient indépendants et identiquement distribués. La prédiction conforme peut également être appliquée à tout modèle prédictif et vous permet de définir l’incertitude prédictive acceptable pour le modèle.

Par exemple, si lors d’une tâche de régression, vous souhaiterez atteindre une couverture de 95 %, le modèle devra générer une plage où la valeur vraie se situe dans l’intervalle de sortie 95 % du temps. Cette approche est indépendante du modèle et fonctionne bien avec la classification, la régression linéaire, les réseaux de neurones et une grande variété de modèles de séries chronologiques.

Pour utiliser la prédiction conforme, vous divisez vos données en trois jeux : un jeu d’entraînement, un jeu de test de référence et un jeu de calibrage. Le jeu de calibrage permet de calculer les scores de non-conformité, souvent désignés par si. Ce score mesure le caractère inhabituel d’une prévision. Face à une nouvelle entrée, formez un intervalle de prévision basé sur ces scores pour garantir la couverture.

Dans une tâche de classification, en prédiction conforme, le score de non-conformité mesure à quel point une nouvelle instance s’écarte des instances existantes dans l’ensemble d’entraînement. Cela détermine si une nouvelle instance appartient à une classe particulière ou non. Pour la classification multiclasse, il s’agit généralement de 1, la probabilité de classe prédite pour l’étiquette particulière.

 si=1-f(xi)[yi]

Ainsi, si la probabilité prédite qu’une nouvelle instance appartienne à une certaine classe est élevée, le score de non-conformité est faible, et inversement. Une approche courante consiste à calculer les scores si pour chaque instance du jeu de calibrage et à trier les scores de faible (certain) à élevé (incertain).

Pour obtenir une couverture conforme de 95 %, calculez le seuil q où 95 % des scores si sont faibles. Pour les nouveaux exemples de test, vous incluez une étiquette dans le jeu de prédiction si son si est inférieur au seuil q.

Si vous exigez une garantie que votre modèle dispose d’une couverture conforme de 95 %, vous obtiendrez des scores moyens si pour toutes les classes. Ensuite, vous trouverez un seuil de scores si qui contient 95 % des données. Vous avez alors l’assurance que votre outil de classification identifie correctement 95 % des nouvelles instances dans toutes les classes.

Cela diffère légèrement de la précision du classificateur, car la prédiction conforme peut identifier plusieurs classes. Dans un classificateur multiclasse, la prédiction conforme montre également la couverture de toutes les classes. Vous pouvez attribuer un taux de couverture pour les classes individuelles plutôt que pour la totalité de l’ensemble d’entraînement.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Applications de la quantification de l’incertitude

La quantification d’incertitude est importante dans de nombreux domaines du machine learning, du développement de l’intelligence artificielle et de l’informatique. Voici quelques-unes des applications les plus courantes.

Incertitude dans la prévision de séries chronologiques

La gestion et la quantification de l’incertitude dans la prévision des séries chronologiques sont essentielles au processus de prise de décision dans des domaines tels que la finance, l’économie, les prévisions météorologiques et la gestion des chaînes d’approvisionnement. Les modèles probabilistes sont privilégiés pour leur capacité à produire des distributions, et non des estimations ponctuelles uniques. Ces modèles peuvent être opposés aux modèles déterministes, qui produisent une seule valeur, et non une distribution de valeurs possibles. Il existe de nombreux modèles probabilistes pour la prévision de séries chronologiques (par exemple, les modèles ARIMA et les réseaux de neurones).

L’ajustement d’un modèle ARIMA commence par la capture des composants autorégressifs (AR) et de la moyenne mobile (MM), puis par la vérification de la stationnarité grâce à la différenciation. Après avoir généré des prévisions de point, le modèle évalue les valeurs résiduelles, qui représentent les différences entre les valeurs observées et les valeurs prédites. ARIMA utilise l’écart-type des valeurs résiduelles normalement distribuées pour créer des intervalles de prévision autour des prévisions de point.

Plus l’intervalle de prévision est large, plus l’incertitude associée à la prévision est importante. Cette méthodologie technique améliore non seulement la précision des prévisions ponctuelles, mais fournit également une mesure statistiquement fiable de la fourchette dans laquelle les observations futures sont susceptibles de se situer.

Apprentissage profond et incertitude

L’apprentissage profond pose de multiples défis en matière de quantification de l’incertitude, car les modèles d’apprentissage profond présentent souvent une haute dimension et des relations non linéaires entre les couches du réseau. En outre, l’entraînement et le déploiement de ces modèles présentent souvent des contraintes de calcul importantes, ce qui rend difficile la quantification du degré d’incertitude présent dans les inférences.

Plusieurs techniques couramment utilisées ont été développées spécialement pour les réseaux de neurones. Par exemple, les méthodes basées sur l’échantillonnage, comme les ensembles profonds, où plusieurs réseaux entraînés de manière indépendante ont des initialisations ou des sous-ensembles de données différents. La variance des prédictions d’ensemble peut indiquer une incertitude dans la prédiction de l’architecture même. Il s’agit d’une technique simple, mais coûteuse en termes de calcul, car elle exige d’entraîner plusieurs modèles complets.

Une autre technique couramment utilisée est le dropout Monte Carlo, qui maintient les couches de dropout actives pendant l’inférence.6 Cette approche effectue plusieurs passes en avant pour obtenir une inférence bayésienne approximative. Chaque masque de dropout crée un sous-réseau différent, et la variance de prédiction estime l’incertitude. Cette méthode est facile à implémenter avec les modèles existants, car elle ne nécessite aucune modification dans l’architecture du modèle. Au lieu de désactiver le dropout pendant l’inférence, vous devez le maintenir activé et effectuer plusieurs passes en avant. Une approche similaire consiste à normaliser l’incertitude par lots, en échantillonnant aléatoirement les statistiques de lots apprises au moment de l’inférence pour créer des distributions de prédictions.

Apprentissage actif

L’apprentissage actif est un paradigme de machine learning évolutif qui permet à l’algorithme de sélectionner les points de données à partir desquels il doit apprendre, au lieu d’être entraîné sur un jeu de données. Les algorithmes d’apprentissage peuvent atteindre une meilleure performance avec moins d’exemples étiquetés s’il est autorisé à choisir les données à partir desquelles il apprend. L'apprentissage supervisé traditionnel suppose qu’un grand jeu de données étiquetées est disponible dès le début du processus de développement du modèle. Dans de nombreux scénarios concrets, les données non étiquetées sont abondantes, tandis que les données étiquetées sont coûteuses, chronophages ou impossibles à obtenir sans compétences en la matière. Après avoir l’entraîné sur le petit jeu étiqueté, vous utiliserez le modèle pour évaluer un grand nombre d’exemples non étiquetés. L’apprentissage actif sélectionne les exemples non étiquetés les plus « informatifs » selon une stratégie d’acquisition.

Les stratégies d’apprentissage actif peuvent s’appuyer sur des estimations de l’incertitude pour identifier les exemples non étiquetés qu’il serait le plus intéressant d’étiqueter par la suite. Le principe de base est que le modèle doit demander des étiquettes pour les points de données où il est le plus incertain, car ces exemples sont susceptibles de fournir le meilleur gain d’informations.

Indicateurs UQ

Les indicateurs de quantification de l’incertitude sont souvent utilisés pour comparer différents modèles comportant la même architecture, au lieu de comparer différentes architectures ou comme valeur absolue. Certains types de mesures, comme l’erreur de calibrage attendue, vous permettent de mesurer le calibrage d’un modèle donné.

Si vous ne mesurez pas le calibrage du modèle par rapport aux données de test, vous pouvez utiliser plusieurs indicateurs complémentaires au lieu de vous appuyer sur une seule mesure, car différents indicateurs captent différents aspects de l’incertitude.

En général, les indicateurs d’incertitude se répartissent en deux grandes catégories : les règles de notation appropriées et les indicateurs d’étalonnage.

Règles de notation appropriées

Les règles de notation appropriées fonctionnent mieux avec les modèles probabilistes avec des estimations d’incertitude naturelle, car elles estiment l’écart par rapport à la distribution de probabilité réelle. Une valeur élevée indique que la probabilité prédite est loin de la probabilité réelle. Cela fournit un indicateur pour évaluer une prévision ou une prédiction probabiliste, qui est souvent une suite de sorties possibles plutôt qu’une valeur unique.

Les fonctions de perte classiques, comme l’erreur quadratique moyenne, attribuent un score d’adéquation à une valeur prédite et à une valeur observée. Cependant, les règles de notation attribuent un score à une distribution de probabilité prédite et à une valeur observée.

La log-vraisemblance négative (NLL) est une méthode couramment utilisée pour optimiser les réseaux de neurones destinés aux tâches de classification. Cependant, cette fonction de perte peut également être utilisée comme indicateur d’incertitude. Étant donné que la NLL mesure directement l’alignement des distributions de probabilité prédites du modèle sur les résultats observés, elle capte intrinsèquement tant la précision que la fiabilité des prédictions probabilistes.

Un modèle de classification qui prédit [0.9, 0.1] pour un problème binaire où la vraie distribution des classes est de 60–40, aura une NLL plus élevée en moyenne. En effet, la NLL pénalise fortement le deuxième modèle trop confiant lorsque ses prédictions confiantes sont erronées.

Le score de Brier est une autre règle de notation appropriée généralement utilisée pour les tâches de classification. Il est parfois préféré au score NLL car il est strictement limité à une fourchette de 0–1, donc plus stable numériquement. Il s’agit d’un indicateur d’incertitude complet, car il évalue à la fois la concordance entre les probabilités prédites et les fréquences observées, ainsi que le degré de confiance des prédictions.

Le CRPS (score de probabilité classé continu) est un indicateur largement utilisé dans des domaines tels que la météorologie, l’hydrologie et les sciences du climat. Le CRPS mesure l’écart entre la fonction de distribution cumulée (CDF) prédite d’une prévision et une fonction d’étape représentant le résultat réel. Il quantifie l’étendue de la distribution de prévision autour de la valeur observée.

Mesures de calibrage

Les indicateurs de calibrage fonctionnent mieux avec des modèles pré-entraînés tels que des modèles de fondation et les grands modèles de langage (LLM), ou avec les tâches de classification qui utilisent une sortie softmax. Ils permettent de mesurer la différence entre la « confiance réelle » et la « confiance prédite ». Alors qu’une règle de notation appropriée compare les distributions, le calibrage compare la certitude même. Si l’indicateur de calibration est calculé pour être de 0,6, cela signifie que le réseau de neurones est sûr à 60 % dans une prédiction donnée.7

Un modèle est considéré comme étalonné lorsque ses scores de confiance prédits reflètent avec précision la vraisemblance réelle de l’exactitude. Plus formellement, l’étalonnage signifie que parmi toutes les prédictions où le modèle exprime une confiance p, environ p fraction doit être correcte. Les indicateurs d’étalonnage sont calculés sur la totalité de l’ensemble de données afin de regrouper différentes probabilités. En revanche, les règles de notation appropriées comparent les probabilités individuelles.8

L’ECE (erreur d’étalonnage attendue) est l’un des indicateurs les plus utilisés. Il partitionne les prédictions en catégories en fonction des niveaux de confiance et mesure la différence moyenne entre la confiance et la précision dans chaque catégorie. Une approche type utilise 10 à 15 regroupements équidistants, qui sont utilisés pour calculer la moyenne des probabilités prédites dans ce regroupement et la fraction des prévisions réellement correctes dans ce regroupement.

Un modèle parfaitement étalonné doit être correct 90 % du temps lorsqu’il est fiable à 90 %. L’ECE mesure cela en renvoyant une valeur de 0 (étalonnage parfait) à 1 (pire étalonnage possible). L’indicateur traite de la même manière l’excès de confiance et le degré d’incertitude en raison de sa valeur absolue. Il est très utile pour comparer des modèles entre eux plutôt que d’appliquer un indicateur à un modèle spécifique de manière isolée.

L’erreur d’étalonnage maximale (MCE) mesure l’erreur d’étalonnage dans le pire des cas en prenant la différence maximale entre la confiance et la précision sur tous les bins, plutôt que la moyenne. Cela permet d’avoir des informations sur les régions les moins étalonnées.

L'erreur d'étalonnage adaptative (ACE) pallie les limites du binning fixe en utilisant des stratégies de binning adaptatives qui garantissent que chaque bin contient approximativement le même nombre d'échantillons, fournissant ainsi des estimations plus fiables, en particulier lorsque les données sont limitées.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct
Notes de bas de page

1. Box, G. E. P. (1976). Sciences et statistiques. Journal of the American Statistical Association, 71(356), 791–799. https://doi.org/10.1080/01621459.1976.10480949

2. Gal, Y., Ghahramani, Z. et University of Cambridge. (2016). Dropout as a Bayesian approximation : representing model uncertainty in deep learning. In Proceedings of the 33rd International Conference on Machine Learning.

3. Angelopoulos, A. N., & Bates, S. (15 juillet 2021). A gentle introduction to conformal prediction and Distribution-Free uncertainty quantification. arXiv.org. https://arxiv.org/abs/2107.07511

4. Lakshminarayanan, B., Pritzel, A., & Blundell, C. (5 décembre 2016). Simple and Scalable Predictive Uncertainty Estimation using Deep Ensembles. arXiv.org. https://arxiv.org/abs/1612.01474

5. Williams, C. K. I., Neural Computing Research Group, Rasmussen, C. E., Department of Computer Science, & University of Toronto. (1996). Gaussian processes for regression. https://proceedings.neurips.cc/paper_files/paper/1995/file/7cce53cf90577442771720a370c3c723-Paper.pdf

6. Wang, C. (2 août 2023). Calibration in Deep Learning : A Survey of the State-of-the-Art. arXiv.org. https://arxiv.org/abs/2308.01222

7. Guo, C., Pleiss, G., Sun, Y. et Weinberger, K. Q. (2017). On calibration of modern neural networks. International Conference on Machine Learning, 1321–1330. https://proceedings.mlr.press/v70/guo17a/guo17a.pdf

8. Nixon, J., Dusenberry, M. W., Zhang, L., Jerfel, G.et Tran, D. (2019). Measuring calibration in deep learning. Computer Vision and Pattern Recognition, 38–41. https://openaccess.thecvf.com/content_CVPRW_2019/papers/Uncertainty and Robustness in Deep Visual Learning/Nixon_Measuring_Calibration_in_Deep_Learning_CVPRW_2019_paper.pdf