L’incertitude se décline en deux principaux types : l’incertitude liée aux données et l’incertitude liée au modèle. Dans les deux cas, il peut être utile de connaître la fiabilité d’une prédiction, avant et après.
On peut considérer cela comme un modèle qui prédit le nombre de fois qu’une charnière de porte pourra s’ouvrir et se fermer avant de tomber en panne à approximativement 1000 opérations. Cela peut également indiquer la probabilité que la charnière casse cette fois-ci à la fermeture de la porte.
Méthodes basées sur l’échantillonnage
Les approches basées sur l’échantillonnage font partie des techniques les plus utilisées pour quantifier l’incertitude, car elles peuvent gérer même les modèles les plus complexes et permettent une caractérisation intuitive et complète de l’incertitude. En générant de nombreux scénarios possibles, l’échantillonnage permet de dresser un tableau statistique des résultats probables et du degré d’incertitude de nos prédictions lorsqu’elles sont appliquées à des données réelles. Au lieu de calculer l’incertitude de manière analytique, ces méthodes analysent statistiquement de nombreuses sorties d’échantillon pour caractériser les distributions d’incertitude.
La simulation Monte Carlo est l’une des approches les plus courantes. Elle consiste à exécuter des milliers de simulations de modèles avec des entrées variées de manière aléatoire pour voir l’éventail des sorties possibles. Elles sont particulièrement fréquentes avec les modèles paramétriques. Ici, les intervalles de confiance et les sorties de différents modèles sont comparés pour connaître toutes les valeurs possibles.
Une variante de la simulation Monte Carlo appelée méthode d’échantillonnage Hypercube latin est une version plus efficace qui nécessite moins d’exécutions tout en couvrant correctement l’espace d’entrée.
Le dropout Monte Carlo est une autre technique qui permet de maintenir le dropout actif pendant la prédiction, en effectuant plusieurs passes vers l’avant pour obtenir une distribution des sorties.2 Le dropout est principalement utilisé comme technique de régularisation, une méthode utilisée pour affiner les modèles de machine learning. Elle vise à optimiser la fonction de perte ajustée tout en évitant les problèmes de surajustement ou de sous-ajustement.
Le dropout Monte Carlo applique le dropout au moment du test et exécute plusieurs passes avant avec différents masques de dropout. Le modèle doit ainsi produire une distribution de prédictions plutôt qu’une simple estimation de point. La distribution fournit des informations sur l’incertitude du modèle par rapport aux prédictions. Il s’agit d’une technique de calcul efficace pour permettre aux réseaux neuronaux de produire des distributions sans avoir besoin de les entraîner plusieurs fois.
Lorsque l’exécution répétée du modèle est trop coûteuse, les statisticiens créent des modèles de substitution simplifiés à l’aide de techniques telles que la régression par processus gaussien (RPG). 5 Il s’agit d’une approche bayésienne permettant de modéliser la certitude dans les prévisions, ce qui en fait un outil précieux pour l’optimisation, la prévision de séries chronologiques et d’autres applications. La RPG repose sur la notion de « processus gaussien », c’est-à-dire un ensemble de variables aléatoires ayant une distribution gaussienne commune.
Un processus gaussien peut être considéré comme une distribution de fonctions. La RPG place une distribution a priori sur les fonctions, puis utilise les données observées pour créer une distribution a posteriori. L’utilisation de la RPG pour calculer l’incertitude ne nécessite pas d’entraînement supplémentaire ni d’exécutions de modèles, car la sortie exprime intrinsèquement le degré de certitude ou d’incertitude du modèle par rapport à l’estimation via la distribution. Des bibliothèques comme Scikit-learn proposent des implémentations de la RPG pour l’analyse de l’incertitude.
Le choix de la méthode d’échantillonnage dépend des caractéristiques qui comptent le plus pour votre modèle et votre scénario. La plupart des applications concrètes combinent plusieurs approches.
Méthodes bayésiennes
Les statistiques bayésiennes sont une approche de l’inférence statistique qui utilise le théorème de Bayes pour combiner les convictions a priori avec les données observées et mettre à jour la probabilité d’une hypothèse. Les statistiques bayésiennes traitent explicitement de l’incertitude en attribuant une distribution de probabilité plutôt qu’une valeur fixe unique. Au lieu de donner une seule « meilleure » estimation pour un paramètre de modèle, les méthodes bayésiennes fournissent une distribution de la vraisemblance des estimations possibles.
L’inférence bayésienne met à jour les prédictions au fur et à mesure que de nouvelles données sont disponibles, ce qui intègre naturellement l’incertitude tout au long du processus d’estimation des covariables. Les méthodes Monte Carlo par chaîne de Markov (MCMC) aident à mettre en œuvre des approches bayésiennes lorsque les solutions mathématiques sont complexes. L’approche MCMC échantillonne des distributions de probabilité complexes et de grande dimension qui ne peuvent pas être échantillonnées directement, en particulier les distributions a posteriori dans l’inférence bayésienne.
Les réseaux neuronaux bayésiens (BNN) s’écartent des réseaux neuronaux traditionnels, qui traitent les poids du réseau comme des distributions de probabilité plutôt que comme des estimations à points fixes. Cette approche probabiliste permet une quantification rigoureuse et fondée sur des principes. Au lieu d’estimer un point unique pour les poids, ces modèles conservent des distributions de probabilité sur tous les paramètres du réseau. Les prédictions comprennent généralement
- des estimations de moyenne et de variance pour la distribution prédictive
- des échantillons de la distribution prédictive
- des intervalles crédibles issus de la distribution
Plusieurs bibliothèques open source populaires permettent d’implémenter des BNN, telles que PyMC et Tensorflow-Probability.
Méthodes d’ensemble
L’idée centrale de la quantification de l’incertitude basée sur u ensemble est que si plusieurs modèles entraînés indépendamment divergent sur une prédiction, cette divergence indique une incertitude quant à la réponse correcte.4 Inversement, lorsque tous les modèles de l’ensemble sont d’accord, cela suggère une plus grande confiance dans la prédiction. Cette intuition se traduit par des mesures d’incertitude concrètes grâce à la variance ou à l’étendue des prédictions d’ensemble.
Si f₁, f₂, ..., fₙ représentent les estimateurs de N membres de l’ensemble pour l’entrée x, l’incertitude peut être quantifiée comme suit :
où f̄(x) est la moyenne d’ensemble. Entraîner divers modèles (architectures, sous-ensembles de données d’entraînement ou initialisation qui diffèrent) et combiner leurs prévisions. Le principal inconvénient de cette approche est le coût de calcul ; elle exige l’entraînement et l’exécution de plusieurs modèles.
Prédiction conforme
La prédiction conforme est une technique de quantification de l’incertitude. Elle fournit un cadre sans distribution et indépendant du modèle pour créer des intervalles de prédiction (pour les scénarios de régression) ou des ensembles de prédiction (pour les applications de classification).3 Cela permet de garantir une couverture valide avec un minimum d’hypothèses sur le modèle ou les données. La prédiction conforme est donc particulièrement utile lorsque l’on travaille avec des modèles pré-entraînés de type boîte noire.
La prédiction conforme présente plusieurs fonctionnalités qui la rendent largement applicable. Par exemple, elle exige uniquement que les points de données soient échangeables, au lieu d’exiger qu’ils soient indépendants et identiquement distribués. La prédiction conforme peut également être appliquée à tout modèle prédictif et vous permet de définir l’incertitude prédictive acceptable pour le modèle.
Par exemple, si lors d’une tâche de régression, vous souhaiterez atteindre une couverture de 95 %, le modèle devra générer une plage où la valeur vraie se situe dans l’intervalle de sortie 95 % du temps. Cette approche est indépendante du modèle et fonctionne bien avec la classification, la régression linéaire, les réseaux de neurones et une grande variété de modèles de séries chronologiques.
Pour utiliser la prédiction conforme, vous divisez vos données en trois jeux : un jeu d’entraînement, un jeu de test de référence et un jeu de calibrage. Le jeu de calibrage permet de calculer les scores de non-conformité, souvent désignés par si. Ce score mesure le caractère inhabituel d’une prévision. Face à une nouvelle entrée, formez un intervalle de prévision basé sur ces scores pour garantir la couverture.
Dans une tâche de classification, en prédiction conforme, le score de non-conformité mesure à quel point une nouvelle instance s’écarte des instances existantes dans l’ensemble d’entraînement. Cela détermine si une nouvelle instance appartient à une classe particulière ou non. Pour la classification multiclasse, il s’agit généralement de 1, la probabilité de classe prédite pour l’étiquette particulière.
Ainsi, si la probabilité prédite qu’une nouvelle instance appartienne à une certaine classe est élevée, le score de non-conformité est faible, et inversement. Une approche courante consiste à calculer les scores si pour chaque instance du jeu de calibrage et à trier les scores de faible (certain) à élevé (incertain).
Pour obtenir une couverture conforme de 95 %, calculez le seuil q où 95 % des scores si sont faibles. Pour les nouveaux exemples de test, vous incluez une étiquette dans le jeu de prédiction si son si est inférieur au seuil q.
Si vous exigez une garantie que votre modèle dispose d’une couverture conforme de 95 %, vous obtiendrez des scores moyens si pour toutes les classes. Ensuite, vous trouverez un seuil de scores si qui contient 95 % des données. Vous avez alors l’assurance que votre outil de classification identifie correctement 95 % des nouvelles instances dans toutes les classes.
Cela diffère légèrement de la précision du classificateur, car la prédiction conforme peut identifier plusieurs classes. Dans un classificateur multiclasse, la prédiction conforme montre également la couverture de toutes les classes. Vous pouvez attribuer un taux de couverture pour les classes individuelles plutôt que pour la totalité de l’ensemble d’entraînement.