Qu’est-ce que la performance du modèle ?

Des voitures de course F1 alignées avant une ethnie

Auteurs

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

Qu’est-ce que la performance du modèle ?

Sur la base de différents indicateurs, les performances du modèle indiquent dans quelle mesure un modèle de machine learning (ML) réalise la tâche pour laquelle il a été conçu. Il est essentiel de mesurer la performance d’un modèle de ML avant de le mettre en production et de l’améliorer après son déploiement. Sans optimisation appropriée, les modèles peuvent produire des prédictions inexactes ou peu fiables et souffrir d’inefficacités, entraînant de mauvaises performances.

L’évaluation de la performance des modèles se fait au cours des étapes d’évaluation et de surveillance des modèles d’un pipeline de machine learning. Une fois que les praticiens de l’intelligence artificielle (IA) ont travaillé sur les premières phases des projets de ML, ils évaluent les performances d’un modèle sur plusieurs jeux de données, tâches et indicateurs pour évaluer son efficacité. Une fois le modèle déployé, les équipes chargées des opérations de machine learning (MLOps) surveillent leurs performances pour une amélioration continue.

Facteurs affectant la performance du modèle

Les performances d’un modèle d’IA sont généralement mesurées à l’aide d’un ensemble de tests, en comparant les productions du modèle aux prévisions de l’ensemble de test de base. Les informations recueillies lors de l’évaluation des performances permettent de déterminer si un modèle est prêt à être déployé dans le monde réel ou s’il a besoin d’être modifié ou s’il a besoin d’un entraînement supplémentaire.

Voici quelques facteurs qui peuvent avoir un impact sur les performances d’un modèle de machine learning :

  • Qualité des données
  • Fuite de données
  • Sélection des fonctionnalités
  • Ajustement du modèle
  • Dérive de modèle
  • Biais

Qualité des données

Un modèle n’est performant que si les données utilisées pour l’entraîner le sont aussi. Le performance du modèle ne sont pas optimales lorsque ses données d’entraînement sont erronées, contenant des inexactitudes ou des incohérences telles que des doublons, des missing values et des étiquettes ou annotations de données erronées. Si le manque d’équilibre, comme un trop grand nombre de valeurs pour un scénario sur un autre ou un jeu de données d’entraînement insuffisant ou suffisamment diversifié pour capturer correctement les corrélations, peut également fausser les résultats.

Fuite de données

Les fuites de données dans le cadre du machine learning se produisent lorsqu’un modèle utilise des informations qui n’étaient pas disponibles au moment de la prédiction pendant l’entraînement. Cela peut être dû à des erreurs de prétraitement des données ou à une contamination due à une mauvaise répartition des données entre les ensembles d’entraînement, de validation et de tests. Les fuites de données compliquent la tâche d’un modèle prédictif lorsqu’il généralise sur des données invisibles, lorsqu’il produit des résultats inexacts ou peu fiables, ou lorsqu’il gonfle ou dégonfle les indicateurs de performance.

Sélection des fonctionnalités

La sélection des fonctionnalités consiste à choisir les fonctionnalités les plus pertinentes d’un jeu de données à utiliser pour l’entraînement du modèle. Les fonctionnalités des données influencent la manière dont les algorithmes de machine learning configurent leurs poids pendant l’entraînement, ce qui stimule à son tour la performance. De plus, réduire l’espace des fonctionnalités à un sous-ensemble sélectionné peut contribuer à améliorer la performance tout en réduisant les demandes de calcul. Cependant, le fait de choisir des caractéristiques non pertinentes ou insignifiantes peut nuire aux performances du modèle.

Ajustement du modèle

Le surajustement se produit lorsqu’un modèle de ML est trop complexe et correspond trop étroitement, voire exactement, à ses données d’entraînement. Il ne se généralise donc pas bien sur les nouvelles données. À l’inverse, le sous-ajustement se produit lorsqu’un modèle est si simple qu’il ne parvient pas à capturer les modèles sous-jacents dans les données d’entraînement et de test.

Dérive de modèle

La dérive du modèle désigne la dégradation de la performance d’un modèle en raison d’un changement des données ou des relations entre les variables d’entrée et de sortie. Cette dégradation peut avoir un impact négatif sur les performances du modèle, entraînant des prises de décision erronées et de mauvaises prédictions.

Biais

Le biais dans l’IA peut être introduit à n’importe quelle phase d’un workflow de machine learning, mais il est particulièrement fréquent lors des étapes de traitement de données et de développement des modèles. Il y a biais de données lorsque la nature non représentative de l’entraînement et du réglage fin du jeu de données affecte négativement le comportement du modèle et performance. Par ailleurs, lebiais algorithmique n’est pas causé par l’algorithme lui-même, mais par la façon dont les équipes de science des données collectent et codent les données d’entraînement, et par la façon dont les programmeurs d’IA conçoivent et développent des algorithmes de machine learning. Les biais de l’IA peuvent entraîner des résultats inexacts et potentiellement néfastes.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Indicateurs de performance du modèle

Il est important d’aligner les indicateurs sur les objectifs métier qu’un modèle est censé atteindre. Si chaque type de modèle machine learning possède son propre ensemble d’indicateurs d’évaluation, de nombreux modèles partagent quelques mesures communes :

  • Exactitude
  • Rappel
  • Precision
  • Score F1

Exactitude

La précision est calculée comme le nombre de prédictions correctes divisé par le nombre total de prédictions. Ce pourcentage est un indicateur très courant.

On associe souvent précision et performance des modèles, mais la précision des modèles n’est qu’un élément de la performance des modèles. Et bien qu’elles soient étroitement liées, des prévisions précises ne peuvent pas fournir une vision globale des performances d’un modèle.

Rappel

Le rappel quantifie le nombre de vrais positifs, c’est-à-dire les prévisions correctes réelles. Il est également connu sous le nom de taux de sensibilité ou taux de vrais positifs (TPR).

Cet indicateur est essentiel dans le domaine de la santé, par exemple pour diagnostiquer des maladies ou détecter un cancer. Un modèle de ML avec un rappel élevé peut identifier correctement les cas positifs tout en minimisant les faux négatifs (cas positifs réels incorrectement prédits comme des cas négatifs) 

Recall=TPTP+FN

Précision

La précision est la proportion de prédictions positives qui sont réellement positives. Un modèle de machine learning d’une grande précision peut minimiser les faux positifs (cas négatifs réels incorrectement prédits comme cas positifs).

Cet indicateur est indispensable dans le domaine de la finance, par exemple pour détecter les fraudes. Les transactions signalées doivent en effet être frauduleuses (vrais positifs), car le fait de signaler des transactions légitimes comme frauduleuses (faux positifs) peut avoir des conséquences négatives.

 Precision=TPTP+FP 

Score F1

Le score F1 est la moyenne harmonisation de la mémorisation et de la précision, combinant ces deux indicateurs en un seul. Il considère que les deux mesures ont un poids égal pour équilibrer les faux positifs et les faux négatifs. C’est particulièrement utile pour les jeux de données déséquilibrés, comme lors de la détection de maladies rares, car les cas négatifs l’emportent largement sur les cas positifs.

 F1=2*Precision*RecallPrecision+Recall 

De nombreux cadres des exigences d’IA, tels que le PyTorch basé sur Python, scikit-learn et TensorFlow, offrent des fonctions intégrées pour calculer l’exactitude, le rappel, la précision et le score F1. Ils fournissent également des visualisations des prédictions des modèles sous forme de matrice de confusion : un tableau représentant les valeurs prévues et réelles, avec des cases indiquant le nombre de vrais positifs, de faux positifs, de vrais négatifs et de faux négatifs.

Diagramme illustrant la matrice de confusion

Indicateurs de performance des modèles de classification

Les modèles de classification trient les points de données en groupes prédéfinis appelés classes. Voici quelques indicateurs spécifiques aux modèles de classification :

  • Courbe ROC : une courbe ROC (Receiver Operating Characteristic) permet de visualiser la proportion des vrais positifs par rapport aux vrais négatifs. Le graphique représente le taux de vrais positifs par rapport au taux de vrais négatifs pour chaque seuil utilisé dans l’algorithme de classification du modèle. La statistique de l’aire sous la courbe (AUC) découle de la courbe ROC et mesure la probabilité qu’un résultat positif sélectionné au hasard ait un score de confiance plus élevé qu’un négatif aléatoire. L’AUC-ROC est un indicateur utile pour les tâches impliquant une classification binaire (tri des données en deux classes exclusives).
  • Perte logarithmique : la perte logarithmique évalue la fiabilité des classifications d’un modèle, pénalisant ainsi davantage les classifications incorrectes que les classifications moins fiables. Cette méthode est particulièrement utile lorsque l’on s’attaque aux résultats probabilistes, car les modèles apprennent à être confiants dans les classifications correctes et à être incertains quant aux classifications incorrectes. Des valeurs de perte logarithmiques inférieures indiquent de meilleures performances.

Indicateurs de performance du modèle de régression

Les modèles de régression sont utilisés pour les prédictions impliquant des valeurs continues, telles que les estimations de ventes au détail et les prévisions de prix boursiers. Comme ces algorithmes traitent des concepts quantifiables, leurs indicateurs mesurent les erreurs dans les prédictions :

  • L’erreur absolue moyenne (MAE) est calculée comme la somme de la valeur absolue de toutes les erreurs divisée par la taille de l’échantillon. Elle mesure la différence absolue moyenne entre la valeur prédite et la valeur réelle.

  • L’erreur quadratique moyenne (MSE) est calculée comme la moyenne des différences quadratiques entre la valeur prédite et la valeur réelle sur tous les échantillons d’entraînement. L’erreur quadratique pénalise les grandes erreurs et incite le modèle à les réduire.

  • L’erreur quadratique moyenne quadratique (RMSE) est la racine carrée du MSE. En mettant les erreurs au carré avant de les calculer, nous encourageons encore plus les modèles à les réduire.

Indicateurs de performance des modèles de traitement automatique du langage naturel

Ces indicateurs évaluent les performances des modèles de traitement automatique du langage naturel (NLP). Ils servent également de références pour les grands modèles de langage (LLM).

Voici quelques mesures quantitatives de modèle NLP :

  • La perplexité mesure la qualité des prédictions d’un modèle. Plus le score de perplexité d’un LLM est bas, plus sa capacité à comprendre une tâche est grande.

  • Le score BLEU (bilingual evaluation understudy) évalue la traduction automatique. On calcule les n-grammes correspondants (une séquence de n symboles textuels adjacents) en comparant la traduction prédite par un LLM à une traduction réalisée par un humain.

  • Le score ROUGE (recall-oriented understudy for gisting evaluation) évalue la synthèse de texte et se décline en plusieurs types. ROUGE-N, par exemple, effectue des calculs similaires à ceux du score BLEU sur les résumés, tandis que ROUGE-L calcule la plus longue sous-séquence commune aux deux résumés : celui prédit et celui produit par l’humain.

Les indicateurs qualitatifs englobent des indicateurs tels que la cohérence, la pertinence et la signification sémantique et impliquent généralement des évaluateurs humains qui examinent et notent les modèles. Un équilibre entre les indicateurs quantitatifs et qualitatifs peut permettre une évaluation plus nuancée.

Indicateurs de performance des modèles de vision par ordinateur

Les modèles de vision par ordinateur, en particulier ceux destinés à la segmentation d’instances et à la détection d’objets, sont évalués à l’aide de ces deux indicateurs de performance communs :

  • L’intersection sur l’union (IoU) calcule le rapport entre l’aire d’intersection et l’aire d’union. L’intersection couvre les sections qui se chevauchent entre un cadre de délimitation qui délimite un objet détecté tel que prédit par un modèle et l’objet réel. L’union représente la surface totale de la boîte englobante et de l’objet réel. Les modèles de vision par ordinateur utilisent l’IoU pour évaluer la précision de la localisation des objets détectés.

  • La précision moyenne (mAP) calcule la moyenne de tous les scores de précision moyenne pour toutes les classes d’objets. Les modèles de vision par ordinateur utilisent l’IoU pour évaluer la précision de la prédiction et de la détection.

Stratégies d’amélioration de la performance des modèles

La plupart des techniques d’optimisation de la performance de machine learning sont mises en œuvre lors du développement, de l'entraînement et de l’évaluation du modèle. Une fois qu’un modèle est déployé dans le monde réel, sa performance doit être constamment suivie. Le suivi du modèle permet de prendre des décisions sur la manière d’améliorer les performances au fil du temps. 

L’amélioration des performances du modèle ML implique une ou plusieurs de ces techniques :

  • Prétraitement des données
  • Empêcher les fuites de données
  • Choisir les bonnes fonctionnalités
  • Réglage des hyperparamètres
  • Apprentissage d’ensemble
  • Apprentissage par transfert
  • Obtenir un ajustement optimal du modèle
  • Protéger contre la dérive des modèles
  • Éviter les biais

De nombreux cadres des exigences d’IA ont des fonctionnalités prédéfinies qui prennent en charge la plupart de ces techniques.

Prétraitement des données

L’établissement et le maintien de procédures rigoureuses de prétraitement ou de préparation des données peuvent contribuer à éviter les problèmes de qualité des données. Si le nettoyage des données, le débruitage et la normalisation des données sont les piliers du prétraitement des données, les data scientists peuvent également utiliser des outils d’automatisation des données et même des outils alimentés par l’IA pour gagner du temps et d’effort et éviter les erreurs humaines. En cas de jeux de données insuffisants ou déséquilibrés, les données synthétiques peuvent combler les lacunes.

Empêcher les fuites de données

Une manipulation soigneuse des données est essentielle pour éviter les fuites de données. Les données doivent être correctement divisées en ensembles d'entraînement, de validation et de test, le prétraitement étant effectué séparément pour chaque ensemble.

La validation croisée peut également s’avérer utile. Elle divise les données en plusieurs sous-ensembles et en utilise différents pour l’entraînement et la validation dans un nombre défini d’itérations.

Choisir les bonnes fonctionnalités

La sélection de fonctionnalités peut s’avérer difficile et nécessite une expertise du domaine pour identifier les fonctionnalités les plus essentielles et les plus influentes. Il est crucial de comprendre l’importance de chaque fonctionnalité et d’examiner la corrélation entre les fonctionnalités et la variable cible (la variable dépendante qu’un modèle est chargé de prédire).

Les méthodes de sélection des fonctionnalités pour l’apprentissage supervisé comprennent les méthodes d’encapsulation et les méthodes intégrées. Les méthodes d’encapsulation entraînent un algorithme de machine learning avec différents sous-ensembles de caractéristiques, en les ajoutant ou en les supprimant et en testant les résultats à chaque itération afin de déterminer l’ensemble de caractéristiques qui permet d’obtenir les meilleures performances du modèle. Les méthodes intégrées intègrent la sélection de fonctionnalités dans l’entraînement des modèles, identifiant les fonctionnalités peu performantes et les éliminant des itérations futures.

Avec l’apprentissage non supervisé, les modèles déterminent par eux-mêmes les fonctionnalités, les schémas et les relations de données. Les méthodes de sélection des fonctionnalités pour l’apprentissage non supervisé incluent l’analyse en composants principaux (PCA), l’analyse en composants indépendants (ICA) et les encodeurs automatiques.

Réglage des hyperparamètres

Le réglage des hyperparamètres, également connu sous le nom d’optimisation des hyperparamètres ou réglage des modèles, identifie, sélectionne et optimise les hyperparamètres d’un modèle d’apprentissage profond afin d’obtenir les meilleures performances d’entraînement. Les hyperparamètres régissent le processus d’apprentissage d’un modèle, et trouver la bonne combinaison et la bonne configuration des hyperparamètres peut renforcer les performances du modèle dans le monde réel.

Les méthodes courantes de réglage des hyperparamètres comprennent la recherche en grille, la recherche aléatoire, l’optimisation bayésienne et l’hyperbande. Les data scientists peuvent également mettre en œuvre des méthodes automatisées pour découvrir de manière algorithmique les hyperparamètres optimaux adaptés à leur cas d’utilisation.

Apprentissage d’ensemble

L’apprentissage d’ensemble combine plusieurs modèles pour améliorer les performances prédictives, en supposant qu’un collectif ou un ensemble de modèles puisse produire de meilleures prédictions qu’un seul modèle.

Voici quelques techniques d’apprentissage par ensemble populaires :

  • Le bagging, également appelé agrégation par bootstrap, entraîne des modèles en parallèle et indépendamment les uns des autres. Il prend ensuite en compte la moyenne (pour les tâches de régression) ou la majorité (pour les problèmes de classification) des prévisions pour obtenir une estimation plus précise.

Diagramme illustrant le bagging dans le contexte de l’apprentissage d’ensemble
  • Le boosting entraîne les modèles de manière séquentielle, en corrigeant les erreurs passées à chaque itération. Il accorde plus de poids aux instances erronées ou mal classées dans les modèles suivants, se concentrant ainsi sur les points de données difficiles et améliorant les performances en cours de route.

Schéma illustrant le boosting dans le contexte de l’apprentissage d’ensemble
  • L’empilage entraîne des modèles à partir du même jeu de données, mais applique un algorithme d’entraînement différent à chacun. Il utilise ensuite les prédictions compilées ou empilées pour entraîner un modèle final.

Schéma illustrant le stacking dans le contexte de l’apprentissage d’ensemble

Apprentissage par transfert

L’apprentissage par transfert utilise les connaissances acquises par un modèle préentraîné sur une tâche ou un jeu de données initial et les applique à une tâche ou à un jeu de données cible nouveau, mais connexe. La réutilisation d’un modèle pré-entraîné pour une tâche différente renforce les capacités de généralisation de ce modèle, ce qui permet d’optimiser les performances.

Obtenir un ajustement optimal du modèle

La gestion du surajustement et du sous-ajustement est un défi central dans le machine learning. Un modèle parfaitement ajusté reconnaît avec précision les modèles des données sans être trop sensible aux fluctuations aléatoires ou au bruit.

Les techniques pour éviter le surajustement et le sous-ajustement comprennent la recherche de la bonne durée d’entraînement pour donner aux modèles suffisamment de temps pour apprendre, l’augmentation des données pour élargir l’ensemble d’entraînement et la régularisation pour réduire la variance d’un modèle en appliquant une pénalité aux paramètres d’entrée avec des coefficients plus élevés.

Protection contre la dérive des modèles

La détection de la dérive, un aspect essentiel de la surveillance et de l’observabilité des modèles, peut contribuer à la protection contre la dérive des modèles. Par exemple, les détecteurs de dérive de l’IA reconnaissent automatiquement lorsque la précision d’un modèle diminue ou passe en dessous d’un seuil prédéfini, tandis que les outils de surveillance observent en permanence les scénarios de dérive.

Une fois la dérive détectée, les modèles ML peuvent être mis à jour en temps réel ou réentraînés à l’aide d’un nouveau jeu de données contenant des échantillons plus récents et plus pertinents.

Lutter contre les préjugés

L’atténuation des biais de l’IA commence par la gouvernance de l’IA, qui englobe les garde-fous, les processus et les normes qui permettent de garantir que les systèmes et les outils d’IA sont éthiques et sûrs. Voici quelques pratiques d’IA responsables qui permettent de combattre les biais :

  • Diversifier les sources de données et inclure des données représentatives d’une grande variété de conditions, de contextes et de données démographiques.
  • Cultiver la diversité des équipes pour promouvoir la conception et le développement d’une IA inclusive.
  • Utiliser des techniques d’IA explicables pour la transparence, telles que LIME (Local Interpretable Model-Agnostic Explanations) pour expliquer la prédiction des classificateurs par algorithmes de ML et SHAP (Shapley Additive Explanations) pour expliquer la sortie de n’importe quel modèle de ML.
  • Incorporer des indicateurs d’équité dans le processus de développement et utiliser des outils algorithmiques d’équité et le cadre des exigences.
  • Procéder à des audits réguliers pour évaluer les données et les algorithmes afin d’en extraire les biais.
  • Mettre en œuvre un suivi des performances pour les modèles de ML déployés afin de détecter et de corriger rapidement les biais dans les résultats.
Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct