Sur la base de différents indicateurs, les performances du modèle indiquent dans quelle mesure un modèle de machine learning (ML) réalise la tâche pour laquelle il a été conçu. Il est essentiel de mesurer la performance d’un modèle de ML avant de le mettre en production et de l’améliorer après son déploiement. Sans optimisation appropriée, les modèles peuvent produire des prédictions inexactes ou peu fiables et souffrir d’inefficacités, entraînant de mauvaises performances.
L’évaluation de la performance des modèles se fait au cours des étapes d’évaluation et de surveillance des modèles d’un pipeline de machine learning. Une fois que les praticiens de l’intelligence artificielle (IA) ont travaillé sur les premières phases des projets de ML, ils évaluent les performances d’un modèle sur plusieurs jeux de données, tâches et indicateurs pour évaluer son efficacité. Une fois le modèle déployé, les équipes chargées des opérations de machine learning (MLOps) surveillent leurs performances pour une amélioration continue.
Les performances d’un modèle d’IA sont généralement mesurées à l’aide d’un ensemble de tests, en comparant les productions du modèle aux prévisions de l’ensemble de test de base. Les informations recueillies lors de l’évaluation des performances permettent de déterminer si un modèle est prêt à être déployé dans le monde réel ou s’il a besoin d’être modifié ou s’il a besoin d’un entraînement supplémentaire.
Voici quelques facteurs qui peuvent avoir un impact sur les performances d’un modèle de machine learning :
Un modèle n’est performant que si les données utilisées pour l’entraîner le sont aussi. Le performance du modèle ne sont pas optimales lorsque ses données d’entraînement sont erronées, contenant des inexactitudes ou des incohérences telles que des doublons, des missing values et des étiquettes ou annotations de données erronées. Si le manque d’équilibre, comme un trop grand nombre de valeurs pour un scénario sur un autre ou un jeu de données d’entraînement insuffisant ou suffisamment diversifié pour capturer correctement les corrélations, peut également fausser les résultats.
Les fuites de données dans le cadre du machine learning se produisent lorsqu’un modèle utilise des informations qui n’étaient pas disponibles au moment de la prédiction pendant l’entraînement. Cela peut être dû à des erreurs de prétraitement des données ou à une contamination due à une mauvaise répartition des données entre les ensembles d’entraînement, de validation et de tests. Les fuites de données compliquent la tâche d’un modèle prédictif lorsqu’il généralise sur des données invisibles, lorsqu’il produit des résultats inexacts ou peu fiables, ou lorsqu’il gonfle ou dégonfle les indicateurs de performance.
La sélection des fonctionnalités consiste à choisir les fonctionnalités les plus pertinentes d’un jeu de données à utiliser pour l’entraînement du modèle. Les fonctionnalités des données influencent la manière dont les algorithmes de machine learning configurent leurs poids pendant l’entraînement, ce qui stimule à son tour la performance. De plus, réduire l’espace des fonctionnalités à un sous-ensemble sélectionné peut contribuer à améliorer la performance tout en réduisant les demandes de calcul. Cependant, le fait de choisir des caractéristiques non pertinentes ou insignifiantes peut nuire aux performances du modèle.
Le surajustement se produit lorsqu’un modèle de ML est trop complexe et correspond trop étroitement, voire exactement, à ses données d’entraînement. Il ne se généralise donc pas bien sur les nouvelles données. À l’inverse, le sous-ajustement se produit lorsqu’un modèle est si simple qu’il ne parvient pas à capturer les modèles sous-jacents dans les données d’entraînement et de test.
La dérive du modèle désigne la dégradation de la performance d’un modèle en raison d’un changement des données ou des relations entre les variables d’entrée et de sortie. Cette dégradation peut avoir un impact négatif sur les performances du modèle, entraînant des prises de décision erronées et de mauvaises prédictions.
Le biais dans l’IA peut être introduit à n’importe quelle phase d’un workflow de machine learning, mais il est particulièrement fréquent lors des étapes de traitement de données et de développement des modèles. Il y a biais de données lorsque la nature non représentative de l’entraînement et du réglage fin du jeu de données affecte négativement le comportement du modèle et performance. Par ailleurs, lebiais algorithmique n’est pas causé par l’algorithme lui-même, mais par la façon dont les équipes de science des données collectent et codent les données d’entraînement, et par la façon dont les programmeurs d’IA conçoivent et développent des algorithmes de machine learning. Les biais de l’IA peuvent entraîner des résultats inexacts et potentiellement néfastes.
Newsletter sectorielle
Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.
Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.
Il est important d’aligner les indicateurs sur les objectifs métier qu’un modèle est censé atteindre. Si chaque type de modèle machine learning possède son propre ensemble d’indicateurs d’évaluation, de nombreux modèles partagent quelques mesures communes :
La précision est calculée comme le nombre de prédictions correctes divisé par le nombre total de prédictions. Ce pourcentage est un indicateur très courant.
On associe souvent précision et performance des modèles, mais la précision des modèles n’est qu’un élément de la performance des modèles. Et bien qu’elles soient étroitement liées, des prévisions précises ne peuvent pas fournir une vision globale des performances d’un modèle.
Le rappel quantifie le nombre de vrais positifs, c’est-à-dire les prévisions correctes réelles. Il est également connu sous le nom de taux de sensibilité ou taux de vrais positifs (TPR).
Cet indicateur est essentiel dans le domaine de la santé, par exemple pour diagnostiquer des maladies ou détecter un cancer. Un modèle de ML avec un rappel élevé peut identifier correctement les cas positifs tout en minimisant les faux négatifs (cas positifs réels incorrectement prédits comme des cas négatifs)
La précision est la proportion de prédictions positives qui sont réellement positives. Un modèle de machine learning d’une grande précision peut minimiser les faux positifs (cas négatifs réels incorrectement prédits comme cas positifs).
Cet indicateur est indispensable dans le domaine de la finance, par exemple pour détecter les fraudes. Les transactions signalées doivent en effet être frauduleuses (vrais positifs), car le fait de signaler des transactions légitimes comme frauduleuses (faux positifs) peut avoir des conséquences négatives.
Le score F1 est la moyenne harmonisation de la mémorisation et de la précision, combinant ces deux indicateurs en un seul. Il considère que les deux mesures ont un poids égal pour équilibrer les faux positifs et les faux négatifs. C’est particulièrement utile pour les jeux de données déséquilibrés, comme lors de la détection de maladies rares, car les cas négatifs l’emportent largement sur les cas positifs.
De nombreux cadres des exigences d’IA, tels que le PyTorch basé sur Python, scikit-learn et TensorFlow, offrent des fonctions intégrées pour calculer l’exactitude, le rappel, la précision et le score F1. Ils fournissent également des visualisations des prédictions des modèles sous forme de matrice de confusion : un tableau représentant les valeurs prévues et réelles, avec des cases indiquant le nombre de vrais positifs, de faux positifs, de vrais négatifs et de faux négatifs.
Les modèles de classification trient les points de données en groupes prédéfinis appelés classes. Voici quelques indicateurs spécifiques aux modèles de classification :
Les modèles de régression sont utilisés pour les prédictions impliquant des valeurs continues, telles que les estimations de ventes au détail et les prévisions de prix boursiers. Comme ces algorithmes traitent des concepts quantifiables, leurs indicateurs mesurent les erreurs dans les prédictions :
L’erreur absolue moyenne (MAE) est calculée comme la somme de la valeur absolue de toutes les erreurs divisée par la taille de l’échantillon. Elle mesure la différence absolue moyenne entre la valeur prédite et la valeur réelle.
L’erreur quadratique moyenne (MSE) est calculée comme la moyenne des différences quadratiques entre la valeur prédite et la valeur réelle sur tous les échantillons d’entraînement. L’erreur quadratique pénalise les grandes erreurs et incite le modèle à les réduire.
L’erreur quadratique moyenne quadratique (RMSE) est la racine carrée du MSE. En mettant les erreurs au carré avant de les calculer, nous encourageons encore plus les modèles à les réduire.
Ces indicateurs évaluent les performances des modèles de traitement automatique du langage naturel (NLP). Ils servent également de références pour les grands modèles de langage (LLM).
Voici quelques mesures quantitatives de modèle NLP :
La perplexité mesure la qualité des prédictions d’un modèle. Plus le score de perplexité d’un LLM est bas, plus sa capacité à comprendre une tâche est grande.
Le score BLEU (bilingual evaluation understudy) évalue la traduction automatique. On calcule les n-grammes correspondants (une séquence de n symboles textuels adjacents) en comparant la traduction prédite par un LLM à une traduction réalisée par un humain.
Le score ROUGE (recall-oriented understudy for gisting evaluation) évalue la synthèse de texte et se décline en plusieurs types. ROUGE-N, par exemple, effectue des calculs similaires à ceux du score BLEU sur les résumés, tandis que ROUGE-L calcule la plus longue sous-séquence commune aux deux résumés : celui prédit et celui produit par l’humain.
Les indicateurs qualitatifs englobent des indicateurs tels que la cohérence, la pertinence et la signification sémantique et impliquent généralement des évaluateurs humains qui examinent et notent les modèles. Un équilibre entre les indicateurs quantitatifs et qualitatifs peut permettre une évaluation plus nuancée.
Les modèles de vision par ordinateur, en particulier ceux destinés à la segmentation d’instances et à la détection d’objets, sont évalués à l’aide de ces deux indicateurs de performance communs :
L’intersection sur l’union (IoU) calcule le rapport entre l’aire d’intersection et l’aire d’union. L’intersection couvre les sections qui se chevauchent entre un cadre de délimitation qui délimite un objet détecté tel que prédit par un modèle et l’objet réel. L’union représente la surface totale de la boîte englobante et de l’objet réel. Les modèles de vision par ordinateur utilisent l’IoU pour évaluer la précision de la localisation des objets détectés.
La précision moyenne (mAP) calcule la moyenne de tous les scores de précision moyenne pour toutes les classes d’objets. Les modèles de vision par ordinateur utilisent l’IoU pour évaluer la précision de la prédiction et de la détection.
La plupart des techniques d’optimisation de la performance de machine learning sont mises en œuvre lors du développement, de l'entraînement et de l’évaluation du modèle. Une fois qu’un modèle est déployé dans le monde réel, sa performance doit être constamment suivie. Le suivi du modèle permet de prendre des décisions sur la manière d’améliorer les performances au fil du temps.
L’amélioration des performances du modèle ML implique une ou plusieurs de ces techniques :
De nombreux cadres des exigences d’IA ont des fonctionnalités prédéfinies qui prennent en charge la plupart de ces techniques.
L’établissement et le maintien de procédures rigoureuses de prétraitement ou de préparation des données peuvent contribuer à éviter les problèmes de qualité des données. Si le nettoyage des données, le débruitage et la normalisation des données sont les piliers du prétraitement des données, les data scientists peuvent également utiliser des outils d’automatisation des données et même des outils alimentés par l’IA pour gagner du temps et d’effort et éviter les erreurs humaines. En cas de jeux de données insuffisants ou déséquilibrés, les données synthétiques peuvent combler les lacunes.
Une manipulation soigneuse des données est essentielle pour éviter les fuites de données. Les données doivent être correctement divisées en ensembles d'entraînement, de validation et de test, le prétraitement étant effectué séparément pour chaque ensemble.
La validation croisée peut également s’avérer utile. Elle divise les données en plusieurs sous-ensembles et en utilise différents pour l’entraînement et la validation dans un nombre défini d’itérations.
La sélection de fonctionnalités peut s’avérer difficile et nécessite une expertise du domaine pour identifier les fonctionnalités les plus essentielles et les plus influentes. Il est crucial de comprendre l’importance de chaque fonctionnalité et d’examiner la corrélation entre les fonctionnalités et la variable cible (la variable dépendante qu’un modèle est chargé de prédire).
Les méthodes de sélection des fonctionnalités pour l’apprentissage supervisé comprennent les méthodes d’encapsulation et les méthodes intégrées. Les méthodes d’encapsulation entraînent un algorithme de machine learning avec différents sous-ensembles de caractéristiques, en les ajoutant ou en les supprimant et en testant les résultats à chaque itération afin de déterminer l’ensemble de caractéristiques qui permet d’obtenir les meilleures performances du modèle. Les méthodes intégrées intègrent la sélection de fonctionnalités dans l’entraînement des modèles, identifiant les fonctionnalités peu performantes et les éliminant des itérations futures.
Avec l’apprentissage non supervisé, les modèles déterminent par eux-mêmes les fonctionnalités, les schémas et les relations de données. Les méthodes de sélection des fonctionnalités pour l’apprentissage non supervisé incluent l’analyse en composants principaux (PCA), l’analyse en composants indépendants (ICA) et les encodeurs automatiques.
Le réglage des hyperparamètres, également connu sous le nom d’optimisation des hyperparamètres ou réglage des modèles, identifie, sélectionne et optimise les hyperparamètres d’un modèle d’apprentissage profond afin d’obtenir les meilleures performances d’entraînement. Les hyperparamètres régissent le processus d’apprentissage d’un modèle, et trouver la bonne combinaison et la bonne configuration des hyperparamètres peut renforcer les performances du modèle dans le monde réel.
Les méthodes courantes de réglage des hyperparamètres comprennent la recherche en grille, la recherche aléatoire, l’optimisation bayésienne et l’hyperbande. Les data scientists peuvent également mettre en œuvre des méthodes automatisées pour découvrir de manière algorithmique les hyperparamètres optimaux adaptés à leur cas d’utilisation.
L’apprentissage d’ensemble combine plusieurs modèles pour améliorer les performances prédictives, en supposant qu’un collectif ou un ensemble de modèles puisse produire de meilleures prédictions qu’un seul modèle.
Voici quelques techniques d’apprentissage par ensemble populaires :
Le bagging, également appelé agrégation par bootstrap, entraîne des modèles en parallèle et indépendamment les uns des autres. Il prend ensuite en compte la moyenne (pour les tâches de régression) ou la majorité (pour les problèmes de classification) des prévisions pour obtenir une estimation plus précise.
Le boosting entraîne les modèles de manière séquentielle, en corrigeant les erreurs passées à chaque itération. Il accorde plus de poids aux instances erronées ou mal classées dans les modèles suivants, se concentrant ainsi sur les points de données difficiles et améliorant les performances en cours de route.
L’empilage entraîne des modèles à partir du même jeu de données, mais applique un algorithme d’entraînement différent à chacun. Il utilise ensuite les prédictions compilées ou empilées pour entraîner un modèle final.
L’apprentissage par transfert utilise les connaissances acquises par un modèle préentraîné sur une tâche ou un jeu de données initial et les applique à une tâche ou à un jeu de données cible nouveau, mais connexe. La réutilisation d’un modèle pré-entraîné pour une tâche différente renforce les capacités de généralisation de ce modèle, ce qui permet d’optimiser les performances.
La gestion du surajustement et du sous-ajustement est un défi central dans le machine learning. Un modèle parfaitement ajusté reconnaît avec précision les modèles des données sans être trop sensible aux fluctuations aléatoires ou au bruit.
Les techniques pour éviter le surajustement et le sous-ajustement comprennent la recherche de la bonne durée d’entraînement pour donner aux modèles suffisamment de temps pour apprendre, l’augmentation des données pour élargir l’ensemble d’entraînement et la régularisation pour réduire la variance d’un modèle en appliquant une pénalité aux paramètres d’entrée avec des coefficients plus élevés.
La détection de la dérive, un aspect essentiel de la surveillance et de l’observabilité des modèles, peut contribuer à la protection contre la dérive des modèles. Par exemple, les détecteurs de dérive de l’IA reconnaissent automatiquement lorsque la précision d’un modèle diminue ou passe en dessous d’un seuil prédéfini, tandis que les outils de surveillance observent en permanence les scénarios de dérive.
Une fois la dérive détectée, les modèles ML peuvent être mis à jour en temps réel ou réentraînés à l’aide d’un nouveau jeu de données contenant des échantillons plus récents et plus pertinents.
L’atténuation des biais de l’IA commence par la gouvernance de l’IA, qui englobe les garde-fous, les processus et les normes qui permettent de garantir que les systèmes et les outils d’IA sont éthiques et sûrs. Voici quelques pratiques d’IA responsables qui permettent de combattre les biais :
Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.