Surajustement et sous-ajustement : trouver l’équilibre

11 décembre 2024

Temps de lecture

Auteurs

Tim Mucci

Writer

Gather

surajustement et sous-ajustement

Lorsque les scientifiques et les ingénieurs des données entraînent les modèles de machine learning (ML), ils risquent d’utiliser un algorithme trop simple pour repérer les schémas sous-jacents présents dans les données, avec pour conséquence un sous-ajustement, ou alors un algorithme trop complexe entraînant un surajustement. La gestion du surajustement et du sous-ajustement est un défi majeur dans les workflows de science des données et dans le développement de systèmes d’intelligence artificielle (IA) fiables.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Biais et variance dans le machine learning

Le biais et la variance expliquent l’équilibre que les ingénieurs doivent trouver pour s’assurer que leurs modèles de machine learning sont bien adaptés. Le compromis biais-variance est donc essentiel pour résoudre le problème de sous-ajustement ou de surajustement.

Un modèle biaisé émet de fortes hypothèses sur les données d’entraînement afin de simplifier le processus d’apprentissage, en ignorant les subtilités ou les complexités dont il ne peut pas tenir compte. La variance fait référence à la sensibilité du modèle aux fluctuations d’apprentissage dans les données d’entraînement.

Parmi les modèles à biais élevé, citons les algorithmes de régression linéaire ou les arbres de décision peu profonds, qui supposent des relations linéaires ou binaires simples, même lorsque les schémas dans les données sont plus complexes.

L’utilisation d’un modèle de régression linéaire pour les données présentant une relation quadratique entraînera un sous-ajustement, car le modèle linéaire ne peut pas capturer la courbure inhérente. Par conséquent, le modèle fonctionne mal sur le jeu d’entraînement et les données de test inédites, car il ne peut pas bien se généraliser sur les nouvelles données.

La généralisation est la capacité du modèle à comprendre et à appliquer des schémas appris à des données encore inconnues. Les modèles à faible variance ont également tendance à être sous-ajustés, car ils sont trop simples pour capturer des schémas complexes. Cependant, les modèles à faible biais risquent d’être surajustés s’ils sont trop flexibles.

Une variance élevée indique que le modèle peut capturer du bruit, des particularités et des détails aléatoires dans les données d’apprentissage. Les modèles à forte variance sont trop flexibles, ce qui se traduit par une faible erreur d’apprentissage, mais lorsqu’ils sont testés sur de nouvelles données, les schémas appris ne parviennent pas à se généraliser, ce qui se traduit par une erreur de test élevée.

Supposons que vous mémorisiez les réponses d’un test au lieu de comprendre les notions nécessaires pour trouver les réponses vous-même. Si le test diffère de celui que vous avez étudié, vous aurez du mal à répondre aux questions. Trouver le bon équilibre entre variance et biais est essentiel pour obtenir une performance optimale dans les modèles de machine learning.

Reconnaître le surajustement et le sous-ajustement

Les règles 

  • Surajustement : l’erreur d’entraînement est faible, mais l’erreur de test est beaucoup plus élevée.
  • Sous-ajustement : le nombre d’erreurs est systématiquement élevé dans les jeux de données d’entraînement et de test.

Un modèle surajusté peut avoir une précision élevée sur les données d’entraînement, mais faible sur les nouvelles données, car il mémorise au lieu de se généraliser. Un surajustement se produit lorsque les ingénieurs utilisent un modèle de machine learning contenant trop de paramètres ou de couches, comme un réseau neuronal de deep learning, ce qui le rend très adaptable aux données d’apprentissage.

Lorsqu’il est entraîné sur un petit jeu de données ou un jeu bruité, le modèle risque de mémoriser certains points de données et bruits spécifiques, au lieu d’apprendre les schémas généraux. Si les données contiennent des erreurs ou sont incohérentes, le modèle pourrait les considérer à tort comme des schémas significatifs.

Les ingénieurs recherchent un écart de performance entre l’entraînement et les tests, mais ils peuvent également détecter un surajustement dans les courbes d’apprentissage, où la perte d’entraînement tend vers zéro, tandis que la perte de validation augmente, ce qui indique un défaut en termes de généralisation.

Les limites de décision, c’est-à-dire les règles apprises par le modèle pour classer les points de données, sont un autre signe d’un modèle surajusté. La limite de décision devient trop complexe et erratique dans les modèles surajustés, car elle s’adapte au bruit du jeu d’entraînement au lieu de capturer les véritables structures sous-jacentes, ce qui indique encore une fois un surajustement.

En outre, les jeux de données à haute dimensionnalité peuvent entraîner un surajustement en raison du « fléau de la dimension ». À mesure que le nombre de caractéristiques augmente, les points de données deviennent clairsemés. Il est alors plus difficile pour les modèles de trouver des schémas significatifs, ce qui augmente la variance et le risque de surajustement.

Un modèle sous-ajusté donne de mauvais résultats sur les données d’entraînement et les données de test, car il ne parvient pas à capturer les schémas dominants dans le jeu de données. En général, les ingénieurs repèrent le sous-ajustement quand les performances sont constamment mauvaises sur les deux jeux de données.

Les modèles sous-ajustés ont également tendance à montrer des erreurs importantes dans les courbes d’apprentissage, à renvoyer des indicateurs d’évaluation sous-optimaux et à présenter des schémas résiduels systématiques, ce qui indique une incapacité à apprendre efficacement les relations sous-jacentes dans les données.

En machine learning, le sous-ajustement est souvent dû à des modèles simplistes, à une mauvaise ingénierie des caractéristiques ou à une régularisation excessive qui limite trop la flexibilité du modèle. De même, un mauvais choix de caractéristiques, comme l’omission de termes d’interaction ou de caractéristiques polynomiales, peut empêcher le modèle de comprendre les relations qui se cachent dans les données. Un prétraitement inadéquat, un temps d’entraînement insuffisant ou un manque de données pour entraîner le modèle peuvent également contribuer au sous-ajustement.

Exemples de surajustement et de sous-ajustement

Surajustement

Modèle de diagnostic médical
Un modèle de machine learning est entraîné à classer des images médicales selon qu’elles représentent des sujets « sains » ou « malades » sur un petit jeu de données. Le modèle mémorise les images d’entraînement avec une précision quasi parfaite, mais donne de mauvais résultats sur les nouvelles images, car il a assimilé le bruit ou les artefacts spécifiques des données d’entraînement au lieu des caractéristiques générales des maladies.

Prévision du cours des actions
Un modèle financier utilise un réseau neuronal complexe comportant de nombreux paramètres pour prévoir le cours des actions. Au lieu d’apprendre des tendances ou des schémas, il saisit les fluctuations aléatoires des données historiques, ce qui permet d’établir des prévisions d’entraînement très précises, mais de mauvaises performances lorsqu’il est testé sur les futurs cours boursiers.

Prévision de l’attrition client
Un modèle de rétention client comprend trop de caractéristiques spécifiques, telles que des données démographiques très détaillées, ce qui entraîne un surajustement sur les données d’entraînement. Il peine à se généraliser et à repérer les schémas dans différents groupes démographiques lorsqu’il est appliqué à une clientèle plus large.

Sous-ajustement

Prévision des prix de l’immobilier
Un modèle de régression linéaire permet de prévoir les prix de l’immobilier en se basant uniquement sur la superficie. Le modèle ne tient pas compte d’autres caractéristiques importantes telles que l’emplacement, le nombre de chambres ou l’année de construction du bien immobilier, ce qui entraîne de mauvaises performances sur les données d’entraînement et de test.

Prévisions météorologiques
Un modèle utilise un petit ensemble de caractéristiques simples, telles que la température et l’humidité moyennes, pour prédire les précipitations. Il ne parvient pas à capturer des relations plus complexes, telles que les tendances saisonnières ou les interactions entre plusieurs facteurs atmosphériques, ce qui entraîne invariablement une mauvaise précision.

Reconnaissance d’images
Un arbre de décision peu profond est utilisé pour classer des images de chats et de chiens. En raison de sa simplicité, il ne parvient pas à différencier les deux espèces et donne de mauvais résultats sur les images d’entraînement et les nouvelles images inédites.

Comment éviter le surajustement et le sous-ajustement ?

Les algorithmes de machine learning entraînent les modèles à reconnaître des schémas dans les données, ce qui permet aux ingénieurs de les utiliser pour prévoir des résultats ultérieurs à partir d’entrées inédites. Le réglage des hyperparamètres joue un rôle important dans l’équilibrage entre surajustement et sous-ajustement, il s’agit de permettre au modèle prédictif de se généraliser efficacement sur des données inédites.

En utilisant des hyperparamètres, les ingénieurs peuvent affiner le taux d’apprentissage, la force de régularisation, le nombre de couches dans un réseau neuronal ou la profondeur maximale d’un arbre de décision. Un réglage approprié peut empêcher un modèle d’être trop rigide ou trop adaptable.

Surajustement

Régularisation

La régularisation pour les modèles de régression, ou l’abandon dans les réseaux neuronaux, est une technique utilisée dans le machine learning qui consiste à décourager le modèle de s’appuyer trop fortement sur une seule caractéristique ou de s’ajuster sur le bruit dans les données d’apprentissage.

Les types de régularisation les plus courants incluent la régularisation L1, qui favorise la parcimonie en réduisant certains coefficients à zéro, et la régularisation L2, qui réduit la taille de tous les coefficients pour rendre le modèle plus simple et plus généralisable. La régularisation aide le modèle à se concentrer sur les schémas sous-jacents plutôt que de mémoriser les données.

Augmentation des données

L’augmentation des données est une autre stratégie efficace, en particulier dans les tâches telles que la vision par ordinateur, où l’expansion artificielle des données d’entraînement en retournant, en faisant pivoter ou en recadrant les images permet au modèle de mieux se généraliser. Le fait de simplifier le modèle en réduisant le nombre de paramètres ou de couches d’un réseau neuronal limite également sa capacité à mémoriser les détails des données d’entraînement.

Validation croisée K-fold

Les ingénieurs peuvent également utiliser des techniques telles que la validation croisée K-fold pour évaluer la capacité de généralisation du modèle. La validation croisée K-fold divise les données en sous-ensembles, s’entraîne sur certains d’entre eux et se teste sur les autres.

De même, les ingénieurs peuvent utiliser un ensemble d’exclusion, c’est-à-dire des informations de l’ensemble d’apprentissage à réserver comme données inédites pour disposer d’un autre moyen d’évaluer les performances de généralisation du modèle. La moyenne des résultats est ensuite calculée pour obtenir une note de performance globale.

Cadres d’évaluation

En plus de ces techniques, des cadres d’évaluation de modèle robustes sont essentiels pour garantir une bonne généralisation du modèle de machine learning. Parmi les techniques d’évaluation avancées figure la validation croisée imbriquée, qui est particulièrement utile pour le réglage des hyperparamètres. Dans la validation croisée imbriquée, une boucle externe divise les données en sous-ensembles d’entraînement et de test pour évaluer la capacité de généralisation du modèle.

Dans le même temps, une boucle interne règle les hyperparamètres des données d’entraînement afin de s’assurer que le processus de réglage ne surajuste pas le jeu de validation. Cette approche sépare l’optimisation des hyperparamètres de l’évaluation du modèle et fournit une estimation plus précise de la performance du modèle sur des données inédites.

Un autre cadre efficace combine des divisions entraînement-test avec un arrêt précoce pour contrôler la perte de validation pendant l’entraînement. En évaluant les performances du modèle sur un ensemble de validation dédié, les ingénieurs peuvent interrompre l’entraînement lorsque les performances de validation stagnent ou se dégradent, évitant ainsi un surajustement.

Les cadres d’évaluation doivent inclure un échantillonnage stratifié pour les problèmes de classification avec des jeux de données déséquilibrés afin de garantir que chaque division de données conserve la même distribution de classes que le jeu de données d’origine. Cela permet d’éviter le surajustement sur les classes majoritaires tout en fournissant une évaluation équitable des performances des classes minoritaires.

Méthodes d’ensemble

Les méthodes ensemblistes, telles que le bagging et le boosting, combinent plusieurs modèles pour atténuer leurs faiblesses individuelles et améliorer la généralisation globale. Par exemple, les forêts d’arbres de décision, une technique ensembliste populaire, réduit le surajustement en agrégeant les prédictions de plusieurs arbres de décision, permettant ainsi d’équilibrer le biais et la variance.

Sous-ajustement

Modèles plus complexes

Pour résoudre le problème de sous-ajustement, les ingénieurs augmentent souvent la complexité du modèle afin qu’il capture mieux les schémas sous-jacents présents dans les données. Par exemple, passer d’une régression linéaire simple à une régression polynomiale peut s’avérer utile lorsque les caractéristiques de la relation et la variable cible sont non linéaires. Si les modèles plus complexes peuvent éviter le sous-ajustement, ils risquent toutefois le surajustement si la régularisation appropriée n’est pas appliquée. 

Régularisation

La réduction des pénalités de régularisation peut également offrir une plus grande flexibilité au modèle, qui pourra s’ajuster sur les données sans trop de contraintes. Par exemple, les paramètres L1 et L2 sont des types de régularisation utilisés pour vérifier la complexité d’un modèle. L1 (Lasso) ajoute une pénalité pour encourager le modèle à sélectionner uniquement les caractéristiques les plus importantes. L2 (Ridge) permet d’orienter le modèle vers une sélection plus distribuée des caractéristiques.

Ingénierie des caractéristiques

L’ingénierie et la sélection des caractéristiques jouent un rôle dans la création ou la transformation des caractéristiques, comme l’ajout de termes d’interaction, de caractéristiques polynomiales ou l’encodage de variables nominales. Il s'agit de fournir au modèle des informations plus pertinentes.

Durée d’entraînement

En allongeant le temps d’entraînement du modèle par l’augmentation du nombre d’époques, on lui assure la possibilité d’apprendre correctement à partir des données. Une époque représente un passage complet dans le jeu de données d’entraînement et l’utilisation de plusieurs époques permet au modèle d’apprendre des schémas plus efficacement.

On utilise souvent plusieurs époques pour permettre au modèle d’apprendre plus efficacement les schémas dans les données. Par ailleurs, l’augmentation de la taille du jeu de données d’entraînement permet au modèle d’identifier des schémas plus diversifiés, réduisant le risque de simplification excessive et améliorant sa capacité de généralisation.

Qualité des données

De manière globale, les ingénieurs doivent évaluer minutieusement les données d’entraînement pour en vérifier l’exactitude, l’exhaustivité et la cohérence, en les recoupant avec des sources fiables pour corriger les éventuelles divergences. Des techniques comme la normalisation (mise à l’échelle des valeurs entre 0 et 1) ou la standardisation (mise à l’échelle sur une moyenne de 0 et un écart-type de 1) permettent de s’assurer que le modèle ne favorise pas certaines variables par rapport à d’autres en raison des différences d’échelle.

Avec le temps, les distributions des données d’entrée peuvent changer (un phénomène connu sous le nom de dérive des données), ce qui peut entraîner un sous-ajustement ou un surajustement des modèles sur les nouvelles données. Pour remédier à cela, une surveillance régulière et un réentraînement périodique sur des jeux de données à jour sont essentiels. La suppression des données aberrantes permet également d’éviter les résultats faussés et d’améliorer la robustesse du modèle.

Des outils tels que l’AutoML peuvent rationaliser encore davantage les processus en automatisant le réglage des hyperparamètres, la sélection des caractéristiques et la création des cadres d’évaluation de modèle, permettant aux ingénieurs de se concentrer sur des informations et des décisions de plus haut niveau.

Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Ajustement optimal du modèle

Un modèle bien ajusté repose sur un équilibre optimal entre sous-ajustement et surajustement. Il s’agit d’un modèle qui capture avec précision les schémas sous-jacents dans les données sans être trop sensible au bruit ou aux fluctuations aléatoires.

  • Le compromis entre la complexité du modèle et sa capacité de généralisation consiste à trouver le bon équilibre entre une simplicité ou une complexité excessive.
  • Les ingénieurs doivent trouver le bon équilibre entre biais et variance pour tirer des performances optimales du modèle. L’une des façons d’y parvenir est de suivre les courbes d’apprentissage, qui montreront les erreurs d’entraînement et de validation au fil du temps.
  • L’analyse des indicateurs de validation tels que l’exactitude, la précision, le rappel ou l’erreur quadratique moyenne permet d’évaluer la capacité du modèle à se généraliser sur des données inédites.
  • Un modèle bien ajusté présentera un bon équilibre entre complexité, données d’entraînement et techniques de régularisation, lui permettant de bien se généraliser sur de nouvelles données et de faire des prédictions précises.

Considérations propres au domaine pour le sous-ajustement et le surajustement

La connaissance du domaine joue un rôle important dans la résolution des problèmes de sous-ajustement et de surajustement, car elle aide les ingénieurs à adapter le modèle aux caractéristiques spécifiques du problème à résoudre. Les jeux de données du monde réel contiennent souvent du bruit, des déséquilibres ou des incohérences.

Une logistique efficace, telle qu’un fractionnement des données et un prétraitement appropriés, permet d’atténuer les problèmes d’ajustement. En comprenant le contexte des données, les ingénieurs peuvent prendre des décisions éclairées en matière de prétraitement, de sélection des caractéristiques et de conception, afin d’obtenir un modèle bien entraîné. Voici quelques exemples :

  • Prétraitement des données : l’expertise du domaine permet aux ingénieurs d’identifier les étapes de nettoyage des données qui sont nécessaires, comme la suppression des caractéristiques non pertinentes, la gestion des valeurs manquantes ou la normalisation des données. Par exemple, dans le domaine de la santé, le modèle sera plus efficace si les données démographiques des patients et les antécédents médicaux sont représentés avec précision.
  • Sélection des caractéristiques : la connaissance du domaine peut vous aider à déterminer les caractéristiques les plus pertinentes pour la tâche à accomplir, permettant de réduire le bruit et d’améliorer la performance du modèle. Par exemple, dans le domaine de la finance, des indicateurs clés tels que les taux d’intérêt ou les tendances du marché peuvent être plus prédictifs que les journaux de transactions brutes.
  • Conception du modèle : les informations propres à un domaine peuvent éclairer le choix des algorithmes ou des architectures. Par exemple, dans les tâches de reconnaissance d’images, les réseaux neuronaux convolutifs (CNN) sont les mieux adaptés, tandis que pour l’analyse des séries temporelles, les réseaux neuronaux récurrents (RNN) ou les transformers peuvent être plus efficaces.

Trouver le bon équilibre entre surajustement et sous-ajustement permet aux ingénieurs d’identifier la plage optimale où un modèle de machine learning passe d’une simplicité rigide à une généralisation significative, sans devenir trop complexe. Un modèle bien équilibré peut prédire l’attrition des clients selon différents groupes démographiques, classer efficacement les images médicales malgré les variations de qualité des données et prévoir les cours des actions en capturant les tendances du marché sans surajustement aux fluctuations aléatoires.

Une gestion efficace du compromis biais-variance permet d’obtenir des modèles qui apprennent les schémas dans les données avec précision tout en conservant la flexibilité nécessaire pour s’adapter aux données inédites. En parvenant à cet équilibre, les data scientists peuvent créer des solutions techniquement solides, qui auront un impact sur des applications concrètes.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise grâce à l’expertise de pointe d’IBM en matière d’IA et à son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct