Temps de lecture
Lorsque les scientifiques et les ingénieurs des données entraînent les modèles de machine learning (ML), ils risquent d’utiliser un algorithme trop simple pour repérer les schémas sous-jacents présents dans les données, avec pour conséquence un sous-ajustement, ou alors un algorithme trop complexe entraînant un surajustement. La gestion du surajustement et du sous-ajustement est un défi majeur dans les workflows de science des données et dans le développement de systèmes d’intelligence artificielle (IA) fiables.
Le biais et la variance expliquent l’équilibre que les ingénieurs doivent trouver pour s’assurer que leurs modèles de machine learning sont bien adaptés. Le compromis biais-variance est donc essentiel pour résoudre le problème de sous-ajustement ou de surajustement.
Un modèle biaisé émet de fortes hypothèses sur les données d’entraînement afin de simplifier le processus d’apprentissage, en ignorant les subtilités ou les complexités dont il ne peut pas tenir compte. La variance fait référence à la sensibilité du modèle aux fluctuations d’apprentissage dans les données d’entraînement.
Parmi les modèles à biais élevé, citons les algorithmes de régression linéaire ou les arbres de décision peu profonds, qui supposent des relations linéaires ou binaires simples, même lorsque les schémas dans les données sont plus complexes.
L’utilisation d’un modèle de régression linéaire pour les données présentant une relation quadratique entraînera un sous-ajustement, car le modèle linéaire ne peut pas capturer la courbure inhérente. Par conséquent, le modèle fonctionne mal sur le jeu d’entraînement et les données de test inédites, car il ne peut pas bien se généraliser sur les nouvelles données.
La généralisation est la capacité du modèle à comprendre et à appliquer des schémas appris à des données encore inconnues. Les modèles à faible variance ont également tendance à être sous-ajustés, car ils sont trop simples pour capturer des schémas complexes. Cependant, les modèles à faible biais risquent d’être surajustés s’ils sont trop flexibles.
Une variance élevée indique que le modèle peut capturer du bruit, des particularités et des détails aléatoires dans les données d’apprentissage. Les modèles à forte variance sont trop flexibles, ce qui se traduit par une faible erreur d’apprentissage, mais lorsqu’ils sont testés sur de nouvelles données, les schémas appris ne parviennent pas à se généraliser, ce qui se traduit par une erreur de test élevée.
Supposons que vous mémorisiez les réponses d’un test au lieu de comprendre les notions nécessaires pour trouver les réponses vous-même. Si le test diffère de celui que vous avez étudié, vous aurez du mal à répondre aux questions. Trouver le bon équilibre entre variance et biais est essentiel pour obtenir une performance optimale dans les modèles de machine learning.
Un modèle surajusté peut avoir une précision élevée sur les données d’entraînement, mais faible sur les nouvelles données, car il mémorise au lieu de se généraliser. Un surajustement se produit lorsque les ingénieurs utilisent un modèle de machine learning contenant trop de paramètres ou de couches, comme un réseau neuronal de deep learning, ce qui le rend très adaptable aux données d’apprentissage.
Lorsqu’il est entraîné sur un petit jeu de données ou un jeu bruité, le modèle risque de mémoriser certains points de données et bruits spécifiques, au lieu d’apprendre les schémas généraux. Si les données contiennent des erreurs ou sont incohérentes, le modèle pourrait les considérer à tort comme des schémas significatifs.
Les ingénieurs recherchent un écart de performance entre l’entraînement et les tests, mais ils peuvent également détecter un surajustement dans les courbes d’apprentissage, où la perte d’entraînement tend vers zéro, tandis que la perte de validation augmente, ce qui indique un défaut en termes de généralisation.
Les limites de décision, c’est-à-dire les règles apprises par le modèle pour classer les points de données, sont un autre signe d’un modèle surajusté. La limite de décision devient trop complexe et erratique dans les modèles surajustés, car elle s’adapte au bruit du jeu d’entraînement au lieu de capturer les véritables structures sous-jacentes, ce qui indique encore une fois un surajustement.
En outre, les jeux de données à haute dimensionnalité peuvent entraîner un surajustement en raison du « fléau de la dimension ». À mesure que le nombre de caractéristiques augmente, les points de données deviennent clairsemés. Il est alors plus difficile pour les modèles de trouver des schémas significatifs, ce qui augmente la variance et le risque de surajustement.
Un modèle sous-ajusté donne de mauvais résultats sur les données d’entraînement et les données de test, car il ne parvient pas à capturer les schémas dominants dans le jeu de données. En général, les ingénieurs repèrent le sous-ajustement quand les performances sont constamment mauvaises sur les deux jeux de données.
Les modèles sous-ajustés ont également tendance à montrer des erreurs importantes dans les courbes d’apprentissage, à renvoyer des indicateurs d’évaluation sous-optimaux et à présenter des schémas résiduels systématiques, ce qui indique une incapacité à apprendre efficacement les relations sous-jacentes dans les données.
En machine learning, le sous-ajustement est souvent dû à des modèles simplistes, à une mauvaise ingénierie des caractéristiques ou à une régularisation excessive qui limite trop la flexibilité du modèle. De même, un mauvais choix de caractéristiques, comme l’omission de termes d’interaction ou de caractéristiques polynomiales, peut empêcher le modèle de comprendre les relations qui se cachent dans les données. Un prétraitement inadéquat, un temps d’entraînement insuffisant ou un manque de données pour entraîner le modèle peuvent également contribuer au sous-ajustement.
Modèle de diagnostic médical
Un modèle de machine learning est entraîné à classer des images médicales selon qu’elles représentent des sujets « sains » ou « malades » sur un petit jeu de données. Le modèle mémorise les images d’entraînement avec une précision quasi parfaite, mais donne de mauvais résultats sur les nouvelles images, car il a assimilé le bruit ou les artefacts spécifiques des données d’entraînement au lieu des caractéristiques générales des maladies.
Prévision du cours des actions
Un modèle financier utilise un réseau neuronal complexe comportant de nombreux paramètres pour prévoir le cours des actions. Au lieu d’apprendre des tendances ou des schémas, il saisit les fluctuations aléatoires des données historiques, ce qui permet d’établir des prévisions d’entraînement très précises, mais de mauvaises performances lorsqu’il est testé sur les futurs cours boursiers.
Prévision de l’attrition client
Un modèle de rétention client comprend trop de caractéristiques spécifiques, telles que des données démographiques très détaillées, ce qui entraîne un surajustement sur les données d’entraînement. Il peine à se généraliser et à repérer les schémas dans différents groupes démographiques lorsqu’il est appliqué à une clientèle plus large.
Prévision des prix de l’immobilier
Un modèle de régression linéaire permet de prévoir les prix de l’immobilier en se basant uniquement sur la superficie. Le modèle ne tient pas compte d’autres caractéristiques importantes telles que l’emplacement, le nombre de chambres ou l’année de construction du bien immobilier, ce qui entraîne de mauvaises performances sur les données d’entraînement et de test.
Prévisions météorologiques
Un modèle utilise un petit ensemble de caractéristiques simples, telles que la température et l’humidité moyennes, pour prédire les précipitations. Il ne parvient pas à capturer des relations plus complexes, telles que les tendances saisonnières ou les interactions entre plusieurs facteurs atmosphériques, ce qui entraîne invariablement une mauvaise précision.
Reconnaissance d’images
Un arbre de décision peu profond est utilisé pour classer des images de chats et de chiens. En raison de sa simplicité, il ne parvient pas à différencier les deux espèces et donne de mauvais résultats sur les images d’entraînement et les nouvelles images inédites.
Les algorithmes de machine learning entraînent les modèles à reconnaître des schémas dans les données, ce qui permet aux ingénieurs de les utiliser pour prévoir des résultats ultérieurs à partir d’entrées inédites. Le réglage des hyperparamètres joue un rôle important dans l’équilibrage entre surajustement et sous-ajustement, il s’agit de permettre au modèle prédictif de se généraliser efficacement sur des données inédites.
En utilisant des hyperparamètres, les ingénieurs peuvent affiner le taux d’apprentissage, la force de régularisation, le nombre de couches dans un réseau neuronal ou la profondeur maximale d’un arbre de décision. Un réglage approprié peut empêcher un modèle d’être trop rigide ou trop adaptable.
Régularisation
La régularisation pour les modèles de régression, ou l’abandon dans les réseaux neuronaux, est une technique utilisée dans le machine learning qui consiste à décourager le modèle de s’appuyer trop fortement sur une seule caractéristique ou de s’ajuster sur le bruit dans les données d’apprentissage.
Les types de régularisation les plus courants incluent la régularisation L1, qui favorise la parcimonie en réduisant certains coefficients à zéro, et la régularisation L2, qui réduit la taille de tous les coefficients pour rendre le modèle plus simple et plus généralisable. La régularisation aide le modèle à se concentrer sur les schémas sous-jacents plutôt que de mémoriser les données.
Augmentation des données
L’augmentation des données est une autre stratégie efficace, en particulier dans les tâches telles que la vision par ordinateur, où l’expansion artificielle des données d’entraînement en retournant, en faisant pivoter ou en recadrant les images permet au modèle de mieux se généraliser. Le fait de simplifier le modèle en réduisant le nombre de paramètres ou de couches d’un réseau neuronal limite également sa capacité à mémoriser les détails des données d’entraînement.
Validation croisée K-fold
Les ingénieurs peuvent également utiliser des techniques telles que la validation croisée K-fold pour évaluer la capacité de généralisation du modèle. La validation croisée K-fold divise les données en sous-ensembles, s’entraîne sur certains d’entre eux et se teste sur les autres.
De même, les ingénieurs peuvent utiliser un ensemble d’exclusion, c’est-à-dire des informations de l’ensemble d’apprentissage à réserver comme données inédites pour disposer d’un autre moyen d’évaluer les performances de généralisation du modèle. La moyenne des résultats est ensuite calculée pour obtenir une note de performance globale.
Cadres d’évaluation
En plus de ces techniques, des cadres d’évaluation de modèle robustes sont essentiels pour garantir une bonne généralisation du modèle de machine learning. Parmi les techniques d’évaluation avancées figure la validation croisée imbriquée, qui est particulièrement utile pour le réglage des hyperparamètres. Dans la validation croisée imbriquée, une boucle externe divise les données en sous-ensembles d’entraînement et de test pour évaluer la capacité de généralisation du modèle.
Dans le même temps, une boucle interne règle les hyperparamètres des données d’entraînement afin de s’assurer que le processus de réglage ne surajuste pas le jeu de validation. Cette approche sépare l’optimisation des hyperparamètres de l’évaluation du modèle et fournit une estimation plus précise de la performance du modèle sur des données inédites.
Un autre cadre efficace combine des divisions entraînement-test avec un arrêt précoce pour contrôler la perte de validation pendant l’entraînement. En évaluant les performances du modèle sur un ensemble de validation dédié, les ingénieurs peuvent interrompre l’entraînement lorsque les performances de validation stagnent ou se dégradent, évitant ainsi un surajustement.
Les cadres d’évaluation doivent inclure un échantillonnage stratifié pour les problèmes de classification avec des jeux de données déséquilibrés afin de garantir que chaque division de données conserve la même distribution de classes que le jeu de données d’origine. Cela permet d’éviter le surajustement sur les classes majoritaires tout en fournissant une évaluation équitable des performances des classes minoritaires.
Méthodes d’ensemble
Les méthodes ensemblistes, telles que le bagging et le boosting, combinent plusieurs modèles pour atténuer leurs faiblesses individuelles et améliorer la généralisation globale. Par exemple, les forêts d’arbres de décision, une technique ensembliste populaire, réduit le surajustement en agrégeant les prédictions de plusieurs arbres de décision, permettant ainsi d’équilibrer le biais et la variance.
Modèles plus complexes
Pour résoudre le problème de sous-ajustement, les ingénieurs augmentent souvent la complexité du modèle afin qu’il capture mieux les schémas sous-jacents présents dans les données. Par exemple, passer d’une régression linéaire simple à une régression polynomiale peut s’avérer utile lorsque les caractéristiques de la relation et la variable cible sont non linéaires. Si les modèles plus complexes peuvent éviter le sous-ajustement, ils risquent toutefois le surajustement si la régularisation appropriée n’est pas appliquée.
Régularisation
La réduction des pénalités de régularisation peut également offrir une plus grande flexibilité au modèle, qui pourra s’ajuster sur les données sans trop de contraintes. Par exemple, les paramètres L1 et L2 sont des types de régularisation utilisés pour vérifier la complexité d’un modèle. L1 (Lasso) ajoute une pénalité pour encourager le modèle à sélectionner uniquement les caractéristiques les plus importantes. L2 (Ridge) permet d’orienter le modèle vers une sélection plus distribuée des caractéristiques.
Ingénierie des caractéristiques
L’ingénierie et la sélection des caractéristiques jouent un rôle dans la création ou la transformation des caractéristiques, comme l’ajout de termes d’interaction, de caractéristiques polynomiales ou l’encodage de variables nominales. Il s'agit de fournir au modèle des informations plus pertinentes.
Durée d’entraînement
En allongeant le temps d’entraînement du modèle par l’augmentation du nombre d’époques, on lui assure la possibilité d’apprendre correctement à partir des données. Une époque représente un passage complet dans le jeu de données d’entraînement et l’utilisation de plusieurs époques permet au modèle d’apprendre des schémas plus efficacement.
On utilise souvent plusieurs époques pour permettre au modèle d’apprendre plus efficacement les schémas dans les données. Par ailleurs, l’augmentation de la taille du jeu de données d’entraînement permet au modèle d’identifier des schémas plus diversifiés, réduisant le risque de simplification excessive et améliorant sa capacité de généralisation.
Qualité des données
De manière globale, les ingénieurs doivent évaluer minutieusement les données d’entraînement pour en vérifier l’exactitude, l’exhaustivité et la cohérence, en les recoupant avec des sources fiables pour corriger les éventuelles divergences. Des techniques comme la normalisation (mise à l’échelle des valeurs entre 0 et 1) ou la standardisation (mise à l’échelle sur une moyenne de 0 et un écart-type de 1) permettent de s’assurer que le modèle ne favorise pas certaines variables par rapport à d’autres en raison des différences d’échelle.
Avec le temps, les distributions des données d’entrée peuvent changer (un phénomène connu sous le nom de dérive des données), ce qui peut entraîner un sous-ajustement ou un surajustement des modèles sur les nouvelles données. Pour remédier à cela, une surveillance régulière et un réentraînement périodique sur des jeux de données à jour sont essentiels. La suppression des données aberrantes permet également d’éviter les résultats faussés et d’améliorer la robustesse du modèle.
Des outils tels que l’AutoML peuvent rationaliser encore davantage les processus en automatisant le réglage des hyperparamètres, la sélection des caractéristiques et la création des cadres d’évaluation de modèle, permettant aux ingénieurs de se concentrer sur des informations et des décisions de plus haut niveau.
Un modèle bien ajusté repose sur un équilibre optimal entre sous-ajustement et surajustement. Il s’agit d’un modèle qui capture avec précision les schémas sous-jacents dans les données sans être trop sensible au bruit ou aux fluctuations aléatoires.
La connaissance du domaine joue un rôle important dans la résolution des problèmes de sous-ajustement et de surajustement, car elle aide les ingénieurs à adapter le modèle aux caractéristiques spécifiques du problème à résoudre. Les jeux de données du monde réel contiennent souvent du bruit, des déséquilibres ou des incohérences.
Une logistique efficace, telle qu’un fractionnement des données et un prétraitement appropriés, permet d’atténuer les problèmes d’ajustement. En comprenant le contexte des données, les ingénieurs peuvent prendre des décisions éclairées en matière de prétraitement, de sélection des caractéristiques et de conception, afin d’obtenir un modèle bien entraîné. Voici quelques exemples :
Trouver le bon équilibre entre surajustement et sous-ajustement permet aux ingénieurs d’identifier la plage optimale où un modèle de machine learning passe d’une simplicité rigide à une généralisation significative, sans devenir trop complexe. Un modèle bien équilibré peut prédire l’attrition des clients selon différents groupes démographiques, classer efficacement les images médicales malgré les variations de qualité des données et prévoir les cours des actions en capturant les tendances du marché sans surajustement aux fluctuations aléatoires.
Une gestion efficace du compromis biais-variance permet d’obtenir des modèles qui apprennent les schémas dans les données avec précision tout en conservant la flexibilité nécessaire pour s’adapter aux données inédites. En parvenant à cet équilibre, les data scientists peuvent créer des solutions techniquement solides, qui auront un impact sur des applications concrètes.
Nous avons interrogé 2 000 entreprises à propos de leurs initiatives d’IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment progresser.
IBM Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.
Accédez à notre catalogue complet de plus de 100 cours en ligne en souscrivant aujourd’hui un abonnement individuel ou multiutilisateur afin d’élargir vos compétences dans certains de nos produits à un prix avantageux.
Dirigé par des leaders d’opinion IBM, le programme a pour but d’aider les chefs d’entreprise à acquérir les connaissances nécessaires qui leur permettront d’orienter leurs investissements IA vers les opportunités les plus prometteuses.
Vous voulez obtenir un meilleur retour sur vos investissements dans l’IA ? Découvrez comment la mise à l’échelle de l’IA générative dans des domaines clés favorise le changement en aidant vos meilleurs éléments à créer et à fournir de nouvelles solutions innovantes.
Découvrez comment intégrer en toute confiance l’IA générative et le machine learning dans votre entreprise.
Explorez les trois éléments clés d’une stratégie d’IA réussie : créer un avantage concurrentiel, étendre l’IA à l’ensemble de l’entreprise et faire progresser l’IA digne de confiance.