Modèles plus complexes

Pour résoudre le problème de sous-ajustement, les ingénieurs augmentent souvent la complexité du modèle afin qu’il capture mieux les schémas sous-jacents présents dans les données. Par exemple, passer d’une régression linéaire simple à une régression polynomiale peut s’avérer utile lorsque les caractéristiques de la relation et la variable cible sont non linéaires. Si les modèles plus complexes peuvent éviter le sous-ajustement, ils risquent toutefois le surajustement si la régularisation appropriée n’est pas appliquée.

Régularisation

La réduction des pénalités de régularisation peut également offrir une plus grande flexibilité au modèle, qui pourra s’ajuster sur les données sans trop de contraintes. Par exemple, les paramètres L1 et L2 sont des types de régularisation utilisés pour vérifier la complexité d’un modèle. L1 (Lasso) ajoute une pénalité pour encourager le modèle à sélectionner uniquement les caractéristiques les plus importantes. L2 (Ridge) permet d’orienter le modèle vers une sélection plus distribuée des caractéristiques.

Ingénierie des caractéristiques

L’ingénierie et la sélection des caractéristiques jouent un rôle dans la création ou la transformation des caractéristiques, comme l’ajout de termes d’interaction, de caractéristiques polynomiales ou l’encodage de variables nominales. Il s'agit de fournir au modèle des informations plus pertinentes.

Durée d’entraînement

En allongeant le temps d’entraînement du modèle par l’augmentation du nombre d’époques, on lui assure la possibilité d’apprendre correctement à partir des données. Une époque représente un passage complet dans le jeu de données d’entraînement et l’utilisation de plusieurs époques permet au modèle d’apprendre des schémas plus efficacement.

On utilise souvent plusieurs époques pour permettre au modèle d’apprendre plus efficacement les schémas dans les données. Par ailleurs, l’augmentation de la taille du jeu de données d’entraînement permet au modèle d’identifier des schémas plus diversifiés, réduisant le risque de simplification excessive et améliorant sa capacité de généralisation.

Qualité des données

De manière globale, les ingénieurs doivent évaluer minutieusement les données d’entraînement pour en vérifier l’exactitude, l’exhaustivité et la cohérence, en les recoupant avec des sources fiables pour corriger les éventuelles divergences. Des techniques comme la normalisation (mise à l’échelle des valeurs entre 0 et 1) ou la standardisation (mise à l’échelle sur une moyenne de 0 et un écart-type de 1) permettent de s’assurer que le modèle ne favorise pas certaines variables par rapport à d’autres en raison des différences d’échelle.

Avec le temps, les distributions des données d’entrée peuvent changer (un phénomène connu sous le nom de dérive des données), ce qui peut entraîner un sous-ajustement ou un surajustement des modèles sur les nouvelles données. Pour remédier à cela, une surveillance régulière et un réentraînement périodique sur des jeux de données à jour sont essentiels. La suppression des données aberrantes permet également d’éviter les résultats faussés et d’améliorer la robustesse du modèle.

Des outils tels que l’AutoML peuvent rationaliser encore davantage les processus en automatisant le réglage des hyperparamètres, la sélection des caractéristiques et la création des cadres d’évaluation de modèle, permettant aux ingénieurs de se concentrer sur des informations et des décisions de plus haut niveau.