Sélection de modèles dans le machine learning

Auteurs

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Qu’est-ce que la sélection de modèles dans le machine learning ?

La sélection de modèles dans le domaine du machine learning consiste à choisir le modèle de machine learning (modèle ML) le plus approprié pour la tâche sélectionnée. Le modèle sélectionné est généralement celui qui généralise le mieux à des données invisibles tout en répondant le mieux aux indicateurs de performance pertinents.

Le processus de sélection des modèles de ML consiste à comparer différents modèles à partir d’un ensemble de candidats. Les spécialistes du machine learning évaluent les performances de chaque modèle de ML, puis choisissent le meilleur en fonction d’un ensemble d’indicateurs d’évaluation.

Au cœur de la plupart des tâches de machine learning se trouve le défi qui consiste à reconnaître des modèles dans les données, puis à faire des prédictions sur de nouvelles données en fonction de ces modèles. Le choix du modèle prédictif le plus performant permet d’obtenir des prévisions plus précises et de rendre l’application de machine learning plus fiable.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Pourquoi la sélection de modèles est-elle importante ?

La sélection du modèle d’IA est importante, car c’est elle qui détermine les performances du système de machine learning. Les différents modèles ont chacun leurs forces et leurs faiblesses, et choisir le bon modèle affecte directement la réussite du projet. La sélection des modèles est une première étape dans le pipeline de machine learning, qui permet de créer et de déployer des modèles de ML.

Certaines tâches nécessitent des modèles complexes capables de capturer les détails d’un jeu de données, mais qui peuvent avoir du mal à être généralisés à de nouvelles données. Ils peuvent également s’accompagner de demandes de calcul et de ressources plus élevées. D’autres tâches sont plus adaptées aux modèles plus petits et simples conçus dans un but spécifique.

Choisir le modèle adapté à la tâche vous permettra de :

  • Optimiser l’efficacité : le modèle le plus performant parmi tous les modèles candidats trouvera un équilibre entre performance et la généralisation, d’une part, et la complexité et l’utilisation des ressources, d’autre part.
     

  • Maximiser les performances du modèle : la force d’un outil dépend de la tâche à laquelle il est appliqué. Les tests et l’évaluation des modèles candidats révèlent le modèle le plus performant pour le travail, donnant à l’application d’IA ses meilleures chances de viabilité dans le monde réel.
     

  • Favoriser la réussite des projets : la complexité des modèles affecte directement les délais d’entraînement et les besoins en ressources, ainsi que les résultats. Les modèles prédictifs vont du plus simple au plus complexe. Les modèles simples sont plus rapides et moins coûteux à entraîner, tandis que les modèles complexes nécessitent plus de données, d’argent et de temps.

AI Academy

Devenir un expert en IA

Obtenez les connaissances nécessaires pour privilégier les investissements dans l’IA qui favorisent la croissance commerciale. Lancez-vous dès aujourd’hui avec notre AI Academy gratuite et menez l’avenir de l’IA au sein de votre organisation.

Le processus de sélection d’un modèle

Le processus de sélection est conçu pour produire un modèle personnalisé pour le cas d’utilisation cible. Les spécialistes du machine learning décrivent le problème, choisissent parmi les types de modèles susceptibles de fonctionner bien, puis entraînent et testent les modèles candidats afin d’identifier le meilleur choix global.

Les étapes du processus de sélection d’un modèle sont généralement les suivantes :

  • Créer le défi du machine learning
     

  • Choisir des modèles candidats
     

  • Déterminer les indicateurs d’évaluation des modèles
     

  • Former et évaluer le modèle

Créer le défi du machine learning

Selon la nature de la tâche, certains algorithmes de machine learning sont de meilleurs choix que d’autres. Les défis de ML relèvent généralement de l’une de ces trois catégories :

  • Les problèmes de régression demandent aux modèles d’identifier les relations entre la fonctionnalité de l’entrée et une variable de résultats continus sélectionnée, telle que le prix. Parmi les exemples de problèmes de régression, on peut citer la prévision des salaires de référence ou la probabilité de catastrophes naturelles en fonction des conditions météorologiques. Les prédictions du modèle sont basées sur des fonctionnalités d’entrée pertinentes, telles que la période de l’année ou des informations démographiques. La prévision des séries temporelles est un type de défi de régression qui permet de prédire la valeur d’une variable au fil du temps. Les modèles de séries temporelles sont une classe de modèles efficace en matière de calcul, spécialisé dans ce défi.
     

  • Les problèmes de classification classent les points de données en catégories en fonction d’un ensemble d’entrées de variables. Parmi les exemples de problèmes de classification, on peut citer la reconnaissance d’objets et les filtres anti-spam de messagerie électronique. L’ensemble d’entraînement peut inclure des points de données avec une production étiquetée afin que le modèle puisse apprendre l’association entre l’entrée et la sortie. Cette pratique est connue sous le nom d’apprentissage supervisé.
     

  •  Les problèmes de partitionnement regroupent les points de données en fonction de similitudes. Le partitionnement n’est pas tout à fait la même chose que la classification dans la mesure où l’objectif est de découvrir des groupes au sein des points de données, plutôt que de trier les points de données dans des catégories connues. Les modèles doivent discerner eux-mêmes les similitudes dans un environnement d’apprentissage non supervisé . La segmentation du marché est un exemple de défi de partitionnement.

Déterminer des indicateurs d’évaluation des modèles

Le processus de test compare les modèles candidats et évalue leurs performances par rapport à un ensemble d’indicateurs d’évaluation présélectionnés. Bien qu’il existe de nombreux indicateurs, certains sont plus efficaces que d’autres pour certains types de défis liés au ML.

Les indicateurs d’évaluation des modèles pour la classification incluent :

  • Précision : le pourcentage de prédictions correctes par rapport au total des prédictions faites.
     

  • Précision : le ratio entre les véritables prédictions positives et toutes les prédictions positives, qui mesure la précision des prédictions positives.
     

  • Rappel : le rapport entre les prédictions positives réelles et toutes les instances positives réelles, qui mesure la capacité du modèle à identifier les instances positives.
     

  • Score F1 : combine la précision et le rappel pour obtenir un aperçu global de la capacité du modèle à reconnaître et à classer correctement les instances positives.
     

  • Matrice de confusion : résume les performances d’un modèle de classification en affichant les vrais positifs, les faux positifs, les vrais négatifs et les faux négatifs dans un tableau.
     

  • AUC-ROC : graphique représentant les taux de vrais et de faux positifs sous la forme d’une courbe ROC (receiver operating characteristic). L’aire sous la courbe (AUC) indique la performance du modèle.

Les indicateurs d’évaluation de la régression comprennent :

  • Erreur quadratique moyenne (EQM) : moyenne de la différence entre les carrés des différences entre les valeurs prédites et les valeurs réelles. Le MSE est très sensible aux données aberrantes et pénalise sévèrement les erreurs importantes.
     

  • Erreur quadratique moyenne (RMSE) : racine carrée de l’erreur quadratique moyenne, affichant le taux d’erreur dans les mêmes unités que la variable et augmentant l’interprétabilité de l’indicateur. MSE affiche la même erreur en unités au carré.
     

  • Erreur absolue moyenne (MAE) : la moyenne des différences entre les valeurs réelles et les valeurs pratiquées pour la variable cible. L’EAM est moins sensible que l’EEM.
     

  • Pourcentage d’erreur absolu moyen (MAPE) : transmet l’erreur absolue moyenne en pourcentage plutôt qu’en unités de la variable prédite, ce qui facilite la comparaison des modèles.
     

  • R-squared : correspond à une mesure de référence des performances du modèle comprise entre 0 et 1. Toutefois, la valeur du carré r peut être artificiellement gonflée par l’ajout d’une fonctionnalité supplémentaire.
     

  • Carré r ajusté : reflète la contribution des fonctionnalités qui améliorent les performances du modèle tout en ignorant les fonctionnalités non pertinentes.

Former et évaluer le modèle

Les data scientists se préparent à l'entraînement et à l’évaluation des modèles en divisant les données disponibles en plusieurs ensembles. Le jeu de données d’entraînement est utilisé pour l’entraînement des modèles, au cours duquel les modèles candidats apprennent à reconnaître les modèles et les relations dans les points de données. Ensuite, la performance du modèle est vérifiée avec un autre jeu de données.

La forme de test la plus simple et la plus rapide est la répartition entraînement-test. Les data scientists divisent le jeu de données en deux parties, une pour l’entraînement et une pour les tests. Le modèle n’est exposé à la fraction de test qu’après l’entraînement : l’ensemble de tests sert de référence pour les nouvelles données inédites que le modèle traitera dans le monde réel.

Techniques de sélection des modèles

Les créateurs de modèles ont accès à un large éventail de techniques de sélection de modèles. Certains concernent la configuration initiale et l’architecture du modèle, influençant à leur tour son comportement. D’autres fournissent une évaluation plus nuancée et plus rigoureuse du modèle ou prédisent comment les modèles se comporteront sur un jeu de données spécifique.

Les techniques de sélection de modèles comprennent :

  • Réglage des hyperparamètres

  • Validation croisée

  • Techniques d'amorçage

  • Critères d’information

Réglage des hyperparamètres

Le réglage des hyperparamètres consiste à optimiser les hyperparamètres d’un modèle, qui sont des paramètres externes qui déterminent la structure et le comportement du modèle. Les modèles ont également des paramètres internes qui sont mis à jour en temps réel pendant l'entraînement. Les paramètres internes régissent la façon dont un modèle traite les données. Les modèles complexes, tels que ceux utilisés pour IA générative, peuvent compter plus de 1 000 milliards de paramètres.

Le réglage des hyperparamètres n’est pas la même chose que le réglage fin d’un modèle, c’est-à-dire lorsqu’un modèle est entraîné ou ajusté après l’étape d’entraînement initiale (connue sous le nom de pré-entraînement).

Voici quelques techniques notables de réglage des hyperparamètres :

  • Recherche en grille : toutes les combinaisons possibles d’hyperparamètres sont formées, testées et évaluées. Une recherche de grille exhaustive, basée sur la force brute, est susceptible de révéler la meilleure combinaison d’hyperparamètres. Cependant, cela prend du temps et nécessite beaucoup de ressources.
     

  • Recherche aléatoire : les échantillons de combinaisons d’hyperparamètres sont sélectionnés au hasard, chaque échantillon du sous-ensemble étant utilisé pour entraîner et tester un modèle. La recherche aléatoire est une alternative à la recherche en grille lorsque cette dernière n’est pas réalisable.
     

  • Optimisation bayésienne : un modèle probabiliste est utilisé pour prédire quelles combinaisons d’hyperparamètres sont les plus susceptibles d’aboutir à la performance du modèle. L’optimisation bayésienne est une méthode itérative qui s’améliore à chaque cycle d'entraînement et de test, et qui fonctionne bien avec de grands espaces d’hyperparamètres.

Validation croisée

Dans le système de rééchantillonnage à validation croisée K-fold, les données sont divisées en ensembles k , ou folds. Les données d’entraînement comprennent des sous-ensembles k-1, et le modèle est validé sur l’ensemble restant. Le processus est itératif, de sorte que chaque sous-ensemble sert d’ensemble de validation. Les points de données sont échantillonnés sans être remplacés, ce qui signifie que chaque point de données apparaît une fois par itération.

La validation croisée K-fold fournit une vue d’ensemble plus holistique de l’adresse performance d’un modèle qu’une seule division du test d’entraînement.

Techniques d’amorçage

L’amorçage est une technique de rééchantillonnage similaire à la validation croisée, sauf que les points de données sont échantillonnés avec remplacement. Cela signifie que les points de données échantillonnés peuvent apparaître dans plusieurs folds.

Critères d’information

Les critères d’information comparent le degré de complexité du modèle avec ses chances de surajustement ou de sous-ajustement du jeu de données. Le surajustement signifie que le modèle s’adapte trop étroitement à l’ensemble d’entraînement et ne peut pas généraliser à de nouvelles données. Le sous-ajustement est l’inverse, c’est-à-dire qu’un modèle n’est pas suffisamment complexe pour capturer les relations entre les points de données.

Le critère d’information d’Akaike (AIC) et le critère d’information bayésien (BIC) incitent tous deux à adopter le modèle le moins complexe possible, capable de traiter correctement le jeu de données.

Facteurs affectant la sélection du modèle

La performance d’un modèle est loin d’être le seul déterminant de ce qui en fait le « meilleur » modèle. D’autres facteurs peuvent être tout aussi, voire plus, pertinents pour la décision.

  • Complexité des données : plus un jeu de données est complexe, plus le modèle nécessaire pour le traiter est complexe. Mais l’application d’un modèle trop complexe peut conduire à un surajustement. Et un modèle trop simple peut ne pas capturer de manière adéquate les schémas dans les données. Le modèle approprié traitera les données de manière compétente et efficace, tout en évitant le surajustement.

  • Qualité des données : le prétraitement des données et la sélection de fonctionnalité sont deux processus de science des données qui préparent les données pour les applications de machine learning. Les données aberrantes, les données manquantes et autres bloqueurs affectent certains modèles plus que d’autres, mais ils peuvent être surmontés grâce aux données synthétiques, à la régularisation et à d’autres contre-mesures.

  • Interprétabilité : l’interprétabilité ou l’explicabilité est la mesure dans laquelle le fonctionnement d’un modèle peut être compris par des observateurs humains. Un modèle de type « boîte noire » n’a que peu ou pas d’interprétabilité : son workflow de prise de décision reste en grande partie un mystère. Avec des applications commerciales sensibles telles que l’automatisation intelligente et prise de décision alimentée par l’IA, l’interprétabilité est une priorité pour les entreprises qui respectent les directives d’utilisation responsable de l’IA. Certains secteurs, tels que la santé et la finance, disposent de réglementations étendues en matière de confidentialité des données et d’autres réglementations, soulignant davantage la nécessité d’une interprétabilité claire.

  • Efficacité et utilisation des ressources : des limitations pratiques telles que la disponibilité des ordinateurs et les finances peuvent exclure complètement certains modèles. Les réseaux de neurones profonds nécessitent des quantités massives de données et d’argent pour être entraînés et exploités. Bien que ces modèles soient passionnants, ils ne conviennent pas à tous les emplois. L’AIC et le BIC peuvent aider les responsables de projets de ML à prendre des décisions éclairées et à réduire la complexité des modèles.

Sélection de LLM

Les LLM sont les modèles d’intelligence artificielle au cœur de nombreuses applications métier, telles que les agents IA, la réponse aux questions alimentée par la RAG ou les chatbots de service client avec génération automatisée de texte. Le traitement automatique du langage naturel (NLP) consiste à utiliser des algorithmes de machine learning pour comprendre et générer du langage humain, et les LLM sont un type spécifique de modèle de NLP. 

Parmi les LLM les plus notables, on trouve la famille GPT d’OpenAI, comme GPT-4o et GPT-3.5, certains des modèles à l’origine de ChatGPT, ainsi que Claude d’Anthropic, Gemini de Google et Llama 3 de Meta. Tous les LLM sont capables de gérer des tâches complexes, mais les besoins spécifiques d’un projet machine learning peuvent aider à déterminer le LLM qui convient le mieux.

Le choix du bon LLM dépend de plusieurs facteurs, notamment :

  • Cas d’utilisation spécifique : le machine learning affecte directement le processus de sélection LLM. Un LLM peut être plus adapté à la compréhension et à la synthèse de documents longs, tandis qu’un autre peut être plus facile à affiner pour des utilisations spécifiques à un domaine.

  • Performance : tout comme les autres modèles, les LLM peuvent être comparés les uns aux autres pour évaluer les performances. Les benchmarks de LLM comprennent des indicateurs pour le raisonnement, le codage, les mathématiques, la latence, la compréhension et les connaissances générales. Évaluer les besoins d’un projet par rapport aux performances de référence peut aider à déterminer le meilleur LLM à choisir pour des résultats de haute qualité.

  • Source ouverte ou fermée : les modèles open source permettent aux observateurs de surveiller comment le modèle prend ses décisions. Les différents LLM peuvent être sujets aux biais et aux hallucinations de différentes manières : lorsqu’ils génèrent des prédictions qui ne reflètent pas les résultats réels. Lorsque la modération du contenu et la prévention des biais sont primordiales, limiter les choix aux fournisseurs open source peut aider à façonner le processus de sélection du LLM.

  • Utilisation et coût des ressources : les LLM sont des modèles gourmands en ressources. De nombreux LLM sont alimentés par des centres de données hyperscale remplis de centaines de milliers de processeur graphique (GPU) ou plus. Les fournisseurs de LLM facturent également différemment les connexions API à leurs modèles. L’évolutivité d’un modèle et de son système de tarification affecte directement la portée du projet.
Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct