Qu’est-ce qu’un modèle pré-entraîné ?

Enseignant expliquant un modèle à un groupe d’élèves

Auteur

Cole Stryker

Staff Editor, AI Models

IBM Think

Un modèle préentraîné est un modèle d’apprentissage automatique qui a été préalablement entraîné sur un grand jeu de données pour une tâche spécifique (généralement à usage général) et qui peut ensuite être réutilisé ou affiné pour une tâche différente, mais connexe. Les modèles préentraînés permettent aux équipes de développement d’économiser du temps, des données et des ressources informatiques par rapport à l'entraînement d’un modèle à partir de zéro.

Nécessitant des ressources, une infrastructure et une expertise importantes, les modèles pré-entraînés sont généralement créés par une combinaison de grandes entreprises technologiques, d’établissements universitaires, d’organisations à but non lucratif et de communautés open source. Dans des domaines tels que l’apprentissage profond, où les modèles nécessitent des millions de paramètres, les modèles pré-entraînés fournissent un point de départ qui permet aux professionnels d’éviter de tout faire eux-mêmes, chaque fois qu’ils créent une application de machine learning.

Qu’est-ce que l’entraînement d’un modèle ?

L’entraînement de modèle « apprend » à un modèle de machine learning à optimiser la performance sur un jeu de données d’entraînement d’exemples de tâches pertinents pour des cas d’utilisation. Ces données d’entraînement doivent ressembler aux problèmes du monde réel que le modèle sera chargé de résoudre, afin que le modèle puisse apprendre les schémas et les relations des données afin de faire des prédictions précises sur de nouvelles données.

Ce processus d’apprentissage implique d’ajuster les paramètres d’un modèle, les poids et les biais dans les fonctions mathématiques qui composent les algorithmes de machine learning sous-jacents. Ces ajustements sont destinés à améliorer la précision du résultat.

Mathématiquement parlant, l’objectif de ce processus est de minimiser une fonction de perte qui quantifie l’erreur des productions du modèle. Lorsque le résultat tombe en dessous d’un certain seuil, le modèle est considéré comme « entraîné ». Dans l’apprentissage par renforcement, l’objectif est inversé : les paramètres du modèle sont optimisés pour maximiser une fonction de récompense plutôt que de minimiser une fonction de perte.

L’entraînement d’un modèle implique un cycle de collecte et de prétraitement des données, l’introduction de ces données d’entraînement dans le modèle, la mesure des pertes, l’optimisation des paramètres et le test des performances sur les données de validation. Ce workflow est répété jusqu’à ce que des résultats satisfaisants soient obtenus. Un entraînement peut également impliquer des hyperparamètres, c’est-à-dire des choix structuraux qui influencent le processus d’apprentissage, mais qui ne peuvent pas eux-mêmes « être appris », lors d’un processus appelé réglage des hyperparamètres.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

La valeur d’un modèle pré-entraîné

Le principal avantage d’un modèle pré-entraîné est qu’au lieu de partir de zéro, les développeurs peuvent utiliser des modèles qui ont déjà appris des fonctionnalités générales, telles que la structure du langage ou les formes visuelles, et les affiner sur des jeux de données plus petits et spécifiques à un domaine. Le réglage fin fait partie des types d’apprentissage par transfert, un terme générique désignant les techniques qui adaptent les modèles préentraînés à de nouvelles utilisations.

L’utilisation d’un modèle pré-entraîné accélère le développement et permet aux petites entités, comme les startups, qui n’ont pas accès à suffisamment de calcul, de données ou d’infrastructure, d’expérimenter des modèles de pointe. C’est comme si vous achetiez un vêtement dans le commerce et que vous le fassiez tailler sur mesure pour l’adapter à votre morphologie.

L’utilisation de modèles pré-entraînés signifie que les praticiens ont accès à des architectures qui ont déjà été validées, de référence et testées dans des scénarios réels. Cela permet de réduire les risques et de garantir la fiabilité. Les modèles pré-entraînés les plus répandus sont accompagnés d’une documentation, de tutoriels et de codes qui peuvent être utilisés pour adapter les modèles à des projets particuliers.

De grands modèles de langage (LLM) pré-entraînés sont utilisés dans d’innombrables organisations pour faire progresser le traitement automatique du langage naturel (NLP) dans les cas d’utilisation tels que la réponse aux questions, l’analyse des sentiments, la segmentation sémantique, l’IA générative, etc. Cette longue liste de LLM comprend bon nombre des options les plus populaires. D’autres modèles d’IA sont spécialisés dans la vision par ordinateur, comme les modèles de détection d’objets et de classification des images.

Une des ressources les plus anciennes et les plus influentes pour les modèles basés sur l’image est ImageNet, un jeu de données massives qui est devenu le benchmark de référence du secteur pour la vision par ordinateur. Des architectures telles que ResNet et Inception, entraînées sur ImageNet, sont fondamentales pour les workflows de vision par ordinateur. Ces modèles excellent dans l’extraction de fonctionnalités, en identifiant les bords, les textures et les formes qui sont utiles pour classer de nouvelles images.

AI Academy

Choisissez le modèle IA adapté à votre cas d’utilisation

Quand il s’agit de modèles IA, voir grand n’est pas toujours la meilleure idée. Découvrez comment trouver la solution adaptée aux besoins de votre entreprise. Téléchargez ensuite notre guide pour vous aider à passer à l’action.

Où trouver des modèles pré-entraînés

Il existe un certain nombre de hubs et de bibliothèques de modèles où les entreprises hébergent des modèles pré-entraînés. En voici quelques exemples :

  • PyTorch Hub est un référentiel de modèles pré-entraînés conçu pour faciliter la reproductibilité de la recherche et simplifier l’utilisation de modèles pré-entraînés au sein de l’écosystème PyTorch de Python.

  • Moyeu TensorFlow est un référentiel de modèles entraînés prêts à être affinés et déployables n’importe où. Les modèles BERT et le R-CNN(réseau de neurones à convolution) plus rapide peuvent être réutilisés avec seulement quelques lignes de code.

  • Hugging Face Models se concentre sur les modèles NLP et de vision, donnant accès à des modèles de pointe tels que BERT, GPT, etc., ainsi qu’à des outils et des tutoriels pour l’inférence et l'entraînement. La famille de modèles pré-entraînés IBM Granite se trouve sur Hugging Face. Ces modèles sont ouverts, performants et fiables, et optimisés pour les cas d’utilisation métier. Granite comprend des modèles pour le langage, la vision, la parole et les séries temporelles, entre autres applications.

  • Kaggle est une plateforme de science des données et de machine learning, offrant un espace pour les concours, les jeux de données et une communauté pour la collaboration et l’apprentissage.

  • GitHub est une plateforme de développement propriétaire qui permet aux développeurs de créer, de stocker, de gérer et de partager leur code. De nombreux chercheurs et entreprises publient des modèles pré-entraînés dans des référentiels contenant du code, des poids et de la documentation.

  • Le catalogue NVIDIA NGC propose des modèles pré-entraînés optimisés pour l’accélération du processeur graphique, notamment pour la vision par ordinateur, l’imagerie médicale et l’IA vocale.

  • Les modèles OpenAI fournit ses modèles transformateurs génératifs pré-entraînés, également connus sous le nom de GPT, tels que ChatGPT chatbot, Codex et DALL-E, via API. L’accès est basé sur le cloud plutôt que de téléchargement direct, via des plateformes telles que l’API OpenAI ou Azure OpenAI.

  • KerasHub est une bibliothèque de modèles pré-entraînés qui se veut simple, flexible et rapide, et qui fournit des mises en œuvre Keras 3 d’architectures populaires.

Solutions connexes
Modèles de fondation

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille IBM watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai Découvrir les modèles d’IA IBM Granite