Que sont les modèles de fondation ?

Que sont les modèles de fondation ?

Les modèles de fondation sont des modèles d’intelligence artificielle (IA) entraînés sur un vaste et immense jeu de données et peuvent accomplir un large éventail de tâches générales. Ils servent de base ou d’éléments fonctionnels pour la conception d’applications plus spécialisées.

Leur flexibilité et leur taille massive les distinguent des modèles de machine learning traditionnels, qui sont entraînés sur des jeux de données plus petits pour accomplir des tâches spécifiques, telles que la détection d’objets ou la prévision de tendances. Les modèles de fondation, quant à eux, utilisent l’apprentissage par transfert pour appliquer les connaissances acquises d’une tâche à une autre. Ils sont ainsi adaptés à des domaines plus étendus, notamment la vision par ordinateur, le traitement automatique du langage naturel (NLP) et la reconnaissance vocale.

Les chercheurs du Centre de recherche sur les modèles de fondation de l’Institute for Human-Centered Artificial Intelligence de l’université de Stanford ont inventé le terme « modèles de fondation » dans un article de 2021. Ils caractérisent ces modèles comme un « changement de paradigme » et décrivent le raisonnement derrière leur dénomination : « [Un] modèle de fondation est en lui-même incomplet, mais il sert de base commune à partir de laquelle de nombreux modèles spécifiques à une tâche sont construits via l’adaptation. Nous avons également choisi le terme fondation pour souligner l’importance de la stabilité architecturale, de la sûreté et de la sécurité. En effet, des fondations mal construites peuvent être catastrophiques, et des fondations bien exécutées sont un socle fiable pour des applications futures. »1

Comment fonctionnent les modèles de fondation ?

La création d’un modèle de fondation implique souvent une série d’étapes semblable à celle d’un modèle de machine learning conventionnel :

  1. Collecte des données
  2. Choix de la modalité
  3. Définir l’architecture du modèle
  4. Formation
  5. Evaluation

1. Collecte de données

La première étape consiste à rassembler un énorme corpus de données provenant de diverses sources. Ce vaste spectre de données non étiquetées et de données non structurées permet aux modèles de fondation d’inférer des schémas, de reconnaître des relations, de discerner le contexte et de généraliser leurs connaissances.

2. Choix de la modalité

La modalité fait référence au type de données qu’un modèle peut traiter, y compris l’audio, les images, le code logiciel, le texte et la vidéo. Les modèles de fondation peuvent être unimodaux ou multimodaux. Les modèles unimodaux sont conçus pour gérer un seul type de données, tels que la réception d’entrées textuelles et la génération de sorties textuelles. Les modèles multimodaux, eux, peuvent combiner des informations provenant de plusieurs modalités, comme l’utilisation d’un prompt textuel et la création d’une image ou la production de transcriptions écrites à partir d’un enregistrement vocal.

3. Définition de l’architecture du modèle

De nombreux modèles de fondation s’appuient sur une architecture d’apprentissage profond, qui utilise des réseaux neuronaux multicouches pour imiter le processus de prise de décision du cerveau humain.

Un type de modèle d’apprentissage profond connu sous le nom de modèle de transformeur s’est révélé une architecture de choix pour les modèles de fondation, en particulier ceux pour le NLP comme les modèles de transformeur génératif préentraîné (GPT). Voici un bref aperçu de l’architecture transformatrice :

  • Les encodeurs transforment les séquences d’entrée en représentations numériques appelées plongements qui capturent la sémantique et la position des tokens dans la séquence d’entrée.

  • Un mécanisme d’auto-attention permet aux transformeurs de « concentrer leur attention » sur les jetons les plus importants de la séquence d’entrée, quelle que soit leur position.

  • Les décodeurs utilisent ce mécanisme d’auto-attention et les plongements des encodeurs pour générer la séquence de sortie la plus statistiquement probable.

Les modèles de diffusion sont une autre architecture mise en œuvre dans les modèles de fondation. Les réseaux de neurones basés sur la diffusion « diffusent » progressivement les données d’entraînement avec un bruit aléatoire, puis apprennent à inverser ce processus de diffusion pour reconstruire les données d’origine. Les modèles de diffusion sont principalement utilisés dans les modèles de fondation image-texte tels que Imagen de Google, DALL-E d’OpenIA (dès DALL-E 2) et Stable Diffusion de Stability IA.

4. Formation

L’entraînement implique généralement un apprentissage auto-supervisé, dans lequel les modèles de fondation apprennent des corrélations inhérentes dans les données non étiquetées. Ainsi, l’entraînement se fait sur plusieurs itérations, les poids du modèle étant ajustés pour minimiser les erreurs de prédiction et les hyperparamètres étant réglés pour trouver les variables de configuration optimales pour l’entraînement. Des méthodes de régularisation peuvent également être appliquées pour corriger le surajustement (lorsqu’un modèle s’adapte trop, voire exactement, à ses données d’entraînement) et pour améliorer la capacité de généralisation d’un modèle de fondation.

5. Évaluation

Les performances d’un modèle de fondation peuvent être validées à l’aide de critères de référence standardisés. Les résultats de ces évaluations permettent d’optimiser les améliorations ou les performances.

Adapter les modèles de fondation

Développer un modèle de fondation à partir de zéro peut s’avérer coûteux, gourmand en ressources informatiques et chronophage. C’est pourquoi les entreprises peuvent envisager d’adapter les modèles de fondation existants à leurs besoins spécifiques. Ces modèles sont accessibles via une interface de programmation d’application (API) ou une copie locale du modèle.

Voici deux approches courantes en matière d’adaptation :

Réglage fin

Lors du réglage fin, un modèle de fondation préentraîné adapte ses connaissances générales à une tâche particulière. Cette approche nécessite un entraînement supplémentaire en utilisant l’apprentissage supervisé sur un jeu de données plus petit, spécifique à un domaine ou à une tâche, qui comprend des exemples étiquetés. Les paramètres du modèle sont mis à jour pour optimiser ses performances sur la tâche.

Le réglage fin modifie les paramètres d’un modèle, c’est pourquoi il peut affecter la performance du modèle dans d’autres tâches. La création d’un jeu de données étiquetées est également un processus fastidieux.

Création de prompts

Cette méthode consiste à fournir un prompt pour adapter un modèle de fondation à une tâche donnée. Le prompt se présente sous la forme d’instructions relatives à une tâche ou d’exemples pertinents qui guident un modèle, lui permettant de saisir du contexte et de générer une sortie plausible. Cette capacité est connue sous le nom d’apprentissage contextuel.

Bien que la rédaction de prompts ne nécessite pas d’entraîner un modèle ou de modifier ses paramètres, plusieurs essais sont possibles pour obtenir le prompt le plus adapté qui conditionne le modèle pour comprendre le contexte et formuler des prédictions ajustées.

Cas d’utilisation des modèles de fondation

L’adaptabilité et la généralité des modèles de fondation permettent de les mettre en œuvre pour diverses applications du monde réel : 

  • Vision par ordinateur

  • Traitement automatique du langage naturel

  • Soins de santé

  • Robotique

  • Génération de code logiciel

Vision par ordinateur

Les modèles de fondation peuvent être utilisés pour générer et classer des images, ainsi que pour détecter, identifier et décrire des objets. DALL-E, Imagen et Stable Diffusion sont des exemples de modèles de fondation image-texte.

Traitement automatique du langage naturel

Les grands modèles de langage (LLM) sont une classe de modèles de fondation qui excellent dans le NLP et la compréhension du langage naturel (NLU). Ils sont capables de répondre aux questions, synthétiser du texte, transcrire, traduire et sous-titrer des vidéos.

Voici quelques modèles de fondation populaires dans le domaine du NLP :

  • BERT (Bidirectional Encoder Representations from Transformers) est l’un des premiers modèles de fondation de ce type à avoir été développés. Publié par Google en 2018, ce système d’IA open source a été entraîné uniquement sur un corpus de texte brut.2

  • BLOOM est un modèle de langage multilingue en accès libre, entraîné sur 46 langues. Il découle de la collaboration entre Hugging Face et BigScience, une communauté de chercheurs en IA.3

  • Claude est la famille de modèles de fondation d’Anthropic dotés de capacités avancées de raisonnement et de traitement multilingue.

  • GPT, le modèle de fondation d’OpenAI, est l’épine dorsale de ChatGPT, le chatbot d’IA générative de l’entreprise. GPT-3.5 alimente la version gratuite de ChatGPT, tandis que GPT-4 est à la source de la version premium. La série GPT-4 est également le modèle d’IA générative qui prend en charge l’assistant d’IA Copilot de Microsoft.

  • Granite est la série phare d’IBM pour les modèles de fondation LLM basés sur l’architecture transformatrice à décodeur uniquement. Le modèle de chat Granite 13b est optimisé pour les cas d’utilisation de dialogues et fonctionne bien avec les applications d’agent conversationnel et de chat. Le modèle multilingue Granite est entraîné pour comprendre et générer des textes en anglais, en allemand, en espagnol, en français et en portugais.

  • PaLM 2 est le modèle de langage nouvelle génération de Google, doté de fonctionnalités multilingues et d’un raisonnement améliorés.

Soins de santé

Dans le domaine des soins de santé, les modèles de fondation peuvent faciliter toute une série de tâches : créer des synthèses de rendez-vous, rechercher des documents médicaux, répondre aux questions des patients, faire correspondre les patients aux essais cliniques et faciliter la découverte de médicaments. Le modèle de langage Med-PaLM 2, par exemple, peut répondre à des questions médicales. De son côté, Google conçoit une version multimodale capable de synthétiser des informations à partir d’images médicales.4

Robotique

Dans le domaine de la robotique, les modèles de fondation peuvent aider les robots à s’adapter rapidement à de nouveaux environnements et à se généraliser par rapport à plusieurs tâches, scénarios et exécutions de machines. Par exemple, le modèle de langage multimodal intégré PaLM-E transfère les connaissances des domaines linguistiques et visuels de PaLM aux systèmes robotiques et est entraîné sur les données des capteurs du robot.5

Génération de code logiciel

Les modèles de fondation contribuent à la finalisation, à la correction, à l’explication et à la génération du code dans différents langages de programmation. Ces modèles de fondation texte-code comprennent Claude d’Anthropic, Codey et PaLM 2 de Google et la famille de modèles Granite Code d’IBM, entraînés sur 116 langages de programmation.

Avec autant d’options, comment les entreprises peuvent-elles choisir le bon modèle de fondation pour le développement de l’IA ? Voici un cadre de sélection de modèles d’IA en six étapes qui peut vous aider :

Avantages des modèles de fondation

S’appuyer sur des modèles de fondation peut conduire les entreprises à automatiser et à innover. Voici d’autres avantages que les entreprises peuvent tirer des modèles de fondation :

Accélération de la création de valeur et de la mise à l’échelle : l’adoption des modèles existants élimine les phases de développement et de préentraînement, ce qui permet aux entreprises de personnaliser et de déployer rapidement des modèles affinés.

Accès aux données : les entreprises n’ont pas besoin de compiler de grandes quantités de données pour le préentraînement qu’elles n’ont peut-être pas les moyens d’acquérir.

Précision et performance à la source : la précision et la performance des modèles de fondation ont déjà été évaluées, offrant ainsi un point de départ de grande qualité.

Réduction des coûts : les entreprises n’auront pas à allouer des dépenses pour les ressources nécessaires à la création d’un modèle de fondation à partir de zéro.

Défis des modèles de fondation

Comme d’autres modèles d’IA, les modèles de fondation doivent faire face aux risques liés à l’IA. C’est un facteur à prendre en compte pour les entreprises qui voient dans les modèles de fondation une technologie qui sous-tend leurs workflows internes ou leurs applications d’IA commerciales.

Biais : un modèle peut apprendre des biais humains présents dans les données d’entraînement, et ce biais peut se répercuter sur les sorties des modèles affinés.

Coûts de calcul : l’utilisation des modèles de fondation nécessite toujours une mémoire importante, du matériel avancé tel que des GPU (unités de traitement graphique) et d’autres ressources pour affiner, déployer et maintenir.

Confidentialité des données et propriété intellectuelle : les modèles de fondation peuvent être entraînés sur des données obtenues sans le consentement de leurs propriétaires ou à leur insu. Faites preuve de prudence lorsque vous alimentez des algorithmes en utilisant des données afin d’éviter de porter atteinte aux droits d’auteur d’autrui ou d’exposer des informations commerciales ou à caractère personnel.

Impact environnemental : l’entraînement et l’exécution de modèles de fondation à grande échelle impliquent des calculs énergivores qui contribuent à l’augmentation des émissions de carbone et à la consommation d’eau.

Hallucinations : il est essentiel de vérifier les résultats des modèles de fondation d’IA pour s’assurer qu’ils produisent des résultats factuellement corrects.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

AI Academy

Pourquoi les modèles de fondation constituent-ils un changement de paradigme pour l’IA ?

Découvrez une nouvelle catégorie de modèles IA flexibles et réutilisables, capables de générer de nouveaux revenus, de réduire les coûts et d’augmenter la productivité. Utilisez ensuite notre guide pour obtenir plus d’informations.

Solutions connexes
Modèles de fondation

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Explorez la bibliothèque de modèles de fondation d’IBM dans le portefeuille IBM watsonx pour déployer l’IA générative dans votre entreprise en toute confiance.

Découvrir watsonx.ai Découvrir les solutions d’IA
Notes de bas de page

1 On the Opportunities and Risks of Foundation Models, Stanford Center for Research on Foundation Models and Stanford Institute for Human-Centered Artificial Intelligence, 2021

2 Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing, Google Research, 2 novembre 2018

3 BigScience Large Open-science Open-access Multilingual Language Model, Hugging Face, 6 juillet 2022

4 Med-PaLM, Google Research, consulté le 8 octobre 2024

5 PaLM-E: An embodied multimodal language model, Google Research, 10 mars 2023