L’IA générative commence par un modèle de fondation, un modèle de deep learning qui sert de base à plusieurs types d’applications d’IA générative.
Les modèles de fondation les plus courants aujourd’hui sont les grands modèles de langage (LLM), créés pour les applications de génération de texte. Il existe également des modèles de fondation pour la génération d’images, de vidéos, de sons et de musique, ainsi que des modèles de fondation multimodaux, qui peuvent prendre en charge plusieurs types de génération de contenus.
Pour créer un modèle de fondation, les spécialistes entraînent un algorithme de deep learning sur d’énormes volumes de données brutes, non structurées et non étiquetées, par exemple des téraoctets de données provenant d’Internet ou d’une autre source volumineuse de données.
Durant la phase d’entraînement, l’algorithme effectue et évalue des millions d’exercices de « remplissage des blancs », en essayant de prédire l’élément suivant d’une séquence (par exemple le mot suivant d’une phrase, l’élément suivant d’une image, la commande suivante d’une ligne de code) et en s’ajustant continuellement pour minimiser la différence entre ses prédictions et les données réelles (ou le résultat correct).
Le résultat de cet entraînement est un réseau de neurones de paramètres, c’est-à-dire des représentations codées des entités, des schémas et des relations dans les données, qui peuvent générer des contenus de manière autonome en réponse aux entrées ou aux prompts.
Ce processus d’entraînement est gourmand en ressources informatiques, long et coûteux : il nécessite des milliers d’unités de traitement graphique (GPU) en cluster et des semaines de traitement, le tout représentant des millions de dollars d’investissement.
Les projets de modèles de fondation open source, tels que Llama-2 de Meta, permettent aux développeurs d’IA générative d’éviter cette étape et les coûts induits.