Intelligence Artificielle

Intelligence Artificielle : L’avenir des modèles de fondation passe par des innovations sur l’ensemble des couches

Share this post:

Pour exploiter véritablement le potentiel des modèles de fondation, il faut investir de manière significative dans l’ensemble des couches, et pas seulement dans les modèles eux-mêmes.

Le traitement du langage naturel a fait depuis quelques années un bond considérable, notamment avec l’apparition de premiers exemples de modèles, tels que GPT-3, BERT ou DALL-E 2. Il suffit d’entrer une brève phrase pour que le système génère un essai complet ou une image complexe, sur la base de paramètres, même s’il n’a pas été spécifiquement entraîné à l’exécution de cette tâche précise ou à la génération d’une image de cette manière. Ce type d’intelligence artificielle est appelé modèle de fondation et est défini par sa capacité à créer un grand modèle d’intelligence artificielle formé sur une grande quantité de donnée non étiquetées à grande échelle résultant en un modèle qui peut être adapté à un large éventail de tâches bien spécifiques. Bien que le milieu universitaire ait eu tendance à privilégier le terme « modèle de fondation », nous pouvons aussi lire des noms comme modèle de langage de grande taille ou IA générative.

Chez IBM Research, nous sommes enthousiasmés par le potentiel des modèles de fondation. Pour nous, ils représentent un changement de paradigme important dans l’IA. Un seul modèle de fondation en langage naturel (de très grande taille) peut être rendu performant dans de nombreuses tâches différentes liées au langage avec beaucoup moins de données que ce qui était historiquement nécessaire pour former un par un des modèles individuels spécifiques à chaque tâche. Cette adaptation à de nouvelles tâches peut se faire en « incitant » simplement le modèle à faire quelque chose de nouveau ; lorsqu’on leur fournit une description de la tâche et quelques exemples, ces modèles assument une nouvelle tâche sans qu’il soit nécessaire de les réentraîner explicitement ou de modifier le modèle lui-même. Cette capacité à réaffecter un modèle de fondation à de nombreux cas d’usage sans entraînement supplémentaire les place dans une catégorie à part.

Cette technologie a attiré récemment l’attention du monde entier notamment au travers d’agents conversationnels permettant aux utilisateurs de poser des questions ouvertes. Il existe une approche d’utilisation des modèles de fondation plus destinée aux entreprises ou institutions de recherche qui ont besoin d’avoir des modèles adaptés à leur domaine spécifique et de précision pour par exemple automatiser un certain nombre de processus métiers ou accélérer les découvertes scientifiques. En effet, entrainer son modèle de fondation sur internet ne le rend pas vraiment expert d’un domaine, même s’il peut parfois paraître crédible aux yeux non experts d’un métier particulier.

Si la plupart des premières innovations en matière de modèles de fondation étaient axées sur la langue, nous constatons de plus en plus que cette approche s’applique à de nombreux domaines, de l’avenir de la production industriel à l’automatisation de l’écriture de code par les développeurs, en passant par la découverte de nouveaux matériaux et médicaments. Nous avons partagé un exemple récent du potentiel de transformation de ces modèles lorsque nous avons annoncé le projet Wisdom : les développeurs peuvent désormais utiliser des commandes en langage naturel, telles que « Déployer des couches d’applications Web » ou « Installer les dépendances Node.js », et le projet Wisdom les analysera et créera un processus automatisé pour accomplir la tâche en fournissant un playbook Ansible. Cela a le potentiel d’augmenter considérablement la productivité des développeurs, en étendant la puissance de l’assistance de l’IA à de nouveaux domaines.

Si le potentiel de cette nouvelle vague d’IA suscite un enthousiasme croissant, la réalité est que travailler avec des modèles de fondation est extrêmement complexe. Le processus de bout en bout pour passer des données à un modèle fonctionnel prêt à être déployé peut nécessiter des semaines de travail manuel et souvent une puissance de calcul considérable. Pour exploiter véritablement le potentiel des modèles de fondation, il faut investir de manière significative dans l’ensemble des couches, et pas seulement dans les modèles eux-mêmes. Nous pouvons co-concevoir des systèmes et des logiciels afin d’offrir à l’utilisateur final l’environnement optimal pour maximiser sa productivité en matière d’IA.

Réaliser la valeur des modèles de fondation – Traitement du langage naturel et plus

La plupart des entreprises présentent des lacunes dans des domaines importants, qu’il s’agisse des compétences, de l’automatisation, des outils ou de la disponibilité de l’infrastructure adéquate. En fait, nous avons nous-mêmes été confrontés à certains de ces défis et c’est pourquoi nous avons investi dans le développement de technologies dans l’ensemble des couches du Cloud hybride qui permettent à nos propres chercheurs en IA d’avancer plus rapidement, de partager et de transférer facilement les applications et les expériences dans de nouveaux environnements, d’automatiser les éléments clés de leurs flux de travail d’IA et de maximiser l’utilisation et l’efficacité de leur infrastructure. Nous serons très heureux de partager les fruits de ce travail avec la communauté de l’IA et les clients d’IBM au cours des prochains mois.

Il existe trois grandes catégories d’innovations que nous avons développées pour rendre les chercheurs et les développeurs en IA plus agiles. La première concerne l’automatisation et la simplification des flux de travail. Nous avons travaillé en étroite collaboration avec les principales communautés open-source, notamment Ray et PyTorch, pour adopter et contribuer à de nouvelles capacités. Avec Ray, nous nous sommes efforcés de simplifier toutes les étapes de déduplication des données, de suppression des propos haineux, abusifs et blasphématoires, ainsi que de suppression des valeurs fictives, avant et après le traitement des données dans le flux de travail de l’IA, ainsi que la simplification de l’adaptation et de la validation du modèle après qu’il ait été entraîné. Avec PyTorch, nous avons travaillé sur la mise à l’échelle efficace de l’entraînement distribué pour des modèles plus importants sur une infrastructure plus standard comme le réseau Ethernet. En s’appuyant sur ces projets clés, la communauté de recherche en IA au sens large peut bénéficier des nombreuses améliorations qui s’accumulent rapidement dans ces communautés clés et tirer parti d’une couche unique optimisée qui peut rendre tout le monde plus productif.

Le deuxième domaine d’innovation clé que nous menons concerne Kubernetes et notre plateforme de Cloud hybride OpenShift, afin de répondre aux exigences uniques de ces flux de travail. De nombreuses personnes supposent qu’il faut un environnement informatique traditionnel à haute performance (HPC – High Performance Computing) pour exécuter ces tâches efficacement. Ils pensent à des éléments tels que les nœuds bare-metal, les réseaux Infiniband, les ordonnanceurs HPC et les systèmes de fichiers. Mais ces environnements fonctionnent chacun avec leurs propres couches logicielles, gérées par les administrateurs HPC, et le transfert des applications entre eux peut être un défi. En même temps, la conteneurisation des applications nous permet de regrouper tous les logiciels dont nous avons besoin. Cela facilite le partage du code et des résultats entre les équipes et élimine les dépendances vis-à-vis de quelqu’un d’autre qui choisit de prendre en charge les bibliothèques dont vous avez besoin.

Nous avons sauté à pieds joints dans l’IA « Cloud-native », en mettant en place l’installation d’OpenShift la plus grande et la plus performante que nous connaissons à ce jour, et en transférant toutes nos recherches sur les modèles de fondation vers cette plateforme. Pour que nos flux de travail d’IA s’exécutent efficacement dans des conteneurs et avec de hautes performances sur OpenShift, nous intégrons à la plateforme elle-même bon nombre des propositions de valeur clés des environnements HPC, notamment une gestion sophistiquée des tâches, une mise à l’échelle automatique des tâches, une automatisation pour une configuration optimale du réseau, et bien d’autres choses encore, et nous les fournissons en mode as a Service. Désormais, nos applications « Cloud-native » peuvent être exécutées avec des performances élevées et une flexibilité de Cloud hybride partout où Kubernetes est pris en charge, ce qui représente un nombre croissant d’emplacements.

Le troisième domaine d’innovation consiste à développer une infrastructure performante, flexible et optimisée pour l’IA, fournie en mode as a Service, à la fois pour l’entraînement et la mise en service des modèles de fondation. L’entraînement des grands modèles d’aujourd’hui nécessite beaucoup de GPUs. Historiquement, les chercheurs se sont appuyés sur les clusters HPC parce que c’est là que l’on trouvait un nombre suffisamment important de GPUs avec un réseau haute performance. Mais le déplacement des données entre les environnements Cloud et les systèmes HPC sur site prend du temps – et est parfois interdit. Nous savions qu’en mettant les capacités d’un superordinateur au même endroit que nos données, nous pourrions agir plus rapidement et éviter de perdre du temps à nous conformer à des politiques de données complexes. Nous voulions également conserver la flexibilité et les services qui accompagnent le Cloud. Nous avons donc intégré un supercalculateur (accessible en mode as a Service) au sein même de l’offre de Cloud privé virtuel d’IBM Cloud.

Notre système, composé de GPU Nvidia A100 et d’un réseau Ethernet flexible, est désormais l’environnement principal dans lequel nous menons nos recherches et le développement de nos modèles de fondation, qui ont évolué de façon spectaculaire vers un travail « Cloud-native », sur OpenShift. Cela signifie que nos chercheurs exécutent des tâches d’entraînement distribuées en conteneur, orchestrant des centaines de GPUs, pour concevoir des modèles avec plus de 10 milliards de paramètres sur ce système. Ces travaux, exécutés sur l’installation d’OpenShift la plus grande et la plus performante que nous connaissions, atteignent entre 80 % et 90 % d’utilisation des GPUs – un niveau de performance et d’efficacité de l’infrastructure souvent réservé aux environnements de supercalculateurs traditionnels. Notre vision de l’infrastructure ne s’arrête pas à l’entraînement – ni même au GPU. Nous avons récemment fait part de notre travail de développement d’une puce d’IA de nouvelle génération, l’IBM AIU, qui porte à un niveau supérieur les innovations en matière de calcul d’IA à précision réduite. Nous nous attendons à ce que cette puce offre des avantages considérables en matière d’efficacité énergétique par rapport aux puces traditionnelles.

Nous sommes passionnés par l’invention de la prochaine génération d’IA et par l’invention de technologies qui nous aident tous à aller plus vite et à travailler à la pointe de l’innovation. Les capacités que nous créons à travers les couches facilitent la construction des modèles d’IA les plus avancés et leur déploiement productif et omniprésent. Nous sommes impatients de partager nos progrès dans tous ces domaines au cours des semaines et des mois à venir, et de permettre à nos partenaires de bénéficier des outils et des technologies que nous développons.

CTO and Distinguished Data Scientist, IBM Technology, France | Member of the Academy of Technology

More Intelligence Artificielle stories
26 février 2024

L’importance d’une culture DevOps au sein d’une entreprise

DevOps ne concerne pas uniquement les phases d’intégration et de déploiement d’application et l’automatisation de celles-ci mais tout le cycle de vie d’une application.   DevOps ? Kezako ? Pourquoi ? Historiquement, les équipes de développement et opérations étaient organisées en silo, chacune travaillant uniquement sur leur scope avec une communication limitée. Avec l’arrivée de […]

Continue reading

8 février 2024

De la donnée au passage à l’échelle de l’intelligence artificielle générative !

Notre monde est de plus en plus axé sur la donnée. Sa gestion en devient cruciale pour assurer la réussite des transformations des organisations actuelles. Cette année 2023 aura été pour moi un approfondissement des sujets d’architecture autour de la gestion de cette donnée. Je souhaitais partager mes sujets de réflexion pour les semaines à […]

Continue reading

31 janvier 2024

La croissance d’IBM Storage Ceph : le socle idéal pour un data lakehouse moderne

Cela fait un an qu’IBM a intégré les feuilles de route et les équipes des produits de stockage Red Hat dans IBM Storage. Au cours de cette période, les organisations ont été confrontées à des défis sans précédent en matière de données pour mettre l’IA à l’échelle en raison de la croissance rapide des données […]

Continue reading