Qu’est-ce qu’InstructLab ?

Homme assis devant plusieurs écrans d’ordinateur

Auteurs

Mesh Flinders

Staff Writer

IBM Think

Ian Smalley

Staff Editor

IBM Think

Qu’est-ce qu’InstructLab ?

InstructLab est une méthode d'entraînement des modèles IA qui vise à améliorer de manière significative les LLM utilisés dans le développement d'applications d'IA générative.

Instruct Lab a été développé par IBM Research et Red Hat, c’est un projet open source, ce qui signifie qu’il dépend d’une communauté mondiale de développeurs (connue sous le nom de communauté InstructLab) pour le construire et le maintenir.

Le projet InstructLab a été créé pour résoudre les problèmes qui entravent le développement de grands modèles de langage (LLM), notamment le coût et la complexité de l'entraînement et de la collecte de données, ainsi que la difficulté d’apporter des compétences et des connaissances.

Selon Forbes, InstructLab a augmenté les performances des LLM et résolu plusieurs problèmes d’évolutivité de l’entraînement LLM traditionnel, éliminant ainsi la nécessité pour les entreprises de construire et de maintenir plusieurs LLM. Cela est possible en grande partie grâce à une méthode d'entraînement LLM appelée Alignement à grande échelle pour les chatbots (LAB), développée par IBM.

Qu’est-ce que l’alignement à grande échelle pour les chatbots (LAB) ?

Les chatbots les plus puissants d'aujourd'hui, comme Siri, Alexa et ChatGPT, dépendent tous de LLM pré-entraînés, ce qui leur permet d'apprendre rapidement des tâches lors du processus d'alignement de l'IA. Mais atteindre ce niveau d’intelligence artificielle peut s'avérer coûteux et long, et les modèles qui en résultent manquent souvent de la profondeur nécessaire pour résoudre des situations complexes, nuancées et semblables à celles d’un être humain. Selon l'IBM Institute of Business Value, les dirigeants s'attendaient à ce que le coût moyen de l'informatique augmente de près de 90 %, principalement en raison des exigences liées à la construction de LLM pour les applications d'intelligence artificielle générative (IA générative).

L'alignement à grande échelle pour les chatbots (LAB) est une méthode de génération synthétique de données pour des tâches spécifiques qu'une entreprise doit confier à un chatbot. Contrairement aux méthodes d'entraînement traditionnelles, elle permet aux chatbots d'assimiler rapidement de nouvelles informations et d'acquérir de nouvelles compétences sans écraser ce qu'ils ont déjà appris.  

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Comment fonctionne InstructLab ?

L’approche d’InstructLab en matière de développement et de maintenance de grands modèles de langage (LLM) est différente des autres modèles en ce sens qu’elle met le processus entre les mains d’une communauté mondiale de développeurs, un processus connu sous le nom d’IA open source. Tout comme les logiciels open source permettent aux développeurs de contribuer au développement du code et des fonctionnalités, l'IA open source leur permet d'ajouter de nouvelles compétences et capacités et d'itérer rapidement sur des modèles existants.

Soutenue par la méthode LAB, l’approche d’InstructLab pour la création de LLM se distingue des autres de trois manières critiques :

  • Curation des données basée sur la taxonomie
  • Génération de données synthétiques à grande échelle
  • Réglage de l'alignement à grande échelle

Curation des données basée sur la taxonomie

Dans l'entraînement d'un LLM, la taxonomie est une structure hiérarchique qui catégorise les compétences et les domaines de connaissances critiques pour l’application prévue du LLM. Par exemple, la taxonomie d’un LLM qui sera appliqué à un véhicule autonome serait très différente de celle qui est appliquée à la recherche médicale, de la même manière qu’un pilote de voiture de course devrait acquérir des compétences différentes de celles d’un médecin.

Les données d’InstructLab sont structurées de manière à faciliter la compréhension des compétences et connaissances existantes du modèle. La simplicité de la structure d’InstructLab permet aux développeurs de repérer facilement les lacunes et de compléter les connaissances et les compétences si nécessaire. Cette curation des données fondée sur la taxonomie permet également de cibler spécifiquement les modèles pour de nouveaux cas d’utilisation, comme la recherche ou une application d’Internet des objets (IdO) spécifique, et de leur attribuer les compétences appropriées.

À cette fin, l’approche d’InstructLab repose fortement sur YAML (« YAML Ain’t No Markup Language », ou « Yet Another Markup Language »), un format standardisé permettant de représenter les données de manière facile à interpréter aussi bien pour les humains que pour les machines. L’approche YAML ouvre la voie à la prochaine étape clé du processus d’InstructLab : la génération à grande échelle de données synthétiques.

Génération de données synthétiques à grande échelle

Une fois que les données sur lesquelles un modèle spécifique doit s'entraîner ont été organisées, le modèle lui-même est prêt à générer ses propres données sur la base des données d'entraînement, un processus connu sous le nom de génération de données synthétiques. Ce qui distingue l'approche d'InstructLab à cette étape de l'entraînement d'un LLM, c'est l'échelle à laquelle elle est réalisée et la précision des données qu'elle peut générer. S’appuyant une fois de plus sur la méthode Large-scale Alignment for chatBots (LAB), l’approche d’InstructLab ajoute une étape automatisée, affinant davantage les réponses générées par le LLM pour garantir leur exactitude.

Les nouvelles données générées durant cette étape, essentielles à l'entraînement de tous les LLM, pas seulement de ceux d’InstructLab, reposent sur ce qu’on appelle un modèle « enseignant », un modèle plus vaste qui génère des étiquettes et des données pour qu’un modèle « étudiant » plus petit et plus efficace puisse apprendre.

Avec la méthode LAB, les LLM d'InstructLab n'utilisent pas réellement les données stockées par le modèle enseignant, mais plutôt des prompts spécifiques qui augmentent de manière exponentielle le jeu de données tout en veillant simultanément à ce que les exemples générés par le modèle « étudiant » restent conformes à l'objectif visé par les LLM.

Selon IBM Research, cette approche « génère systématiquement des données synthétiques pour les tâches que vous souhaitez que votre chatbot accomplisse, et pour assimiler de nouvelles connaissances et capacités dans le modèle de fondation, sans écraser ce que le modèle a déjà appris. »

Réglage d'alignement à grande échelle

Dans la dernière étape du processus InstructLab/LAB, le LLM est réentraîné sur les données synthétiques à partir desquelles il a appris, affinant ainsi ses compétences et améliorant la précision de ses réponses. Cette dernière étape est divisée en deux phases :

  • Réglage des connaissances : l’entraînement des connaissances vise à améliorer les connaissances de base des LLM pour les compétences essentielles en introduisant de nouveaux faits qui nécessitent des réponses courtes et longues et en évaluant la précision de ces réponses.
  • Réglage des compétences : une fois l’entraînement des connaissances terminé, le modèle fait l’objet d’un réglage des compétences dans le cadre de sa préparation finale avant d’être déployé. Lors du réglage des compétences, le modèle s'entraîne sur des échantillons de données liés aux compétences spécifiques qui lui sont demandées (en fonction de l'objectif visé). Par exemple, à ce stade d’entraînement, un chatbot de service client s’entraînera probablement sur des milliers d’heures de transcription de demandes de clients.
Red Hat

Activez les fonctionnalités d’IA avec Red Hat Openshift on IBM Cloud

Découvrez comment utiliser Red Hat OpenShift on IBM Cloud pour activer la plateforme d’opérations de machine learning flexible et évolutive, avec des outils pour créer, déployer et gérer des applications basées sur l’IA.

En quoi InstructLab diffère-t-il des méthodes RAG traditionnelles ?

Les LLM entraînés à l'aide de méthodes plus traditionnelles utilisent généralement un processus appelé génération augmentée par récupération (RAG) pour compléter leurs connaissances par un entraînement plus ciblé et spécifique à un domaine. La RAG est un outil utile pour les entreprises qui ont besoin d’ajouter des données propriétaires à un modèle de base existant pour un usage spécifique sans perdre le contrôle sur leurs données propriétaires.

La méthode InstructLab/LAB peut être utilisée pour le même objectif qu’un processus RAG plus traditionnel, mais plutôt que d’ajouter des connaissances spécifiques existantes, elle se concentre davantage sur les contributions des utilisateurs finaux de sa communauté pour développer des connaissances et compétences pertinentes. Les entreprises souhaitant affiner les LLM pour un usage spécifique peuvent utiliser à la fois RAG et InstructLab/LAB pour obtenir des résultats optimaux.

L'infrastructure d'entraînement de modèles d'InstructLab

À mesure que les applications d'IA deviennent de plus en plus exigeantes, les LLM qui les prennent en charge s'agrandissent et se complexifient, ce qui impose des exigences de plus en plus strictes à l'infrastructure d'IA sous-jacente. InstructLab/LAB, comme toutes les autres méthodes avancées d’entraînement de modèles, dépend d’une infrastructure gourmande en GPU capable de répondre aux critères de performance de référence nécessaires pour réentraîner les modèles IA conformément aux contributions de sa communauté open source mondiale sur github.com/instructlab.

Heureusement, IBM s’engage à fournir tout le stockage de données, la gestion, les workflows et les pratiques nécessaires à la réussite des projets LLM.

Pourquoi InstructLab est-il important ?

Aujourd’hui, les LLM sous-tendent les cas d’utilisation les plus passionnants de l’IA, des chatbots et assistants de codage en IA générative à l’edge computing, aux applications de l’Internet des objets (IdO) et bien plus encore. Ils peuvent être soit des modèles propriétaires, comme OpenAI et Claude, soit des modèles qui reposent plutôt sur des principes open source pour les données de préentraînement utilisées, comme Mistral, Llama-2 et les modèles Granite d’IBM.

InstructLab excelle dans sa capacité à égaler, voire à surpasser, les performances des modèles propriétaires en utilisant des modèles accessibles au public. IBM watsonx, une plateforme d'IA et de données conçue pour aider les entreprises à développer et à accélérer l'impact de l'IA, s'y appuie largement. Par exemple, Merlinite-7B, un modèle récemment entraîné au LAB, a surpassé plusieurs modèles propriétaires dans des domaines clés, selon un article de recherche d’IBM.

Les limites de la modification des LLM existants

Pour répondre aux exigences des applications avancées d'IA générative, les développeurs s'appuient souvent sur un LLM existant qu'ils adaptent pour répondre à un besoin commercial spécifique. Prenons l'exemple d'une compagnie d'assurance qui cherche à créer une application d'IA générative pour aider ses employés à obtenir des informations à partir de données clients exclusives. Aujourd'hui, ils achèteraient probablement un LLM existant conçu pour les chatbots et le modifieraient en fonction de leurs besoins. Mais cette approche présente plusieurs limites importantes :

  • Affiner un LLM existant pour comprendre le domaine d'expertise unique dont votre entreprise a besoin peut être coûteux et gourmand en ressources.
  • Il est difficile pour le modèle de s'améliorer continuellement une fois qu'il a été réglé pour répondre à un certain ensemble de besoins, ce qui signifie qu'il ne peut pas itérer ou évoluer en fonction des exigences de l'entreprise.
  • L'affinement d'un LLM pour l'adapter à un objectif commercial spécifique nécessite une grande quantité de données générées par l'homme sur lesquelles le modèle doit s'entraîner, ce qui est à la fois long et coûteux à acquérir.

InstructLab améliore les LLM avec moins d'intervention humaine et moins de ressources

La méthode InstructLab permet d'entraîner des LLM en utilisant moins d'entrées d'origine humaine et beaucoup moins de ressources informatiques. Le fondement de la méthode d'entraînement de la plupart des LLM modernes, en particulier ceux qui sous-tendent les puissants chatbots, est un pré-entraînement approfondi sur de vastes jeux de données de texte non structuré. Bien que cette approche d'entraînement permette aux LLM d'acquérir de nouvelles compétences relativement rapidement au cours de la phase d'alignement, elle est coûteuse et nécessite une intervention humaine importante.

L'approche LAB, développée par IBM Research, utilise la génération de données synthétiques guidée par une taxonomie pour réduire les coûts et le besoin d'intervention humaine. Associée à l'approche open source et communautaire du développement d'InstructLab, cette approche démocratise efficacement le développement des LLM nécessaires aux applications d'IA générative.

L’interface en ligne de commande (CLI) d’InstructLab, l’ensemble d’instructions utilisées par les développeurs pour la gérer, est même conçue pour fonctionner sur des appareils largement utilisés comme les ordinateurs portables personnels, et les développeurs sont encouragés à apporter de nouvelles connaissances ou compétences via la communauté IA Hugging Face.

Cas d’utilisation InstructLab

InstructLab adopte une approche communautaire et open source pour affiner les LLM pour un large éventail de cas d'utilisation. Voici quelques-uns des plus courants :

Soins de santé

Les LLM développés selon l’approche d’InstructLab peuvent être entraînés de façon à acquérir de nouvelles compétences et connaissances pour de nombreuses applications du secteur de la santé, qu’il s’agisse de parcourir des volumes de données cliniques pour aider les scientifiques à faire des avancées dans le domaine de la recherche médicale ou d’évaluer les risques des patients à partir des antécédents médicaux, etc.

Secteur bancaire

Dans le secteur bancaire, l'approche d'InstructLab permet de concevoir des LLM axés sur l'analyse des transactions et la projection de modèles afin de repérer les tendances et de prévoir les risques associés aux stratégies de trading. Il peut également être utilisé pour entraîner des LLM pour des applications d’IA générative dans le domaine des finances personnelles, telles que l’épargne en vue de la retraite, la budgétisation et plus encore.

Service client

Les LLM entraînés selon l'approche InstructLab peuvent alimenter des chatbots intelligents spécialisés dans des domaines spécifiques du service client, tels que le retour d'un article ou la demande d'un produit en particulier. Au-delà de cela, la méthode LAB peut aider à affiner les LLM pour qu’ils deviennent des assistants virtuels avec un ensemble complexe de compétences, comme la prise de rendez-vous, la réservation de déplacements, la déclaration de revenus et plus encore.

Marketing

La méthode InstructLab permet d’affiner les LLM soutenant les applications d’IA générative utilisées dans le domaine du marketing à diverses fins. Ils peuvent apprendre à parcourir les données clients pour obtenir des informations sur leur comportement, les préférences en matière de produits et même la conception future des produits. Ils peuvent également acquérir les compétences nécessaires pour offrir des conseils personnalisés sur les produits, comme la pointure des chaussures ou des vêtements, les préférences de couleur, etc.

DevOps

L’application de la méthode InstructLab pour entraîner les LLM afin d’améliorer le cycle de vie DevOps peut offrir des avantages importants aux développeurs de plusieurs manières. Les LLM entraînés avec la méthode InstructLab peuvent générer du code et créer des scripts, automatiser le provisionnement de l’infrastructure (applications Infrastructure as Code (IaC)) et raccourcir ou améliorer la résolution de problèmes de routine, le dépannage, et même l’analyse et les revues de code.  

Solutions connexes
IBM Red Hat OpenShift

Red Hat OpenShift on IBM Cloud est une plateforme de conteneurs OpenShift entièrement gérée.

Découvrir IBM Red Hat OpenShift
Solutions Red Hat

Déverrouiller Red Hat IA et InstructLab en tant que service sur IBM Cloud.

Découvrir les solutions Red Hat IA
Services de conseil Red Hat

Transformez votre entreprise avec les technologies Red Hat et IBM Consulting, réalisez des économies et accélérez votre transition vers le cloud hybride.

Découvrir les services Red Hat
Passez à l’étape suivante

Déverrouiller Red Hat IA et InstructLab en tant que service sur IBM Cloud.

Découvrir les solutions Red Hat IA Obtenir plus d'informations