La génération augmentée par récupération (RAG) et le réglage fin permettent aux entreprises de tirer le meilleur parti des grands modèles de langage (LLM). Si les deux consistent à adapter le LLM au cas d’utilisation souhaité, leurs méthodologies diffèrent considérablement.
Bien que l’IA générative ait fait du chemin depuis sa création, la génération de réponses automatisées en temps réel aux requêtes des utilisateurs reste un défi de taille. Alors que les entreprises s’efforcent d’intégrer l’IA générative dans leurs processus pour réduire les coûts, rationaliser les workflows et garder une longueur d’avance sur leurs concurrents, elles ont souvent du mal à obtenir de leurs chatbots et autres modèles la génération de réponses précises fiables.
La différence entre la RAG et le réglage fin, c’est que le RAG permet d’augmenter les modèles de traitement automatique du langage naturel (TAL) en les connectant à la base de données propriétaire de l’entreprise, tandis que le réglage fin consiste à optimiser les modèles d’apprentissage profond pour réaliser des tâches spécifiques à un domaine. La RAG et le réglage fin ont le même objectif : améliorer la performance du modèle pour apporter un maximum de valeur à l’entreprise qui l’utilise.
La RAG utilise les données internes d’une entreprise pour améliorer le prompt engineering, tandis que le réglage fin entraîne à nouveau un modèle sur un ensemble ciblé de données externes afin d’améliorer les performances.
La RAG connecte un LLM aux magasins de données privées actuelles qui lui seraient sinon inaccessibles. Les modèles RAG peuvent fournir des réponses plus précises grâce au contexte supplémentaire fourni par ces données internes.
Lorsqu’il est entraîné sur des données spécifiques au domaine, un modèle affiné surpasse généralement son modèle de base correspondant, tel que GPT-3 ou GPT-4. Le LLM affiné a une meilleure compréhension du domaine spécifique et de sa terminologie, ce qui lui permet de générer des réponses précises.
Sans accès continu aux nouvelles données, les grands modèles de langage stagnent. Les LLM modernes sont des réseaux neuronaux massifs dont l’entraînement nécessite d’énormes ensembles de données et ressources de calcul. Même les plus grands fournisseurs de LLM, tels que Meta, Microsoft et OpenAI, réentraînent périodiquement leurs modèles, ce qui rend tout LLM presque instantanément obsolète dès sa sortie.
Lorsque les modèles ne peuvent pas apprendre à partir de nouvelles données, ils ont souvent des hallucinations ou des confabulations, un phénomène qui se produit lorsque les modèles d’IA générative « inventent » des réponses à des questions auxquelles ils ne peuvent pas répondre de manière définitive. Les modèles d’IA générative utilisent des algorithmes statistiques complexes pour prédire les réponses aux requêtes des utilisateurs. Si un utilisateur demande quelque chose que l’IA ne peut pas trouver facilement dans son ensemble de données d’entraînement, le mieux qu’elle puisse faire est de deviner.
La RAG est une méthode d’optimisation de LLM introduite par Meta AI dans un article de 2020 intitulé « Retrieval-Augmented Generation for Knowledge-Intensive Tasks ».[1] Il s’agit d’un cadre d’architecture de données qui connecte un LLM aux données propriétaires d’une organisation, souvent stockées dans des data lakehouses. Ces vastes plateformes de données sont dynamiques et contiennent toutes les données circulant dans l’organisation sur tous les points de contact, internes et externes.
La génération augmentée par récupération localise dans les sources de données internes des informations pertinentes pour la requête de l’utilisateur, qu’elle utilise ensuite pour générer des réponses plus précises. Un mécanisme de récupération des données est ajouté pour augmenter le LLM afin de générer des réponses plus pertinentes.
Les modèles RAG génèrent leurs réponses en quatre étapes :
Requête : un utilisateur soumet une requête qui lance le système RAG.
Récupération d’informations : des algorithmes complexes passent au peigne fin les bases de connaissances de l’entreprise à la recherche d’informations pertinentes.
Intégration : les données récupérées sont combinées à la requête de l’utilisateur et transmises au modèle RAG pour qu’il y réponde. À ce stade, le LLM n’a pas encore traité la requête.
Réponse : en combinant les données récupérées à ses données d’entraînement et aux connaissances stockées, le LLM génère une réponse adaptée au contexte.
Lorsqu’ils recherchent des documents internes, les systèmes RAG utilisent la recherche sémantique. Les bases de données vectorielles organisent les données par similarité, permettant ainsi des recherches par signification plutôt que par mot clé. Les techniques de recherche sémantique permettent aux algorithmes RAG d’aller au-delà des mots clés pour atteindre l’intention d’une requête et renvoyer les données les plus pertinentes.
Les systèmes RAG nécessitent une construction et une maintenance élaborées de l’architecture de données. Les ingénieurs de données doivent créer les pipelines de données nécessaires pour connecter les data lakehouses de leur organisation au LLM.
Pour conceptualiser la RAG, imaginez un modèle d’IA générative comme un cuisinier amateur à la maison. La personne connaît les bases de la cuisine, mais n’a pas les connaissances spécialisées (la base de données propriétaires d’une organisation) d’un chef formé à une cuisine plus sophistiquée. La RAG est comme donner un livre de recettes à un cuisinier. En combinant ses connaissances culinaires générales avec les recettes du livre de cuisine, il peut facilement confectionner ses plats préférés.
Pour utiliser efficacement la RAG, les ingénieurs de données doivent créer des systèmes et des pipelines de stockage des données qui répondent à plusieurs critères importants.
Pour améliorer les fonctions du système RAG et permettre une récupération des données en temps réel, ces dernières doivent être méticuleusement organisées et gérées. Actualiser les métadonnées et assurer une redondance des données minimale permet de garantir un traitement efficace des requêtes.
La division des données non structurées, telles que les documents, en fragments plus petits peut faciliter la récupération. La fragmentation des données de cette manière permet aux systèmes RAG de renvoyer des données plus précises tout en réduisant les coûts, car seule la partie la plus pertinente du document sera incluse dans le prompt pour le LLM.
Les fragments sont ensuite intégrés (un processus qui convertit le texte en chiffres) dans une base de données vectorielle.
Les pipelines de données doivent inclure des restrictions de sécurité pour empêcher les employés d’accéder aux données au-delà du champ d’action de leurs rôles respectifs. De plus, à la suite de l’adoption de lois historiques sur la protection de la vie privée comme le RGPD de l’UE, les entreprises doivent appliquer des protections de données rigoureuses à toutes les données internes. Les informations personnelles identifiables (PII) ne doivent jamais être mises à la disposition d’utilisateurs non autorisés.
Le système RAG combine la requête de l’utilisateur avec les données sourcées pour créer un prompt sur mesure pour le LLM. Un processus continu de prompt-tuning facilité par d’autres modèles de machine learning peut renforcer la capacité du système RAG à répondre aux questions au fil du temps.
Le réglage fin consiste à réentraîner un modèle pré-entraîné sur un ensemble de données d’apprentissage plus petit et plus ciblé pour lui apporter des connaissances spécifiques au domaine. Le modèle ajuste ensuite ses paramètres (les directives régissant son comportement) et ses plongements lexicaux (embeddings) pour mieux s’adapter à l’ensemble de données spécifique.
Le réglage fin consiste à exposer un modèle à un ensemble de données d’exemples étiquetés. Le modèle améliore son entraînement initial, car il met à jour ses poids de modèle en fonction des nouvelles données. Le réglage fin est une méthode d’apprentissage supervisé, c’est-à-dire que les données utilisées pour l’entraînement sont organisées et étiquetées. En revanche, la plupart des modèles de base sont soumis à un apprentissage non supervisé pour lequel les données ne sont pas triées ; le modèle doit donc les classer tout seul.
Pour revenir à notre exemple de cuisinier amateur, le réglage fin d’un modèle d’IA générative est comme un cours de cuisine plus élaborée. Avant de suivre le cours, le cuisinier doit connaître les bases de la cuisine. Après avoir suivi une formation culinaire et acquis des connaissances spécifiques à un domaine, il sera bien plus compétents dans la préparation de plats plus sophistiqués.
Les modèles peuvent être soit entièrement affinés, ce qui met à jour tous leurs paramètres, soit affinés de manière à ne mettre à jour que les paramètres les plus pertinents. Ce dernier processus est connu sous le nom de réglage fin efficace des paramètres (PEFT, Parameter-Efficient Fine-Tuning) et excelle à rendre les modèles plus efficaces dans un certain domaine, et ce à moindre coût.
Le réglage fin d’un modèle est gourmand en ressources informatiques et nécessite l’exécution en parallèle de plusieurs GPU puissants, sans parler de la mémoire pour stocker le LLM lui-même. Le PEFT permet aux utilisateurs de LLM de réentraîner leurs modèles sur des configurations matérielles plus simples tout en obtenant des améliorations de performances comparables dans le cas d’utilisation prévu du modèle, comme le support client ou l’analyse des sentiments. Le réglage fin est particulièrement efficace pour aider les modèles à surmonter les biais, qui sont un écart entre les prédictions du modèle et les résultats effectifs du monde réel.
Le pré-entraînement intervient au tout début du processus d’entraînement. Les poids ou les paramètres du modèle sont initialisés de manière aléatoire et le modèle commence à s’entraîner sur son ensemble de données initial. Le pré-entraînement continu introduit un modèle entraîné sur un nouvel ensemble de données non étiquetées selon une pratique dénommée apprentissage par transfert. Le modèle pré-entraîné « transfère » ce qu’il a appris jusqu’à présent vers de nouvelles informations externes.
En revanche, le réglage fin utilise des données étiquetées pour affiner les performances d’un modèle dans un cas d’utilisation donné. Le réglage fin permet d’affiner l’expertise d’un modèle sur des tâches spécifiques, tandis que le pré-entraînement continu permet d’approfondir l’expertise du modèle.
Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.
Découvrez comment les PDG peuvent trouver un équilibre entre la valeur que l’IA générative peut créer, l’investissement qu’elle exige et les risques qu’elle introduit.
Apprenez des concepts fondamentaux et développez vos compétences grâce à des ateliers pratiques, à des cours, à des projets guidés, à des essais et à d’autres ressources.
Découvrez comment intégrer en toute confiance l’IA générative et le machine learning dans votre entreprise.
Vous voulez obtenir un meilleur retour sur vos investissements dans l’IA ? Découvrez comment la mise à l’échelle de l’IA générative dans des domaines clés favorise le changement en aidant vos meilleurs éléments à créer et à fournir de nouvelles solutions innovantes.
1 « Retrieval-Augmented Generation for Knowledge-Intensive NLP Task », Lewis et al, 12 avril 2021.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com