Qu’est-ce que la génération augmentée par récupération (RAG) ?

Qu’est-ce que la génération augmentée par récupération (RAG) ?

La génération augmentée par récupération, ou RAG, est une architecture permettant d’optimiser la performance d’un modèle d’intelligence artificielle (IA) en le connectant à des bases de connaissances externes. La RAG aide les grands modèles de langage (LLM) à fournir des réponses plus pertinentes avec une qualité supérieure.

Les modèles d’d’IA générative sont entraînés sur de grands jeux de données et font référence à ces informations pour générer des résultats. Cependant, les jeux de données d’entraînement sont limités aux informations auxquelles le développeur de l’IA peut accéder : publications du domaine public, articles Internet, contenu sur les réseaux sociaux et autres données accessibles au public.

La RAG permet aux modèles d’IA générative d’accéder à des bases de connaissances externes supplémentaires, telles que les données organisationnelles internes, les revues scientifiques et les jeux de données spécialisés. En intégrant les informations pertinentes dans le processus de génération, les chatbots et autres outils de traitement automatique du langage naturel (NLP) peuvent créer un contenu plus précis spécifique à un domaine sans avoir besoin d’une formation supplémentaire.

Quels sont les avantages de la RAG ?

La RAG permet aux entreprises d’éviter des coûts de réentraînement élevés lors de l’adaptation des modèles d’IA générative à des cas d’utilisation spécifiques à un domaine. Les entreprises peuvent utiliser la RAG pour combler les lacunes de la base de connaissances d’un modèle de machine learning afin qu’il puisse fournir de meilleures réponses.

Voici les principaux avantages de la RAG :

  • Accès aux données actualisées spécifiques au domaine
  • Confiance accrue des utilisateurs
  • Cas d’utilisation étendus
  • Amélioration du contrôle des développeurs et de la maintenance des modèles
  • Une plus grande sécurité des données

Implémentation et mise à l’échelle de l’IA à moindre coût

Lorsqu’elles mettent en œuvre l’IA, la plupart des entreprises choisissent d’abord un modèle de fondation, soit des modèles d’apprentissage profond qui servent de base au développement de versions plus avancées. Les modèles de fondation disposent généralement de bases de connaissances généralisées alimentées par des données d’entraînement accessibles au public, telles que le contenu Internet disponible au moment de l’entraînement.

Le réentraînement d’un modèle de fondation ou son réglage fin, par lequel un modèle de fondation est réentraîné sur de nouvelles données dans un jeu de données plus petit et spécifique au domaine, coûte cher en termes de calcul et exige beaucoup de ressources. Le modèle ajuste tout ou partie de ses paramètres pour adapter ses performances aux nouvelles données spécialisées.

Avec la RAG, les entreprises peuvent utiliser des sources de données internes de référence et obtenir des augmentations de performance de modèles similaires sans réentraînement. Les entreprises peuvent adapter leur mise en œuvre d’applications d’IA selon leurs besoins tout en limitant les coûts et les exigences en ressources.

Accès aux données actuelles et spécifiques au domaine

Les modèles d’IA générative comportent une limite de connaissances, c’est-à-dire le moment où leurs données d’entraînement ont été mises à jour pour la dernière fois. À mesure qu’un modèle vieillit au-delà de sa limite de connaissances, il perd de la pertinence au fil du temps. Les systèmes RAG connectent les modèles à des données externes supplémentaires en temps réel et intègrent des informations à jour dans les réponses générées.

Les entreprises utilisent la RAG pour fournir aux modèles des informations spécifiques telles que des données clients propriétaires, des recherches de référence et d’autres documents pertinents.

Les modèles RAG peuvent également se connecter à Internet avec des interfaces de programmation d’applications (API) et avoir accès aux flux de médias sociaux en temps réel et aux avis des consommateurs pour une meilleure compréhension du sentiment du marché. Dans le même temps, l’accès aux dernières informations et aux moteurs de recherche peut conduire à des réponses plus précises, à mesure que les modèles intègrent les informations récupérées dans le processus de génération de texte.

Réduction du risque d’hallucinations de l’IA

Les modèles d’IA générative tels que GPT d’OpenAI fonctionnent en détectant des modèles dans leurs données, puis en utilisant ces modèles pour prédire les résultats les plus probables aux entrées utilisateur. Parfois, les modèles détectent des schémas qui n’existent pas. Une hallucination ou une confusion se produisent lorsque les modèles présentent des informations incorrectes ou fausses comme si elles étaient factuelles.

La RAG ancre les LLM dans des connaissances spécifiques fondées sur des données factuelles, fiables et actuelles. Comparés à un modèle génératif fonctionnant uniquement sur ses données d’entraînement, les modèles RAG fournissent généralement des réponses plus précises dans le contexte de leurs données externes. Bien que la RAG puisse réduire le risque d’hallucinations, elle ne peut pas garantir l’absence d’erreurs dans les modèles.

Confiance accrue des utilisateurs

Les chatbots, une implémentation courante de l’IA générative, répond aux questions posées par les utilisateurs humains. Pour qu’un chatbot tel que ChatGPT fonctionne, les utilisateurs doivent considérer ses résultats comme fiables. Les modèles RAG peuvent inclure des références vers les sources de connaissances dans leurs données externes dans le cadre de leurs réponses.

Lorsque les modèles RAG référencent leurs sources, les utilisateurs humains peuvent vérifier ces résultats pour confirmer leur exactitude tout en consultant les publications citées pour obtenir des éclaircissements et des informations supplémentaires. Le stockage de données d’entreprise est souvent un labyrinthe complexe et cloisonné. Les réponses RAG accompagnées de références dirigent les utilisateurs vers les documents dont ils ont besoin.

Cas d’utilisation étendus

L’accès à davantage de données signifie qu’un modèle peut gérer un plus large éventail de prompts. Les entreprises peuvent optimiser leurs modèles et en tirer davantage de valeur en élargissant leurs bases de connaissances, élargissant ainsi les contextes dans lesquels ces modèles génèrent des résultats fiables.

En combinant l’IA générative avec des systèmes de récupération, les modèles RAG peuvent récupérer et intégrer des informations provenant de plusieurs sources de données en réponse à des requêtes complexes.

Amélioration du contrôle des développeurs et de la maintenance des modèles

Les entreprises modernes traitent en permanence d’énormes quantités de données, des entrées de commandes aux projections de marché en passant par les rotations du personnel, etc. Une construction des pipelines de données et un stockage efficaces sont essentiels pour une implémentation RAG solide.

Dans le même temps, les développeurs et les data scientists peuvent modifier à tout moment les sources de données auxquelles les modèles ont accès. Le repositionnement d’un modèle d’une tâche à une autre devient une tâche d’ajustement de ses sources de connaissances externes, plutôt que d’optimisation ou de réentraînement. Si un réglage fin est nécessaire, les développeurs peuvent se concentrer sur ce travail au lieu de gérer les sources de données du modèle.

Une plus grande sécurité des données

Étant donné que la RAG connecte un modèle à des sources de connaissances externes plutôt que d’incorporer ces connaissances dans les données d’entraînement du modèle, elle maintient une séparation entre le modèle et ces connaissances externes. Les entreprises peuvent utiliser la RAG pour préserver les données propriétaires tout en accordant l’accès aux modèles, accès qui peut être révoqué à tout moment.

Cependant, les entreprises doivent faire preuve de vigilance pour assurer elles-mêmes la sécurité des bases de données externes. La RAG exploite des bases de données vectorielles, qui utilisent des embeddings pour convertir des points de données en représentations numériques. En cas de violation de ces bases de données, les pirates peuvent inverser le processus d’embedding vectoriel et accéder aux données d’origine, surtout si la base de données vectorielle n’est pas chiffrée.

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Cas d’utilisation de la RAG

Les systèmes RAG permettent essentiellement aux utilisateurs d’interroger des bases de données avec un langage conversationnel. Les capacités de question-réponse alimentées par les données des systèmes RAG ont été appliquées à de nombreux cas d’utilisation, notamment :

  • Chatbots spécialisés et assistants virtuels
     

  • Recherche
     

  • Génération de contenu
     

  • Analyse de marché et développement de produits
     

  • Moteurs de connaissances
     

  • Services de recommandation

Chatbots spécialisés et assistants virtuels

Les entreprises souhaitant automatiser le support client risquent de constater que leurs modèles d’IA ne disposent pas des connaissances spécialisées nécessaires pour assister correctement les clients. Les systèmes RAG d’IA connectent les modèles aux données internes pour fournir aux chatbots de support client les dernières connaissances sur les produits, les services et les politiques d’une entreprise.

Le même principe s’applique aux avatars IA et aux assistants personnels. La connexion du modèle sous-jacent aux données personnelles de l’utilisateur et la référence aux interactions précédentes permettent d’offrir une expérience utilisateur plus personnalisée.

Recherche

Capables de lire les documents internes et de s’interfacer avec les moteurs de recherche, les modèles RAG excellent dans la recherche. Les analystes financiers peuvent générer des rapports spécifiques aux clients avec des informations à jour sur le marché et une activité d’investissement antérieure, tandis que les professionnels de santé peuvent consulter les dossiers des patients et des établissements.

Génération de contenu

La capacité des modèles RAG à référencer des sources faisant autorité contribue à une génération de contenu plus fiable. Alors que tous les modèles d’IA générative peuvent halluciner, la RAG permet aux utilisateurs de vérifier l’exactitude des sorties.

Analyse de marché et développement de produits

Les dirigeants peuvent consulter les tendances des réseaux sociaux, l’activité des concurrents, les dernières actualités sectorielles et d’autres sources en ligne pour mieux éclairer les décisions métier. Dans le même temps, les chefs de produit peuvent se référer aux commentaires des clients et aux comportements des utilisateurs lorsqu’ils envisagent des choix de développement futurs.

Moteurs de connaissances

Les systèmes RAG permettent aux employés d’accéder aux informations internes de l’entreprise. Des processus d’intégration rationalisés, un support RH plus rapide et des conseils à la demande pour les employés sur le terrain ne sont que quelques-unes des façons dont les entreprises peuvent utiliser la RAG pour améliorer les performances professionnelles.

Services de recommandation

En analysant le comportement précédent des utilisateurs et en le comparant aux offres actuelles, les systèmes RAG fournissent des services de recommandation plus précis. Une plateforme e-commerce et un service de diffusion de contenu peuvent tous deux utiliser la RAG pour maintenir l’engagement des clients et améliorer leurs dépenses.

AI Academy

L’essor de l’IA générative pour les entreprises

Découvrez l’essor historique de l’IA générative et ce que cela signifie pour les entreprises.

RAG : comment ça marche ?

La RAG combine des modèles de recherche d’information avec des modèles d’IA générative pour produire un contenu de référence. Les systèmes RAG interrogent une base de connaissances et ajoutent du contexte à un prompt avant de générer une réponse.

Les LLM standard tirent les informations de leurs jeux de données d’entraînement. La RAG ajoute un composant de récupération d’informations au workflow d’IA, qui collecte les informations pertinentes et les intègre au modèle d’IA générative afin d’améliorer la qualité et la fonctionnalité des réponses.

Les systèmes RAG suivent un processus en cinq étapes :

Schéma montrant un processus de RAG (génération augmentée par récupération)
  1. L’utilisateur envoie un prompt.
     

  2. Le modèle de récupération d’informations interroge la base de connaissances pour obtenir des données pertinentes.
     

  3. Ces informations sont renvoyées de la base de connaissances à la couche d’intégration.
     

  4. Le système RAG conçoit un prompt augmenté pour le LLM avec un contexte amélioré à partir des données récupérées.
     

  5. Le LLM génère une sortie et renvoie une sortie à l’utilisateur.

Ce processus montre d’où la RAG tire son nom. Le système RAG récupère les données de la base de connaissances, augmente le prompt avec un contexte supplémentaire et génère une réponse.

Les composants d’un système RAG

Les systèmes RAG contiennent quatre composants principaux :

  • La base de connaissances : le référentiel de données externe pour le système.
  • Le récupérateur : un modèle d’IA qui recherche des données pertinentes dans la base de connaissances.
  • La couche d’intégration : la partie de l’architecture RAG qui coordonne son fonctionnement global.
  • Le générateur : un modèle d’IA générative qui crée une sortie basée sur la requête de l’utilisateur et les données récupérées.

Les autres composants peuvent inclure un classificateur qui classe les données récupérées en fonction de leur pertinence, et un gestionnaire de sortie qui met en forme la réponse générée pour l’utilisateur.

La base de connaissances

La première étape de la construction d’un système RAG consiste à créer une base de connaissances interrogeable. Le référentiel de données externe peut contenir des données provenant d’innombrables sources, PDF, documents, guides, sites Web, fichiers audio, etc. Il s’agit en grande partie de données non structurées, ce qui signifie qu’elles n’ont pas encore été étiquetées.

Les systèmes RAG utilisent un processus appelé embedding pour transformer les données en représentations numériques appelées vecteurs. Le modèle d’embedding vectorise les données dans un espace mathématique multidimensionnel, en organisant les points de données par similarité. Les points de données jugés plus proches en termes de pertinence sont placés à proximité les uns des autres.

Les bases de connaissances doivent être continuellement mises à jour pour maintenir la qualité et la pertinence du système RAG.

Les entrées du LLM sont limitées à la fenêtre contextuelle du modèle, soit la quantité de données qu’il peut traiter sans perdre de contexte. Le découpage d’un document en fragments plus petits permet de s’assurer que les embeddings qui en résultent ne surchargeront pas la fenêtre contextuelle du LLM dans le système RAG.

La taille des fragments est un hyperparamètre important pour le système RAG. Lorsque les fragments sont trop volumineux, les points de données deviennent trop généraux et ne correspondent plus directement aux requêtes potentielles des utilisateurs. Mais si les fragments sont trop petits, les points de données peuvent perdre la cohérence sémantique.

Le récupérateur

La vectorisation des données prépare la base de connaissances pour la recherche vectorielle sémantique, une technique qui identifie les points similaires à la requête de l’utilisateur dans la base de données. Les algorithmes de machine learning pour la recherche sémantique peuvent interroger des bases de données massives et identifier rapidement des informations pertinentes, réduisant ainsi la latence par rapport aux recherches par mot-clé traditionnelles.

Le modèle de récupération d’informations transforme la requête de l’utilisateur en un embedding, puis recherche dans la base de connaissances des embeddings similaires. Les résultats sont ensuite renvoyés à partir de la base de connaissances.

La couche d’intégration

La couche d’intégration est le centre de l’architecture RAG. Elle coordonne les processus et transmet les données autour du réseau. Avec les données ajoutées de la base de connaissances, le système RAG crée un nouveau prompt pour le composant LLM. Ce prompt se compose de la requête utilisateur d’origine et du contexte amélioré renvoyé par le modèle de récupération.

Les systèmes RAG emploient diverses techniques de prompt engineering pour automatiser la création de prompts efficaces et aider les LLM à renvoyer la meilleure réponse possible. Les cadres d’orchestration LLM, tels que les frameworks open source LangChain et LlamaIndex ou IBM® watsonx Orchestrate régissent le fonctionnement global des systèmes d’IA.

Le générateur

Le générateur crée une sortie basée sur le prompt augmenté qui lui est fourni par la couche d’intégration. Le prompt synthétise l’entrée utilisateur avec les données récupérées et indique au générateur de prendre en compte ces données dans sa réponse. Les générateurs sont généralement des modèles de langage préentraînés, tels que GPT, Claude ou Llama.

RAG et réglage fin : quelle différence ?

La différence entre la RAG et le réglage fin est que la RAG permet à un LLM d’interroger une source de données externe, tandis que le réglage fin entraîne un LLM sur des données spécifiques à un domaine. Les deux ont le même objectif général, à savoir améliorer la performance d’un LLM dans un domaine donné.

La RAG et le réglage fin sont souvent opposés, mais peuvent être utilisés en tandem. Le réglage fin augmente la familiarité d’un modèle avec le domaine prévu et les exigences de sortie, tandis que la RAG aide le modèle à générer des sorties pertinentes et de haute qualité.

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Services d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct