My IBM Se connecter S’abonner

RAG et réglage fin

14 août 2024 

Auteurs

Ivan Belcic

Staff writer

Cole Stryker

Editorial Lead, AI Models

Gather

RAG et réglage fin

La génération augmentée par récupération (RAG) et le réglage fin permettent aux entreprises de tirer le meilleur parti des grands modèles de langage (LLM). Si les deux consistent à adapter le LLM au cas d’utilisation souhaité, leurs méthodologies diffèrent considérablement.

Bien que l’IA générative ait fait du chemin depuis sa création, la génération de réponses automatisées en temps réel aux requêtes des utilisateurs reste un défi de taille. Alors que les entreprises s’efforcent d’intégrer l’IA générative dans leurs processus pour réduire les coûts, rationaliser les workflows et garder une longueur d’avance sur leurs concurrents, elles ont souvent du mal à obtenir de leurs chatbots et autres modèles la génération de réponses précises fiables.

RAG et réglage fin : quelle différence ?

La différence entre la RAG et le réglage fin, c’est que le RAG permet d’augmenter les modèles de traitement automatique du langage naturel (TAL) en les connectant à la base de données propriétaire de l’entreprise, tandis que le réglage fin consiste à optimiser les modèles d’apprentissage profond pour réaliser des tâches spécifiques à un domaine. La RAG et le réglage fin ont le même objectif : améliorer la performance du modèle pour apporter un maximum de valeur à l’entreprise qui l’utilise.

La RAG utilise les données internes d’une entreprise pour améliorer le prompt engineering, tandis que le réglage fin entraîne à nouveau un modèle sur un ensemble ciblé de données externes afin d’améliorer les performances.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Pourquoi la RAG et le réglage fin sont-ils importants ?

La RAG connecte un LLM aux magasins de données privées actuelles qui lui seraient sinon inaccessibles. Les modèles RAG peuvent fournir des réponses plus précises grâce au contexte supplémentaire fourni par ces données internes.

Lorsqu’il est entraîné sur des données spécifiques au domaine, un modèle affiné surpasse généralement son modèle de base correspondant, tel que GPT-3 ou GPT-4. Le LLM affiné a une meilleure compréhension du domaine spécifique et de sa terminologie, ce qui lui permet de générer des réponses précises.

Sans accès continu aux nouvelles données, les grands modèles de langage stagnent. Les LLM modernes sont des réseaux neuronaux massifs dont l’entraînement nécessite d’énormes ensembles de données et ressources de calcul. Même les plus grands fournisseurs de LLM, tels que Meta, Microsoft et OpenAI, réentraînent périodiquement leurs modèles, ce qui rend tout LLM presque instantanément obsolète dès sa sortie.

Lorsque les modèles ne peuvent pas apprendre à partir de nouvelles données, ils ont souvent des hallucinations ou des confabulations, un phénomène qui se produit lorsque les modèles d’IA générative « inventent » des réponses à des questions auxquelles ils ne peuvent pas répondre de manière définitive. Les modèles d’IA générative utilisent des algorithmes statistiques complexes pour prédire les réponses aux requêtes des utilisateurs. Si un utilisateur demande quelque chose que l’IA ne peut pas trouver facilement dans son ensemble de données d’entraînement, le mieux qu’elle puisse faire est de deviner.

Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Qu’est-ce que la génération augmentée par récupération (RAG) ?

La RAG est une méthode d’optimisation de LLM introduite par Meta AI dans un article de 2020 intitulé « Retrieval-Augmented Generation for Knowledge-Intensive Tasks ».[1] Il s’agit d’un cadre d’architecture de données qui connecte un LLM aux données propriétaires d’une organisation, souvent stockées dans des data lakehouses. Ces vastes plateformes de données sont dynamiques et contiennent toutes les données circulant dans l’organisation sur tous les points de contact, internes et externes.

RAG : comment ça marche ?

La génération augmentée par récupération localise dans les sources de données internes des informations pertinentes pour la requête de l’utilisateur, qu’elle utilise ensuite pour générer des réponses plus précises. Un mécanisme de récupération des données est ajouté pour augmenter le LLM afin de générer des réponses plus pertinentes.

Les modèles RAG génèrent leurs réponses en quatre étapes :

  1. Requête : un utilisateur soumet une requête qui lance le système RAG.

  2. Récupération d’informations : des algorithmes complexes passent au peigne fin les bases de connaissances de l’entreprise à la recherche d’informations pertinentes.

  3. Intégration : les données récupérées sont combinées à la requête de l’utilisateur et transmises au modèle RAG pour qu’il y réponde. À ce stade, le LLM n’a pas encore traité la requête.

  4. Réponse : en combinant les données récupérées à ses données d’entraînement et aux connaissances stockées, le LLM génère une réponse adaptée au contexte.

Lorsqu’ils recherchent des documents internes, les systèmes RAG utilisent la recherche sémantique. Les bases de données vectorielles organisent les données par similarité, permettant ainsi des recherches par signification plutôt que par mot clé. Les techniques de recherche sémantique permettent aux algorithmes RAG d’aller au-delà des mots clés pour atteindre l’intention d’une requête et renvoyer les données les plus pertinentes.

Les systèmes RAG nécessitent une construction et une maintenance élaborées de l’architecture de données. Les ingénieurs de données doivent créer les pipelines de données nécessaires pour connecter les data lakehouses de leur organisation au LLM.

Pour conceptualiser la RAG, imaginez un modèle d’IA générative comme un cuisinier amateur à la maison. La personne connaît les bases de la cuisine, mais n’a pas les connaissances spécialisées (la base de données propriétaires d’une organisation) d’un chef formé à une cuisine plus sophistiquée. La RAG est comme donner un livre de recettes à un cuisinier. En combinant ses connaissances culinaires générales avec les recettes du livre de cuisine, il peut facilement confectionner ses plats préférés.

Le processus de récupération des données RAG

Pour utiliser efficacement la RAG, les ingénieurs de données doivent créer des systèmes et des pipelines de stockage des données qui répondent à plusieurs critères importants.

Stockage des données d’entreprise

Pour améliorer les fonctions du système RAG et permettre une récupération des données en temps réel, ces dernières doivent être méticuleusement organisées et gérées. Actualiser les métadonnées et assurer une redondance des données minimale permet de garantir un traitement efficace des requêtes.

Stockage des documents

La division des données non structurées, telles que les documents, en fragments plus petits peut faciliter la récupération. La fragmentation des données de cette manière permet aux systèmes RAG de renvoyer des données plus précises tout en réduisant les coûts, car seule la partie la plus pertinente du document sera incluse dans le prompt pour le LLM.

Les fragments sont ensuite intégrés (un processus qui convertit le texte en chiffres) dans une base de données vectorielle.

Protection des données

Les pipelines de données doivent inclure des restrictions de sécurité pour empêcher les employés d’accéder aux données au-delà du champ d’action de leurs rôles respectifs. De plus, à la suite de l’adoption de lois historiques sur la protection de la vie privée comme le RGPD de l’UE, les entreprises doivent appliquer des protections de données rigoureuses à toutes les données internes. Les informations personnelles identifiables (PII) ne doivent jamais être mises à la disposition d’utilisateurs non autorisés.

Optimisation des invites

Le système RAG combine la requête de l’utilisateur avec les données sourcées pour créer un prompt sur mesure pour le LLM. Un processus continu de prompt-tuning facilité par d’autres modèles de machine learning peut renforcer la capacité du système RAG à répondre aux questions au fil du temps.

Qu’est-ce que le réglage fin ?

Le réglage fin consiste à réentraîner un modèle pré-entraîné sur un ensemble de données d’apprentissage plus petit et plus ciblé pour lui apporter des connaissances spécifiques au domaine. Le modèle ajuste ensuite ses paramètres (les directives régissant son comportement) et ses plongements lexicaux (embeddings) pour mieux s’adapter à l’ensemble de données spécifique.

Comment fonctionne le réglage fin ?

Le réglage fin consiste à exposer un modèle à un ensemble de données d’exemples étiquetés. Le modèle améliore son entraînement initial, car il met à jour ses poids de modèle en fonction des nouvelles données. Le réglage fin est une méthode d’apprentissage supervisé, c’est-à-dire que les données utilisées pour l’entraînement sont organisées et étiquetées. En revanche, la plupart des modèles de base sont soumis à un apprentissage non supervisé pour lequel les données ne sont pas triées ; le modèle doit donc les classer tout seul.

Pour revenir à notre exemple de cuisinier amateur, le réglage fin d’un modèle d’IA générative est comme un cours de cuisine plus élaborée. Avant de suivre le cours, le cuisinier doit connaître les bases de la cuisine. Après avoir suivi une formation culinaire et acquis des connaissances spécifiques à un domaine, il sera bien plus compétents dans la préparation de plats plus sophistiqués.

Réglage fin intégral et réglage fin efficace des paramètres

Les modèles peuvent être soit entièrement affinés, ce qui met à jour tous leurs paramètres, soit affinés de manière à ne mettre à jour que les paramètres les plus pertinents. Ce dernier processus est connu sous le nom de réglage fin efficace des paramètres (PEFT, Parameter-Efficient Fine-Tuning) et excelle à rendre les modèles plus efficaces dans un certain domaine, et ce à moindre coût.

Le réglage fin d’un modèle est gourmand en ressources informatiques et nécessite l’exécution en parallèle de plusieurs GPU puissants, sans parler de la mémoire pour stocker le LLM lui-même. Le PEFT permet aux utilisateurs de LLM de réentraîner leurs modèles sur des configurations matérielles plus simples tout en obtenant des améliorations de performances comparables dans le cas d’utilisation prévu du modèle, comme le support client ou l’analyse des sentiments. Le réglage fin est particulièrement efficace pour aider les modèles à surmonter les biais, qui sont un écart entre les prédictions du modèle et les résultats effectifs du monde réel.

Réglage fin et pré-entraînement continu

Le pré-entraînement intervient au tout début du processus d’entraînement. Les poids ou les paramètres du modèle sont initialisés de manière aléatoire et le modèle commence à s’entraîner sur son ensemble de données initial. Le pré-entraînement continu introduit un modèle entraîné sur un nouvel ensemble de données non étiquetées selon une pratique dénommée apprentissage par transfert. Le modèle pré-entraîné « transfère » ce qu’il a appris jusqu’à présent vers de nouvelles informations externes.

En revanche, le réglage fin utilise des données étiquetées pour affiner les performances d’un modèle dans un cas d’utilisation donné. Le réglage fin permet d’affiner l’expertise d’un modèle sur des tâches spécifiques, tandis que le pré-entraînement continu permet d’approfondir l’expertise du modèle.

Solutions connexes

Solutions connexes

IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Services d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct
Notes de bas de page

1 « Retrieval-Augmented Generation for Knowledge-Intensive NLP Task », Lewis et al, 12 avril 2021.