Que sont les bases de données vectorielles RAG ?

Bases de données vectorielles RAG, définies

Les bases de données vectorielles de génération augmentée de récupération (RAG) combinent IA avec une recherche avancée, permettant aux grands modèles de langagede récupérer les informations pertinentes en temps réel et de générer des réponses plus précises et contextuelles.

Une base de données vectorielle RAG se compose de deux composants clés : une architecture de récupération (RAG) et une couche de données (bases de données vectorielles).

Qu’est-ce que la RAG ?

La RAG est une architecture qui connecte un modèle de langage à des sources de connaissances externes, lui permettant de récupérer des informations pertinentes et d’intégrer ce contexte dans ses réponses au moment de la requête. Cette approche répond aux limites courantes des LLM, notamment l’arrêt des connaissances, les hallucinations et l’absence de spécificités dans un domaine.

Qu’est-ce que les bases de données vectorielles ?

Une base de données vectorielle (ou DB vectorielle) stocke et récupère des données sous forme de représentations numériques appelées plongements vectoriels , permettant une recherche basée sur la similarité sémantique plutôt que sur des correspondances exactes de mots clés. Ce processus permet aux systèmes de récupérer des informations en fonction du sens, même lorsque la formulation diffère.

Les gains de performance de cette technologie sont mesurables. Lorsque Wikimedia Deutschland a eu besoin de rendre le graphe de connaissances de 120 millions d'entrées de Wikidata accessible aux gestionnaires de bases de données, ils ont choisi DataStax Astra DB sur IBM watsonx.data comme base de données vectorielle. Résultat : des requêtes 30 fois plus rapides que le calcul vectoriel local et une réduction de 90 % du temps de développement, ce qui a permis à l'équipe de se concentrer sur la construction plutôt que sur la maintenance de l'infrastructure.

Dans la plupart des applications RAG, les systèmes RAG reposent sur des bases de données vectorielles ou des techniques d'indexation vectorielle pour permettre la recherche sémantique. Néanmoins, la recherche vectorielle n'est pas strictement obligatoire. Les architectures RAG peuvent également intégrer la recherche par mot-clé, les requêtes structurées ou des approches hybrides, selon le cas d’utilisation.

L’importance des bases de données vectorielles RAG

Les bases de données vectorielles RAG redéfinissent la manière dont les systèmes de machine learning et d'IA générative (IA générative) accèdent à l'information et l'appliquent. Au lieu de considérer la connaissance comme quelque chose de fixe à l'intérieur d'un modèle, ils la considèrent comme quelque chose qui peut être récupéré, évalué et utilisé de manière dynamique dans le contexte.

Ce changement a des implications dans quatre domaines clés : les connaissances, la récupération, l’ancrage et les opérations.

Connaissances

Même les modèles les plus avancés sont limités par leurs données d'entraînement. À mesure que ces données vieillissent ou que les cas d’utilisation deviennent plus spécialisés, des lacunes commencent à apparaître.

La RAG résout ce problème en introduisant ce que les chercheurs décrivent souvent comme une « mémoire non paramétrique », à savoir des connaissances externes qui peuvent être interrogées au moment de l’exécution plutôt que stockées dans les paramètres du modèle.1

Récupération

Les systèmes de recherche traditionnels s'appuient généralement sur la correspondance des mots-clés, ce qui suppose que les utilisateurs et les données utilisent le même langage. En pratique, ce n’est souvent pas le cas. Les bases de données vectorielles permettent de passer d’une correspondance de mots à une correspondance de sens, en utilisant la similarité vectorielle pour comparer le niveau d’alignement des représentations.

Les approches hybrides de récupération utilisées dans les systèmes RAG combinent la recherche sémantique avec les méthodes de recherche traditionnelles pour améliorer à la fois le rappel et la précision, en particulier dans les environnements d’entreprise où les données sont hétérogènes et complexes.2

Ancrage

Les modèles génératifs sont probabilistes, ce qui signifie qu’ils génèrent des réponses plausibles, et non des faits vérifiés. Ceci crée un risque d'hallucination.

RAG atténue ce problème en fondant les réponses sur les données récupérées. Des études dans des domaines tels que la santé et la formation montrent que combiner la récupération et la génération améliore la précision factuelle et la fiabilité des systèmes de questions-réponses.3

Opérations

La RAG modifie la maintenance et la mise à l’échelle des systèmes d’IA. Au lieu de reformuler les modèles pour intégrer de nouvelles connaissances, les organisations peuvent mettre à jour les données sous-jacentes ou la logique d'extraction, ce qui permet une itération plus rapide et une plus grande adaptabilité aux différents cas d'utilisation.

En conséquence, le RAG est devenu un modèle architectural dominant dans les systèmes d’IA modernes, en particulier dans les environnements d’entreprise et les applications destinées aux consommateurs où les modèles doivent accéder à des données à jour ou externes pour générer des réponses précises.

AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Comment fonctionnent les bases de données vectorielles RAG

À un niveau élevé, les bases de données vectorielles RAG suivent une séquence structurée :

  1. Un utilisateur soumet une invite
  2. Les tokens sont convertis en embeddings
  3. La base de données vectorielle récupère des embeddings similaires
  4. Les données récupérées sont classées selon leur pertinence par rapport à la requête originale
  5. Le contexte du modèle est enrichi par les données récupérées
  6. Le modèle génère une réponse
Génération augmentée de récupération

1. Un utilisateur envoie une prompt

Chaque interaction commence par une requête de l'utilisateur exprimée en langage naturel. À ce stade, l'entrée existe sous la forme de tokens—les unités de texte que les modèles de langage traitent. Les tokens représentent la manière dont la langue est écrite et structurée, mais ils ne permettent pas encore de saisir le sens d'une manière qui puisse faire l'objet d'une recherche.

2. Les jetons sont convertis en éléments intégrés

Pour rendre la requête consultable, elle est transformée en un embedding qui fournit une représentation numérique du sens. L'un des moyens de comprendre cela est de passer par la géographie.

  • Les tokens sont comme des noms de lieux : « New York », « New York », « Manhattan ».
  • Lesplongements sont comme des coordonnées : la latitude et une longitude.

En convertissant des jetons en embeddings, le système passe du langage à un espace où le sens peut être comparé mathématiquement (espace vectoriel de haute dimension).

3. La base de données vectorielle récupère des embeddings similaires

Une fois la requête représentée comme un embedding (ou vecteur de requête), la base de données vectorielle recherche des vecteurs similaires. Ce processus repose sur des indicateurs de similitude tels que la similitude des cosinus, qui mesurent la précision avec laquelle les vecteurs s'alignent dans un espace de grande dimension. De nombreux systèmes incluent également des couches de classement qui priorisent les résultats les plus pertinents, améliorant la précision et la cohérence.

4. Les données extraites sont classées en fonction de leur pertinence par rapport à la requête initiale.

Le système récupère des segments plus petits ou « chunking » de données associés aux embeddings les plus similaires. Ce processus, connu sous le nom de « chunking », détermine la qualité de la recherche en fonction de la façon dont les morceaux sont définis. S’ils sont trop grands, la récupération peut manquer de précision. S'ils sont trop petits, ils risquent de perdre leur contexte.

5. Le contexte du modèle est enrichi des données récupérées

Les informations récupérées sont insérées dans les données d'entrée du modèle, ce que l'on appelle une augmentation rapide. La requête originale et le contexte récupéré forment une seule séquence de tokens. Le modèle ne fait pas de distinction entre eux. Il traite simplement l'entrée combinée et génère une réponse, ce qui rend la structure prompt critique.

6. Le modèle génère une réponse

Une fois le prompt augmenté en place, le modèle génère alors une réponse. Cette étape met en évidence la différence entre le RAG et des processus tels que le réglage fin, qui modifie les paramètres internes d'un modèle, en intégrant la connaissance directement dans le modèle. RAG récupère les connaissances à l’exécution, laissant le modèle inchangé. En d’autres termes, le réglage fin améliore ce que le modèle sait, tandis que la RAG améliore ce à quoi le modèle peut accéder.

Composants principaux d’un système de base de données vectorielle RAG

Les systèmes de bases de données vectorielles RAG ne sont pas un outil unique, mais un ensemble coordonné de composants qui fonctionnent ensemble pour structurer et générer des réponses. Les principaux éléments de ce processus sont les suivants :

  • Base de connaissances
  • Modèle d’embedding
  • base de données vectorielle
  • Récupérateur
  • Couche d’intégration
  • Générateur

Base de connaissances

La base de connaissances est la source externe de vérité du système. Il contient les données que le modèle va extraire, qui peuvent inclure des documents, des PDF, des dossiers structurés, des tickets d'assistance ou tout autre contenu non structuré.

Dans les entreprises, ces données sont souvent fragmentées entre différents systèmes et formats. Par conséquent, la qualité de la base de connaissances a un impact direct sur la qualité des résultats du système.

Modèle d’embedding

Le modèle d'embedding traduit le langage naturel en représentations vectorielles qui capturent le sens.

Ce composant détermine comment les informations sont positionnées dans l'espace sémantique et comment les requêtes et les documents sont comparés lors de la recherche. Si le modèle d'embedding ne parvient pas à saisir des nuances spécifiques au domaine, telles que la terminologie technique ou les relations contextuelles, la qualité de récupération en pâtira.

base de données vectorielle

La base de données vectorielle stocke et indexe les embeddings, permettant une recherche rapide de similarité à travers de grands jeux de données. Son rôle ne se limite pas au stockage, mais inclut également les performances de récupération. Les techniques d’indexation telles que la recherche approximative des plus proches voisins (ANN) permettent au système de localiser rapidement les vecteurs pertinents, même à l’échelle. Une recherche récente d'IBM montre que des systèmes sont capables de gérer des dizaines, voire des centaines de milliards de vecteurs.

Parallèlement, les bases de données vectorielles prennent souvent en charge le filtrage des métadonnées et la recherche hybride, permettant aux systèmes d’affiner les Résultats en fonction de contraintes supplémentaires telles que la date, les Categories ou la source.

Récupérateur

Le récupérateur agit comme l’interface entre la requête utilisateur et la base de données vectorielle. Il utilise un modèle d'embedding pour convertir la requête en une représentation vectorielle, exécute la recherche à l'aide d'interfaces de programmation d’application (API) ou de kits de développement de logiciels (SDK) et renvoie les Résultats les plus pertinents.

Ce processus constitue la base de la recherche moderne en IA. Dans des systèmes plus avancés, le récupérateur peut également inclure une logique de classement, des mécanismes de filtrage ou des stratégies de récupération en plusieurs étapes pour améliorer la précision.

Couche d’intégration

La couche d'Intégration régit le système, en gérant la circulation des données entre les composants et la construction des prompts. Elle prend les résultats récupérés, les organise et les insère dans l'entrée du modèle de manière structurée.

L’intégration est là où les frameworks d’ingénierie prompt et d’orchestration entrent en jeu, garantissant que le modèle reçoit un contexte clair et pertinent. Souvent, les systèmes sont construits à l’aide d’une combinaison d’outils open source , de bibliothèques Python et de plateformes de bases de données vectorielles telles que Pinecone ou Milvus. C'est cette coordination qui, en fin de compte, permet une recherche évolutive de l'IA dans les applications et les ensembles de données à grande échelle.

Générateur

Le générateur est le modèle de langage responsable de la réponse finale. Il ne récupère pas les informations lui-même. Au lieu de cela, il interprète le prompt augmenté et génère une réponse en fonction du contexte qui lui a été donné. Cette distinction est importante. Le rôle du générateur n’est pas de tout « savoir », mais plutôt de synthétiser et d’exprimer les informations fournies par le système.

Considérations relatives à la base de données vectorielles RAG

La conception et le déploiement de bases de données vectorielles RAG impliquent des compromis entre précision, performance et complexité du système. Bien que l'architecture soit conceptuellement simple, son efficacité dépend de la manière dont chaque composant est adapté à la tâche à accomplir. Les considérations comprennent souvent :

  • Qualité de récupération
  • Stratégie de regroupement
  • Limites de taille des fenêtres contextuelles
  • Latence et complexité
  • Sécurité et gouvernance

Qualité de récupération

Les systèmes RAG ont besoin de la récupération comme principale source d’information. Si le système récupère des informations incomplètes ou non pertinentes, le modèle générera une réponse erronée. Ce défi provient souvent de l'embedding de qualité et de classement. Les embeddings peuvent manquer de nuances spécifiques au domaine, tandis que la recherche par similarité peut faire apparaître des résultats techniquement proches mais contextuellement erronés.

Pour y remédier, les systèmes modernes intègrent des couches de reclassement, des modèles d’embedding spécifiques à un domaine et des techniques hybrides de récupération qui combinent similarité sémantique avec filtrage structuré.

Stratégie de découpage

La performance de la récupération est également influencée par la manière dont les données sont segmentées. Comme les documents sont divisés en petits morceaux avant d'être récupérés, des stratégies de découpage mal définies peuvent fragmenter le sens ou réduire la précision. Souvent, les équipes traitent le découpage comme un élément de conception, équilibrant la spécificité et le contexte.

Limites de taille de la fenêtre contextuelle

Même lorsque la récupération est efficace, le modèle ne peut traiter qu'une quantité limitée d'informations à la fois (sa fenêtre contextuelle). Dans les requêtes complexes, en particulier celles qui nécessitent une synthèse entre plusieurs sources, cette limitation peut restreindre le raisonnement en obligeant le système à prioriser ce qui est le plus pertinent. Les systèmes rentables considèrent le contexte comme une ressource rare, en utilisant des techniques telles que la synthèse et la récupération sélective pour en maximiser la valeur.

Latence et complexité

RAG introduit des étapes supplémentaires dans le pipeline d'inférence, y compris la génération d'embedding, la recherche de vecteurs et la construction du prompt. Si chaque étape apporte une valeur ajoutée, elle ajoute également un temps de latence.

Dans les applications d'IA en temps réel, même de petits retards peuvent affecter l'expérience utilisateur. Dans les déploiements à grande échelle, ils peuvent poser des problèmes de débit et de réactivité. C'est pourquoi les systèmes de production s'appuient souvent sur des techniques d'indexation optimisées, telles que la recherche ANN, la mise en cache et le traitement parallèle, afin de concilier précision et complexité.

Sécurité et gouvernance

Parce que les systèmes RAG connectent les modèles à des sources de données externes, ils introduisent de nouvelles considérations de sécurité concernant l’accès aux données, la confidentialité et la conformité.

Contrairement aux modèles traditionnels, où la connaissance est intégrée aux paramètres, les applications RAG fonctionnent sur des données en temps réel. Cela permet des mises à jour en temps réel et un contrôle d'accès, mais nécessite également des mesures de protection, telles que des garde-fous, afin de garantir la protection des informations sensibles tout au long de la chaîne.

Les bases de données vectorielles, en particulier, stockent des embeddings dérivés des données sources. Bien qu'il ne s'agisse pas de copies directes, ces représentations peuvent faire l'objet d'une rétro-ingénierie afin de déduire les informations sous-jacentes. Par conséquent, les systèmes RAG d'entreprise nécessitent des cadres de gouvernance solides, y compris le chiffrement, les contrôles d'accès et l'auditabilité.

Cas d’utilisation des bases de données vectorielles RAG

Les bases de données vectorielles RAG sont particulièrement précieuses dans des situations où l’information est vaste, dynamique et difficile à naviguer avec des interfaces traditionnelles. Exemples :

Chatbots Enterprise et assistants de connaissance

Les bases de données vectorielles RAG alimentent à la fois les chatbots d'entreprise et les assistants de connaissance internes en récupérant et en synthétisant en temps réel des informations provenant de sources de données distribuées de grande taille. Ceci permet aux chatbots de fournir des réponses d'assistance actualisées, tout en aidant les employés à interroger les documents internes et les flux de travail en utilisant le langage naturel sans avoir à effectuer des recherches dans plusieurs systèmes.

Workflows de recherche et d'analytique

Dans des domaines tels que la finance, la santé et l’analyse juridique, les systèmes RAG présentent des informations pertinentes provenant de multiples sources dans leur contexte, permettant aux utilisateurs de poser des questions complexes et en plusieurs parties et de recevoir des réponses synthétisées. Il en résulte une amélioration de la rapidité et de la précision de la prise de décision.

Les systèmes de recommandation

Les bases de données vectorielles RAG améliorent les moteurs de recommandation en permettant une similarité sémantique entre les préférences et le contenu des utilisateurs. Ces systèmes peuvent générer des explications en même temps que des recommandations, en faisant apparaître des résultats basés non seulement sur le comportement passé, mais aussi sur des fonctionnalités partagées, des avis ou des schémas d'utilisation extraits des données sous-jacentes.

L’avenir des bases de données vectorielles RAG

Les bases de données vectorielles RAG évoluent rapidement à mesure que les organisations passent de mises en œuvre expérimentales à des systèmes à l’échelle de production. La recherche et le développement industriel révèlent plusieurs tendances émergentes, notamment :

  • Récupération agentique
  • Architectures de récupération hybrides
  • Systèmes de connaissances en temps réel
  • RAG multimodal et raisonné

Récupération agentique 

Les premiers systèmes RAG suivaient des pipelines fixes : récupérer, augmenter, générer. Les systèmes émergents introduisent des comportements plus dynamiques.

La recherche agentique permet aux modèles de décider quoi, quand et comment récupérer les informations. Au lieu d’une seule étape de récupération, les systèmes peuvent effectuer plusieurs actions de récupération, affiner des requêtes ou demander un contexte supplémentaire lors de la génération.

Des recherches récentes sur les agents IA suggèrent que cette approche peut améliorer les performances dans les tâches complexes à plusieurs étapes, en particulier celles qui nécessitent un raisonnement itératif ou une exploration.⁴

Architectures hybrides de récupération

Si la recherche vectorielle reste fondamentale, elle est de plus en plus souvent associée à la recherche par mot clé, au filtrage des métadonnées et, dans certains cas, à la recherche basée sur les graphes (GraphRAG). Cette coordination permet aux systèmes de capturer à la fois le sens sémantique et les relations structurées, améliorant ainsi la précision et le rappel dans les environnements complexes.

Systèmes de connaissances en temps réel

Les systèmes RAG évoluent vers des pipelines en temps réel qui ingèrent et mettent à jour des informations en permanence. Cela réduit l'écart entre la création et la disponibilité des données, ce qui permet aux systèmes de répondre aux changements au fur et à mesure qu'ils se produisent.

Dans des environnements tels que les marchés financiers ou la surveillance opérationnelle, cette capacité devient essentielle. Les progrès en matière de flux de données et d'indexation incrémentale permettent aux bases de données vectorielles de mettre à jour les embedding sans retraitement complet.

RAG multimodal et basé sur le raisonnement

RAG s'étend au-delà du texte pour intégrer des images, du son et des données structurées, ce qui permet aux modèles d'extraire et de raisonner à travers de multiples modalités.

Parallèlement, la recherche sur la RAG axée sur le raisonnement améliore la manière dont les modèles synthétisent les informations récupérées, passant d’une simple récupération à des workflows de raisonnement plus structurés, à plusieurs étapes.

Auteurs

Tom Krantz

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Solutions connexes
IBM StreamSets

Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.

Découvrir StreamSets
IBM watsonx.data

watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.

Découvrir watsonx.data
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.

  1. Découvrir les solutions de gestion des données
  2. Découvrir watsonx.data