La génération augmentée de récupération (RAG) connecte un LLM à une source externe de données pour étendre sa base de connaissances. Lorsqu’un utilisateur envoie une requête, le système RAG recherche les informations pertinentes dans la base de données couplée, puis les combine avec la requête pour donner au LLM plus de contexte lors de la génération d’une réponse.

RAG utilise l’embedding pour transformer une base de données, une source de code ou d’autres informations en une base de données vectorielle consultable. Les embeddings tracent mathématiquement chaque point de données dans un espace vectoriel tridimensionnel. Pour trouver les données pertinentes, le modèle de recherche d’informations du système RAG convertit les requêtes des utilisateurs en embeddings et localise les embeddings similaires dans la base de données vectorielle.

Les systèmes RAG suivent généralement la même séquence standard :

Invites : l’utilisateur soumet une invite dans l’interface utilisateur, telle qu’un chatbot alimenté par l’IA. Recherche : un modèle de recherche d’informations convertit le prompt en embedding et interroge la base de données pour des données similaires. Récupération : le modèle d’extraction extrait les données pertinentes de la base de données. Génération : le système RAG combine les données récupérées avec la requête de l’utilisateur et les envoie au LLM, qui génère une réponse. Livraison : le système RAG renvoie la réponse générée à l’utilisateur.

RAG doit son nom à la manière dont les systèmes RAG récupèrent les données pertinentes et les utilisent pour compléter la réponse générée par le mécanisme d’apprentissage tout au long de la vie. Les systèmes RAG plus complexes introduisent des composants supplémentaires pour affiner le processus et améliorer encore la qualité de la réponse.