Face au développement de la génération augmentée par récupération (RAG), c’est-à-dire la connexion des LLM aux sources de données externes, la création de systèmes de chunking est devenue une nécessité. Les systèmes RAG ont été créés pour lutter contre le problème des hallucinations, lorsque les LLM fournissent des réponses qui ne reflètent pas les résultats ou informations du monde réel.
Les systèmes RAG aident les LLM à générer des réponses plus précises et plus utiles, en les reliant à des bases de connaissances supplémentaires. Dans de nombreux cas, les bases de connaissances RAG sont des bases de données vectorielles contenant des documents qui permettent aux LLM reliés d’accéder à des connaissances spécialisées. Les modèles d’embedding convertissent les documents en vecteurs mathématiques, puis font de même pour les requêtes des utilisateurs.
Le système RAG trouve dans sa base de données vectorielle les embeddings qui représentent des informations pertinentes et qui correspondent à la requête de l’utilisateur. Ensuite, le LLM utilise les données récupérées pour fournir aux utilisateurs des réponses plus pertinentes et plus précises.
Mais en raison des limites de la fenêtre contextuelle, le LLM n’est pas en mesure de traiter un document tout entier à la fois. Le chunking s’est imposé comme solution. En décomposant un document en plusieurs parties, le LLM peut trouver efficacement les morceaux pertinents en temps réel, tout en assurant la compréhension du contexte.