Die Entwicklung der Retrieval-Augmented Generation (RAG), die LLMs mit externen Datenquellen verbindet, erforderte die Entwicklung von Chunking-Systemen. RAG-Systeme wurden entwickelt, um dem Problem der Halluzinationen entgegenzuwirken: wenn LLMs Antworten lieferten, die nicht den Ergebnissen oder Informationen aus der realen Welt entsprachen.
RAG-Systeme helfen LLMs, genauere und nützlichere Antworten zu generieren, indem sie diese mit zusätzlichen Wissensdatenbanken verknüpfen. In vielen Fällen handelt es sich bei RAG-Wissensdatenbanken um Vektordatenbanken, die Dokumente enthalten, die dem verbundenen LLM Zugang zu domänenspezifischem Wissen ermöglichen. Einbetten-Modelle wandeln Dokumente in mathematische Vektoren um und machen dann dasselbe für Benutzerabfragen.
Das RAG-System findet Einbettungen in seiner Vektordatenbank, die relevante Informationen darstellen und der Benutzerabfrage entsprechen. Anschließend verwendet das LLM die abgerufenen Daten, um den Benutzern relevantere und genauere Antworten zu geben.
Aufgrund der Beschränkungen des Kontextfensters ist das LLM jedoch nicht in der Lage, ein einzelnes Dokument auf einmal zu verarbeiten. Chunking erwies sich als Lösung. Durch das Zerlegen eines Dokuments in Teile kann das LLM relevante Teile in Echtzeit effizient finden und gleichzeitig ein kontextuelles Verständnis aufrechterhalten.