Advanced RAG funktioniert als sequenzieller, schrittbasierter Prozess wie folgt:

1. Abfrageverarbeitung: Nach Erhalt einer Benutzeranfrage wird sie mithilfe des Einbettenmodells, das die semantische Bedeutung der Abfrage erfasst, in einen hochdimensionalen Vektor umgewandelt.

2. Abrufen von Dokumenten: Die kodierte Abfrage durchläuft eine riesige Wissensdatenbank, die eine hybride Abfrage ermöglicht, indem sie sowohl die dichte Vektorsuche als auch die spärliche Abfrage, d. h. die semantische Ähnlichkeit und die schlagwortbasierte Suche, verwendet. Die Ergebnisse führen somit semantische Schlüsselwortübereinstimmungen in die abgerufenen Dokumente ein.

3. Neubewertung der abgerufenen Dokumente: Der Retriever gibt eine Endbewertung ab, die auf dem Kontext und in Bezug auf die Abfrage, bei der die Dokumente abgerufen wurden, basiert.

4. Kontextuelle Fusion für die Generierung: Da jedes Dokument anders codiert ist, fusioniert der Decoder alle codierten Kontexte, um sicherzustellen, dass die generierten Antworten mit der codierten Abfrage kohärent sind.

5. Antwortgenerierung: Der Generator für fortgeschrittene RAG, in der Regel ein LLM, wie das IBM Granite®-Modell oder Llama, liefert die Antwort auf der Grundlage der abgerufenen Dokumente.

6. Feedback-Schleife: Als Fortgeschrittene verwendet RAG verschiedene Techniken wie aktives Lernen, Reinforcement Learning und Retriever-Generator-Cotraining, um seine Leistung kontinuierlich zu verbessern. Während dieser Phase treten implizite Signale auf, wie z. B. Klicks auf abgerufene Dokumente, die auf eine Relevanz schließen lassen und explizites Feedback wie Korrekturen oder Bewertungen zur weiteren Anwendung während der Generierung auslösen. Daher verbessern diese Strategien im Laufe der Jahre sowohl den Abruf als auch die Antwortgenerierungsprozesse, so dass genauere und relevantere Antworten erstellt werden können6.