Es gibt viele verschiedene RAG-Bewertungsframeworks und Bewertungsmetriken. Neben Ragas gibt es noch weitere Frameworks, darunter Unitxt von IBM und Evals von OpenAI. Im Gegensatz zu den anderen Frameworks verwendet Ragas ein weiteres LLM-as-a-judge, um die Leistung einer RAG-Pipeline zu bewerten.

Es stehen mehrere Metriken zur Verfügung, um die Leistung unserer RAG-Pipeline zu messen. Die Metriken, die wir im Open-Source-Framework von Ragas verwenden werden, lassen sich in zwei Teile unterteilen:

Generationsbewertung Die Treue misst, ob alle generierten Antworten aus dem abgerufenen Kontext abgeleitet werden können. Die Antwortrelevanz misst die Relevanz der generierten Antwort auf die Frage.

Auswertung des Abrufs Die Kontextpräzision misst die Rangfolge der relevanten Entitäten im Kontext, die auf der Basis von Fakten ermittelt wurden. Höhere Kontextpräzision bedeutet, dass relevante Elemente für die Bodenwahrheit höher eingestuft werden als „Rauschen“. Kontextabruf misst, inwieweit die vom LLM generierten Antworten auf Benutzeranfragen im abgerufenen Kontext zu finden sind.



Diese Metriken sind als subjektive Näherungen dafür gedacht, wie gut eine RAG-Pipeline relevante Informationen aus ihrer Wissensbasis abruft, um eine Antwort zu formulieren. Es ist wichtig zu beachten, dass es kein Ideal für Daten, Prompts oder LLMs gibt. Selbst ein Kontext mit einer niedrigen Bewertung für context_relevance ist nicht zwangsläufig ein ungünstiger Kontext. Die niedrige Punktzahl kann auf ein gewisses Maß an „Rauschen“ oder weniger relevante Informationen zurückzuführen sein oder einfach darauf, dass die Aufgabe selbst mehrere Interpretationen zulässt. Lärm ist auch nicht unbedingt schlecht. Wir als Menschen erzeugen in unseren Antworten ein gewisses Maß an Rauschen und sind gleichzeitig bei der Beantwortung von Fragen verständlich.

Es gibt auch Verzerrungen, die die Bewertung einer RAG-Pipeline beeinflussen, wie beispielsweise die Präferenz für kürzere oder längere Antworten, auch bekannt als Längenverzerrung. Diese Art von Verzerrung kann dazu führen, dass eine Antwort aufgrund ihrer Länge und nicht aufgrund ihres Inhalts höher bewertet wird als eine andere.

Aus diesen Gründen empfiehlt es sich, mehrere Bewertungen durchzuführen. Diese Übung kann durchgeführt werden, indem die Promptvorlage, die Metriken, die Auswertungssequenz und vieles mehr geändert werden. Wenn Sie Ihren eigenen Datensatz für Ihre RAG-Pipeline erstellen, wird empfohlen, unterschiedliche Modelle für das LLM zur Generierung der Antworten und das LLM zur Bewertung der Antworten zu verwenden. Wenn für beide dasselbe Modell verwendet wird, besteht ein höheres Risiko für Verzerrungen bei der Selbstbewertung. Da diese Bewertungskriterien subjektiv sind, sollten die Ergebnisse dieser Rahmenwerke zusätzlich von menschlichen Gutachtern überprüft werden.

In diesem Tutorial erstellen wir kein RAG-System. Stattdessen verwenden wir Ragas, um die Ausgabe eines zuvor erstellten RAG-Systems auszuwerten. Weitere Informationen zum Aufbau Ihres RAG-Systems mit LangChain finden Sie in unserem ausführlichen RAG-Tutorial.