LLM-Bewertung: Warum das Testen von KI-Modellen wichtig ist

Zwei Personen blicken nachdenklich auf einen Computermonitor

Autoren

Amanda McGrath

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

Stellen Sie sich vor, ein Unternehmen stellt einen neuen Mitarbeiter ein. Sein Lebenslauf ist ausgezeichnet und er erledigt alle seine Aufgaben schnell und effizient. Seine Arbeit wird im Prinzip erledigt – aber wird sie auch gut erledigt? Ist sie qualitativ hochwertig, korrekt und zuverlässig?

Wie bei jeder Neueinstellung nehmen sich die Manager die Zeit, die Arbeit zu überprüfen, um sicherzustellen, dass der Mitarbeiter den Unternehmensstandards entspricht und eine angemessene Leistung erbringt. Da künstliche Intelligenz (KI) eine größere Rolle bei Geschäftsergebnissen und Entscheidungen spielt, müssen Unternehmen das Gleiche für LLMs tun.

Große Sprachmodelle (Large Language Models, LLMs) sind Foundation Models, die mit riesigen Datenmengen trainiert und für Aufgaben verwendet werden, die mit dem Verstehen und Generieren von Text zusammenhängen. Diese Art von KI-System ist beispielsweise besonders nützlich für Arbeiten wie die Erstellung von Inhalten, Zusammenfassungen und Stimmungsanalysen.

LLMs haben den Bereich der Verarbeitung natürlicher Sprache (NLP) revolutioniert und generative KI auf neue Weise in die Öffentlichkeit gerückt. Chat GPT-3 und GPT-4 von OpenAI sowie Llama von Meta sind die bekanntesten Beispiele, aber eine breite Palette von LLMs wird in verschiedenen Bereichen verwendet. LLMs unterstützen KI-Tools wie Chatbots, virtuelle Assistenten, Sprachübersetzungstools und Codegenerierungssysteme.

Da LLM-Anwendungen immer breiter eingesetzt werden, insbesondere in wichtigen Branchen wie dem Gesundheits- und Finanzwesen, wird die Prüfung ihrer Ausgaben immer wichtiger. Hier kommt die LLM-Evaluierung ins Spiel.

Was ist LLM-Evaluierung?

Bei der LLM-Evaluierung handelt es sich um den Prozess der Bewertung der Leistung und Funktionen großer Sprachmodelle. Manchmal auch einfach als „LLM-Evaluierung“ bezeichnet, werden diese Modelle mithilfe verschiedener Aufgaben, Datensätze und Metriken getestet, um ihre Effektivität zu messen.

Evaluierungsmethoden können automatisierte Benchmarks oder von Menschen durchgeführte Bewertungen sein, die die Stärken und Schwächen eines LLM ermitteln. Die Ausgaben des Modells werden dabei mit Ground-Truth-Daten (Informationen, die als wahr angesehen werden) oder von Menschen generierten Antworten verglichen, um die Richtigkeit, Kohärenz und Zuverlässigkeit des Modells zu bestimmen. Die Ergebnisse der LLM-Evaluierung helfen Forschern und Entwicklern, Bereiche mit Verbesserungspotenzial zu identifizieren. Evaluationsprozesse sind auch ein zentraler Bestandteil von Large Language Model Operations(LLMOps), die das operative Management von LLMs beinhalten.

Warum ist LLM-Evaluierung wichtig?

Da LLMs im Alltag eine immer größere Rolle spielen, hilft ihre Evaluierung, sicherzustellen, dass sie wie beabsichtigt funktionieren. Über die technischen Anforderungen hinaus trägt die LLM-Evaluierung auch dazu bei, Vertrauen bei Benutzern und Stakeholdern aufzubauen.

Die LLM-Evaluierung kann bei Folgendem helfen:

  • Modellleistung
  • Ethische Überlegungen
  • Vergleichendes Benchmarking
  • Entwicklung neuer Modelle
  • Vertrauen von Benutzern und Stakeholdern

Modellleistung

Die LLM-Evaluierung zeigt, ob das Modell wie erwartet funktioniert und qualitativ hochwertige Ausgaben für alle seine Aufgaben und Bereiche generiert. Über die grundlegende Funktionalität hinaus kann die Evaluierung Nuancen des Sprachverständnisses, der Generierungsqualität und der aufgabenspezifischen Kompetenz aufdecken. Sie kann auch potenzielle Schwachstellen wie Wissenslücken oder Inkonsistenzen in der Argumentation aufzeigen, was es Forschern und Entwicklern ermöglicht, Verbesserungen gezielter zu gestalten.

Ethische Überlegungen

Bei ihrer Entwicklung werden LLMs durch menschliche Verzerrung beeinflusst, insbesondere durch Trainingsdaten. Die Evaluierung ist eine Möglichkeit, potenzielle Vorurteile oder Ungenauigkeiten in den Modellantworten zu erkennen und zu mindern. Ein Fokus auf KI-Ethik trägt dazu bei, sich davor zu schützen, dass die Technologie soziale Ungleichheiten aufrechterhält, und unterstützt sachliche Ergebnisse.

Vergleichendes Benchmarking

Die LLM-Evaluierung ermöglicht es, die Leistung verschiedener Modelle zu vergleichen und das beste Modell für den spezifischen Anwendungsfall auszuwählen. Sie bietet ein standardisiertes Mittel zum Vergleich von Ergebnissen von rohen Leistungsmetriken mit Faktoren wie Recheneffizienz und Skalierbarkeit.

Entwicklung neuer Modelle

Die aus der LLM-Evaluierung gewonnenen Erkenntnisse können bei der Entwicklung neuer Modelle helfen. Sie helfen Forschern, neue Trainingstechniken, Modelldesigns oder spezifische Funktionen zu entwickeln.

Vertrauen von Benutzern und Stakeholdern

Die LLM-Evaluierung unterstützt die Transparenz in der Entwicklung und schafft Vertrauen in die Ausgaben. Auf diese Weise hilft sie Unternehmen, realistische Erwartungen zu setzen und das Vertrauen in KI-Tools zu stärken.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Think Newsletter. 

LLM-Modellevaluierung vs. LLM-Systemevaluierung

Die LLM-Evaluierung und die LLM-Systemevaluierung sind zwar eng miteinander verwandt, haben aber unterschiedliche Schwerpunkte.

Die LLM-Evaluierung (die auch als LLM-Modellevaluierung bezeichnet werden kann) beurteilt, wie gut ein Modell funktioniert. Sie befasst sich mit dem Kernsprachmodell selbst und konzentriert sich auf seine Fähigkeit, Text über verschiedene Aufgaben und Bereiche hinweg zu verstehen und zu generieren. Die Modellevaluierung umfasst in der Regel das Testen der grundlegenden Funktionen des Modells. Zu diesen Funktionen gehören das Sprachverständnis, die Qualität der generierten Ergebnisse und die aufgabenspezifische Leistung.

Die LLM-Systemevaluierung ist umfassender und bietet Einblicke in die End-to-End-Leistung der LLM-gestützten Anwendung. Die Systemevaluierung betrachtet das gesamte Ökosystem, das um ein LLM herum aufgebaut ist. Dazu gehören Skalierbarkeit, Sicherheit und Integration mit anderen Komponenten, wie APIs oder Datenbanken.

Kurz gesagt: Bei der Modellevaluierung geht es darum, sicherzustellen, dass das LLM für bestimmte Aufgaben funktioniert, während die Systemevaluierung einen ganzheitlicheren Blick auf die Nutzung und Effektivität des LLM gewährt. Beide sind für die Entwicklung robuster und effektiver LLM-Anwendungen unerlässlich.

LLM-Evaluierungsmetriken

Der erste Schritt bei der LLM-Evaluierung besteht darin, die allgemeinen Evaluierungskriterien auf der Grundlage der beabsichtigten Verwendung des Modells zu definieren. Es gibt zahlreiche Metriken, die zur Evaluierung verwendet werden. Zu den wichtigsten gehören:

  • Genauigkeit
  • Rückruf
  • F1-Score
  • Kohärenz
  • Perplexität
  • BLEU
  • ROUGE
  • Latenz
  • Toxizität

Genauigkeit

Berechnet den Prozentsatz korrekter Antworten bei Aufgaben wie Klassifizierung oder Fragenbeantwortung

Rückruf

Misst die tatsächliche Anzahl der wahren positiven Ergebnisse oder korrekten Vorhersagen in LLM-Antworten im Vergleich zu den falschen

F1-Score

Kombiniert Genauigkeit und Rückruf in einer Metrik: Die F1-Scores liegen zwischen 0 und 1, wobei 1 für einen ausgezeichneten Rückruf und eine ausgezeichnete Genauigkeit steht

Kohärenz

Beurteilt den logischen Fluss und die Konsistenz des generierten Textes

Perplexität

Misst, wie gut das Modell eine Wortfolge oder eine Textprobe vorhersagt – je konsistenter das Modell das richtige Ergebnis vorhersagt, desto niedriger ist der Perplexitätswert

BLEU (Bilingual Evaluation Understudy)

Bewertet die Qualität von maschinell erzeugtem Text, insbesondere bei Übersetzungsaufgaben

ROUGE (Recall-Oriented Understudy for Gisting Evaluation)

Bewertet die Qualität von Textzusammenfassungen, indem sie mit von Menschen erstellten Zusammenfassungen verglichen werden

Latenz

Misst die Effizienz und die Gesamtgeschwindigkeit des Modells

Toxizität

Misst das Vorhandensein von schädlichen oder anstößigen Inhalten in den Ausgaben

Anwendung von LLM-Evaluierungs-Frameworks und -Benchmarks

LLM-Evaluatoren legen klare Evaluierungskriterien fest und wählen dann ein Evaluierungs-Framework aus, das eine umfassende Methodik zur Bewertung der Leistung eines Modells bietet. Zum Beispiel wird das Foundation Model Evaluation Framework (FM-Eval) von IBM verwendet, um neue LLMs auf systematische, reproduzierbare und konsistente Weise zu validieren und zu evaluieren.

Zu den Evaluierungs-Frameworks gehören LLM-Benchmarks. Dabei handelt es sich um standardisierte Datensätze oder Aufgaben, die zur Analyse der Ergebnisse und als Leitfaden für den Evaluierungsprozess verwendet werden. Während Frameworks festlegen, wie ein LLM zu evaluieren ist, definieren Benchmarks, was evaluiert werden soll – also die spezifischen Aufgaben und Daten.

LLM-Benchmarks bestehen aus Beispiel-Datensätzen, Aufgaben und Prompt-Vorlagen, um LLMs auf bestimmte Fähigkeiten wie Beantwortung von Fragen, maschinelle Übersetzung, Zusammenfassung und Stimmungsanalyse zu testen. Sie enthalten auch Metriken zur Evaluierung der Leistung sowie einen Scoring-Mechanismus. Ihre Bewertungskriterien können auf Ground Truth oder menschlichen Präferenzen beruhen.

Durch die Evaluierung von LLMs anhand dieser Benchmarks können Entwickler die Leistung verschiedener Modelle vergleichen und den Fortschritt im Laufe der Zeit verfolgen. Einige Beispiele für weit verbreitete LLM-Benchmarks sind:

  • MMLU (Massive Multitask Language Understanding)-Datensatz, der aus einer Sammlung von Multiple-Choice-Fragen in verschiedenen Bereichen besteht
  • HumanEval, das die Leistung eines LLM in Bezug auf die Codegenerierung, insbesondere die funktionale Korrektheit bewertet
  • TruthfulQA, das Halluzinationprobleme angeht, indem es die Fähigkeit eines LLM zur Generierung wahrheitsgemäßer Antworten auf Fragen misst
  • General Language Understanding Evaluation (GLUE) und SuperGLUE, mit denen die Leistung von Modellen zur Verarbeitung natürlicher Sprache (NLP) getestet wird, insbesondere von solchen, die für Aufgaben zum Sprachverständnis entwickelt wurden
  • Die Datensatzbibliothek Hugging Face, die Open Source-Zugriff auf zahlreiche Evaluierungsdatensätze bietet

Die ausgewählten Benchmarks werden durch Zero-Shot-, Few-Shot- und Feinabstimmungstests in das LLM eingeführt, um zu sehen, wie gut das Modell funktioniert. Bei Few-Shot-Tests wird das LLM bezüglich seiner Fähigkeit evaluiert, mit begrenzten Daten zu arbeiten, nachdem es eine kleine Anzahl von gekennzeichneten Beispielen erhalten hat, die zeigen, wie die Aufgabe erfüllt werden kann. Zero-Shot-Tests bitten das LLM, eine Aufgabe ohne Beispiele auszuführen, um zu testen, wie es sich an neue Umstände anpasst. Die Feinabstimmung trainiert das Modell anhand eines Datensatzes, der dem der Benchmarks ähnelt, um die Fähigkeiten des LLM hinsichtlich einer bestimmten Aufgabe zu verbessern.

Die Ergebnisse der LLM-Evaluierung können verwendet werden, um das Modell zu verfeinern und zu iterieren, indem Parameter angepasst oder Feinabstimmungen vorgenommen werden oder das LLM sogar anhand neuer Daten trainiert wird.

LLM-as-a-Judge vs. Human-in-the-Loop

Bei der Evaluierung der Ausgaben eines Modells verwenden Entwickler und Forscher zwei Ansätze: LLM-as-a-Judge- und Human-in-the-Loop-Evaluierung.

Bei der LLM-as-a-Judge-Evaluierung wird das LLM selbst verwendet, um die Qualität der eigenen Ausgaben zu bewerten. Das kann beispielsweise der Vergleich von von einem Modell generiertem Text mit einem Ground-Truth-Datensatz oder die Verwendung von Metriken wie Perplexität oder F1 zur Messung der Ergebnisse sein.

Bei einem Human-in-the-Loop-Ansatz beurteilen menschliche Evaluatoren die Qualität der LLM-Ausgaben. Diese Art der Bewertung kann für nuanciertere Beurteilungen wie Kohärenz, Relevanz und Benutzererfahrung nützlich sein, die durch automatisierte Metriken allein schwer zu erfassen sind.

Anwendungsfälle für die LLM-Evaluierung

Die LLM-Evaluierung hat viele praktische Anwendungsfälle. Einige Beispiele:

Evaluierung der Genauigkeit eines Frage-Antwort-Systems

Bei der Retrieval-Augmented Generation (RAG) kann die LLM-Evaluierung dabei helfen, die Qualität der Antworten zu testen, die vom Modell generiert werden. Forscher können Datensätze wie SQuAD (Stanford Question Answering Datensatz) oder TruthfulQA verwenden, um die Genauigkeit eines LLM-gestützten Frage-Antwort-Systems zu überprüfen, indem sie die Antworten des Modells mit den Ground-Truth-Antworten vergleichen.

Bewertung der Flüssigkeit und Kohärenz des generierten Textes

Mithilfe von Metriken wie BLEU und menschlicher Evaluierung können Forscher die Qualität von Textantworten testen, die von Chatbots oder maschinellen Übersetzungssystemen angeboten werden. Dadurch wird sichergestellt, dass der generierte Text flüssig, schlüssig und für den Kontext angemessen ist.

Erkennung von Verzerrung und Toxizität

Durch die Verwendung spezieller Datensätze und Metriken können Forscher das Vorhandensein von Verzerrungen und toxischen Inhalten im LLM-generierten Text beurteilen. So kann der ToxiGen-Datensatz beispielsweise verwendet werden, um die Toxizität von Ausgaben zu bewerten, was zu sichereren und inklusiveren Anwendungen führen könnte.

Vergleich der Leistung verschiedener LLMs

Forscher können Benchmark-Datensätze wie GLUE oder SuperGLUE verwenden, um die Leistung verschiedener LLMs bei verschiedenen NLP-Aufgaben wie der Stimmungsanalyse oder der Named Entity Recognition zu vergleichen.

In diesen und anderen Anwendungsfällen kann die LLM-Evaluierung wichtige Vorteile für Unternehmen bringen. Durch die Identifizierung von Verbesserungsmöglichkeiten und Möglichkeiten zur Beseitigung von Schwachstellen kann die LLM-Evaluierung zu einer besseren Benutzererfahrung, weniger Risiken und einem potenziellen Wettbewerbsvorteil führen.

Herausforderungen der LLM-Evaluierung

Trotz aller Vorteile bringt die LLM-Evaluierung auch einige Herausforderungen und Einschränkungen mit sich. Das schnelle Tempo der LLM-Entwicklung erschwert die Festlegung standardisierter, langfristiger Benchmarks. Die Evaluierung des kontextuellen Verständnisses ist eine Herausforderung, ebenso wie das Erkennen der feineren Nuancen von Verzerrung.

Auch die Erklärbarkeit ist ein Problem: LLMs werden oft als „Blackbox“ betrachtet. Es ist schwierig, ihren Entscheidungsprozess für Bewertungszwecke zu interpretieren und die Faktoren zu identifizieren, die zu ihren Ausgaben beitragen.

Außerdem sind viele Evaluierungsdatensätze für einige Sprachen und Kulturen nicht repräsentativ. Dies hat zur Folge, dass Modelle, die mit diesen Datensätzen getestet werden, bei bestimmten Benchmarks möglicherweise gute Ergebnisse erzielen, in realen Szenarien jedoch dennoch versagen.

Da LLMs und andere komplexe ML-Anwendungen weiterhin entwickelt und auf neue Art und Weise angewendet werden, wird die Bewältigung solcher Herausforderungen zur Gewährleistung einer robusten Evaluierung eine wichtige Rolle dabei spielen, Evaluatoren und Entwicklern zu helfen, die Effektivität, Sicherheit und ethische Nutzung von LLMs zu verbessern.

Ressourcen

Was ist KI-Governance?
Verwandtes Thema
Was ist KI-Risikomanagement?
Blog
Was ist KI-Ethik?
Verwandtes Thema
Was ist LLMOps?
Verwandtes Thema

Machen Sie den nächsten Schritt

Beschleunigen Sie verantwortungsbewusste, transparente und erklärbare KI-Workflows im gesamten Lebenszyklus für generative und maschinelle Lernmodelle. Leiten, verwalten und überwachen Sie die KI-Aktivitäten Ihres Unternehmens, um die wachsenden KI-Vorschriften besser zu handhaben und Risiken zu erkennen und zu mindern.

watsonx.governance erkunden Buchen Sie eine Live-Demo