Was sind LLM-Benchmarks?

Autoren

Staff Writer

IBM Think

Staff Editor, AI Models

IBM Think

Was sind LLM-Benchmarks?

LLM-Benchmarks sind standardisierte Frameworks zur Bewertung der Leistung großer Sprachmodelle (LLMs). Diese Benchmarks bestehen aus Beispieldaten, einer Reihe von Fragen oder Aufgaben zum Testen von LLMs in Bezug auf bestimmte Fähigkeiten, Metriken zur Leistungsbewertung und einem Bewertungsmechanismus.

Die Modelle werden auf der Grundlage ihrer Funktionen wie Codierung, gesunder Menschenverstand und Argumentation verglichen. Weitere Funktionen umfassen die Verarbeitung natürlicher Sprache, einschließlich maschineller Übersetzung, Beantwortung von Fragen und Textzusammenfassung.

LLM-Benchmarks spielen bei der Entwicklung und Verbesserung von Modellen eine entscheidende Rolle. Benchmarks zeigen den Lernfortschritt eines LLM mit quantitativen Messungen, die hervorheben, wo das Modell brilliert und wo Verbesserungsbedarf besteht.

Dies wiederum leitet den Feinabstimmungsprozess, der LLM-Forschern und -Entwicklern bei der Weiterentwicklung des Gebiets unterstützt. LLM-Benchmarks bieten auch einen objektiven Vergleich verschiedener Modelle und helfen Softwareentwicklern und Unternehmen bei der Entscheidung, welche Modelle ihren Anforderungen am besten entsprechen.

So funktionieren LLM-Benchmarks

LLM-Benchmarks funktionieren auf einfache Weise. Sie liefern eine Aufgabe, die ein LLM erfüllen muss, bewerten die Leistung des Modells anhand einer bestimmten Metrik und erstellen eine Bewertung auf der Grundlage dieser Metrik. So funktioniert jeder Schritt im Detail:

Einrichtung

Für die LLM-Benchmark sind bereits Beispieldaten vorbereitet – Herausforderung bei der Codierung, große Dokumente, mathematische Probleme, Gespräche aus der Praxis, wissenschaftliche Fragen. Darüber hinaus steht eine Reihe von Aufgaben bereit, darunter logisches Denken, Problemlösen, Beantworten von Fragen, Erstellen von Zusammenfassungen und Übersetzen. Sie alle werden dem Modell zu Beginn der Prüfung mitgeteilt.

Testen

Bei der Durchführung des Benchmarks wird das Modell auf eine von drei Arten eingeführt:

Few-Shot: Bevor ein LLM zur Durchführung einer Aufgabe aufgefordert wird, erhält es eine kleine Anzahl von Beispielen, die zeigen, wie diese Aufgabe zu erfüllen ist. Damit wird die Fähigkeit eines Modells demonstriert, auch bei wenigen Daten zu lernen.
Zero-Shot: Ein LLM wird mit einem Prompt aufgefordert, eine Aufgabe zu lösen, ohne vorher Beispiele gesehen zu haben. Dadurch wird die Fähigkeit eines Modells deutlich, neue Konzepte zu verstehen und sich an neue Szenarien anzupassen.
Feinabstimmung: Ein Modell wird anhand eines Datensatzes trainiert, der dem Benchmark entspricht. Ziel ist die Steigerung der Beherrschung der mit dem Benchmark verbundenen Aufgabe durch den LLM und die Optimierung seiner Leistung bei dieser spezifischen Aufgabe.

Scoring

Sobald die Tests abgeschlossen sind, berechnet ein LLM-Benchmark, wie sehr die Ausgabe eines Modells der erwarteten Lösung oder Standardantwort ähnelt, und generiert dann eine Punktzahl zwischen 0 und 100.

Branchen-Newsletter

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Wichtige Metriken für das Benchmarking von LLMs

Benchmarks verwenden verschiedene Metriken zur Bewertung der Leistung von LLMs. Hier sind einige häufige Beispiele:

Genauigkeit oder Präzision berechnet den Prozentsatz korrekter Vorhersagen.
Rückruf, auch Sensitivitätsrate genannt, quantifiziert die Anzahl der wahren Positiven, also der tatsächlich richtigen Vorhersagen.
Der F1-Score kombiniert sowohl Genauigkeit als auch Rückruf in einer Metrik. Er betrachtet die beiden Messwerte für den Ausgleich etwaiger falsch positiver oder negativer Ergebnisse als gleichwertig. Die F1-Scores liegen zwischen 0 und 1, wobei 1 für einen ausgezeichneten Rückruf und eine ausgezeichnete Genauigkeit steht.
Exact Match ist der Anteil der Vorhersagen, mit denen ein LLM genau übereinstimmt, und ist ein wertvolles Kriterium für die Übersetzung und Beantwortung von Fragen.
Perplexity misst, wie gut ein Modell Vorhersagen treffen kann. Je niedriger der Perplexity-Wert eines LLMs ist, desto besser kann es eine Aufgabe verstehen.
Bilingual Evaluation Understudy (BLEU) bewertet die maschinelle Übersetzung, indem es die passenden N-Gramme (eine Sequenz von n benachbarten Textsymbolen) zwischen der vorhergesagten Übersetzung eines LLM und einer von Menschen erstellten Übersetzung berechnet.
Recall-Oriented Understudy for Gisting Evaluation (ROUGE) bewertet die Textzusammenfassung und hat mehrere Typen. ROUGE-N führt beispielsweise ähnliche Berechnungen wie BLEU für Zusammenfassungen durch, während ROUGE-L die längste gemeinsame Teilsequenz zwischen der vorhergesagten Zusammenfassung und der von Menschen erstellten Zusammenfassung berechnet.

Für eine umfassendere und solidere Bewertung werden in der Regel eine oder mehrere dieser quantitativen Metriken kombiniert.

Bei der menschlichen Bewertung fließen inzwischen qualitative Metriken wie Kohärenz, Relevanz und semantische Bedeutung ein. Die Prüfung und Bewertung eines LLM durch menschliche Gutachter kann zu einer differenzierteren Beurteilung führen, was jedoch arbeitsintensiv, subjektiv und zeitraubend sein kann. Daher ist ein Gleichgewicht sowohl quantitativer als auch qualitativer Metriken erforderlich.

AI Academy

Warum Foundation Models einen Paradigmenwechsel für die KI bedeuten

Erfahren Sie mehr über eine neue Klasse flexibler, wiederverwendbarer KI-Modelle, die neue Einnahmen erschließen, Kosten senken und die Produktivität steigern können. Dann nutzen Sie unseren Leitfaden, um mehr zu erfahren.

Zur Episode wechseln

Einschränkungen von LLM-Benchmarks

Benchmarks sind zwar solide Indikatoren für die LLM-Leistung, können jedoch nicht vorhersagen, wie gut ein Modell in der Praxis funktionieren wird. Hier sind einige Einschränkungen von LLM-Benchmarks:

Begrenzte Bewertung

Sobald ein Modell die höchstmögliche Bewertung für einen bestimmten Benchmark erreicht hat, muss dieser Benchmark mit schwierigeren Aufgaben aktualisiert werden, damit er zu einer nützlichen Maßnahme wird.

Breiter Datensatz

Da LLM-Benchmarks Beispieldaten verwenden, die hauptsächlich aus einem breiten Spektrum von Probanden und einer Vielzahl von Aufgaben stammen, sind sie möglicherweise keine geeignete Metrik für Edge-Szenarien, spezialisierte Bereiche oder bestimmte Anwendungsfälle.

Begrenzte Bewertungen

LLM-Benchmarks können nur die aktuellen Fähigkeiten eines Modells testen. Doch in dem Maße, wie sich die LLMs weiterentwickeln und neue Funktionen entstehen, müssen neue Benchmarks geschaffen werden.

Überanpassung

Wenn ein LLM mit demselben Datensatz wie der Benchmark trainiert wird, könnte das zu einer Überanpassung führen, wobei das Modell bei den Testdaten gut abschneidet, bei den realen Daten jedoch nicht. Dies führt zu Ergebnissen, die nicht die tatsächlichen Fähigkeiten eines LLM widerspiegeln.

Was sind LLM-Bestenlisten?

LLM-Bestenlisten veröffentlichen eine Rangliste der LLMs, die auf einer Vielzahl von Benchmarks basiert. Bestenlisten bieten eine Möglichkeit, den Überblick über die unzähligen LLMs zu behalten und ihre Leistung zu vergleichen. LLM-Bestenlisten sind besonders vorteilhaft, um Entscheidungen darüber zu treffen, welche Modelle verwendet werden sollen.

Jeder Benchmark hat in der Regel seine eigene Bestenliste, es gibt jedoch auch unabhängige LLM-Bestenlisten. Hugging Face hat zum Beispiel eine Sammlung von Bestenlisten, darunter eine offene LLM-Bestenliste, die mehrere Open-Source-Modelle auf der Grundlage der Benchmarks ARC, HellaSwag, MMLU, GSM8K, TruthfulQA und Winogrande bewertet.

Gängige LLM-Benchmarks

Forscher klassifizieren LLM-Benchmarks nach diesen beiden Aspekten:¹

Bewertungskriterien: LLM-Bewertungsmetriken können entweder die Ground Truth oder menschliche Präferenzen sein. Ground Truth bezieht sich auf Informationen, die als wahr angesehen werden, während menschliche Präferenzen Entscheidungen sind, die eine Verwendung in der Praxis widerspiegeln.
Quelle der Fragen: Die Prompts können entweder aus statischen oder Live-Quellen stammen. Statische Prompts enthalten vordefinierte Fragen, während Live-Prompts Fragen sind, die in einer interaktiven Umgebung gestellt werden.

Benchmarks können in eine oder mehrere dieser Kategorien fallen. So funktionieren einige beliebte Benchmarks:

AI2 Reasoning Challenge (ARC)

ARC misst die Fähigkeiten eines LLM zum Beantworten von Fragen und zum logischen Denken anhand einer Reihe von über 7.000 naturwissenschaftlichen Fragen auf Grundschulniveau. Diese Fragen sind in einen einfachen Satz und einen anspruchsvollen Satz unterteilt. Das Scoring ist einfach. Ein Modell erhält einen Punkt für jede richtige Antwort und 1/N Punkte, wenn es mehrere Antworten gibt und eine davon richtig ist^.2

Chatbot Arena

Chatbot Arena ist eine offene Benchmark-Plattform, auf der zwei anonyme Chatbots gegeneinander antreten. Die Benutzer führen zufällige Gespräche in der realen Welt mit beiden Chatbots in einer „Arena“ und stimmen dann ab, welchen sie bevorzugen, woraufhin die Identitäten der Models enthüllt werden. Diese paarweisen Vergleichsdaten aus Crowdsourcing werden in statistische Methoden eingespeist, die Scores schätzen und ungefähre Rankings für verschiedene LLMs erstellen. Sampling-Algorithmen werden auch zur Kopplung von Modellen verwendet.¹

Grade School Math 8K (GSM8K)

GSM8K bewertet die mathematischen Fähigkeiten von LLMs. Es umfasst eine Sammlung von 8.500 Aufgaben der Grundschulmathematik. Lösungen werden in Form natürlicher Sprache anstelle von mathematischen Formeln erfasst. KI-Prüfer werden für die Bewertung der Modelllösung trainiert.³

HellaSwag

HellaSwag steht für „Harder Endings, Longer Contexts and Low-shot Activities for Situations With Adversarial Generations“. Im Mittelpunkt dieser Benchmark stehen logisches Denken und die Inferenz natürlicher Sprache. Die Modelle haben die Aufgabe, Sätze zu vervollständigen, indem sie aus einer Reihe möglicher Endungen auswählen. Diese Endungen enthalten falsche Antworten, die durch adversariales Filtern erzeugt wurden, einen Algorithmus, der realistische, aber täuschend falsche Antworten generiert. HellaSwag bewertet die Genauigkeit für die Kategorien Few-Shot und Zero-Shot.⁴

HumanEval

HumanEval bewertet die Leistung eines LLM in Bezug auf die Codegenerierung, insbesondere die funktionale Korrektheit. Die Modelle erhalten Programmieraufgaben, die sie lösen müssen, und werden auf der Grundlage des Bestehens der entsprechenden Komponententests bewertet. Vergleichbar ist dies mit menschlichen Softwareentwicklern, die anhand des Bestehens bestimmter Komponententests prüfen, ob ihr Code korrekt ist. Der HumanEval-Benchmark verwendet die eigene Bewertungsmetrik pass@k, die die Wahrscheinlichkeit angibt, dass mindestens eine der k-generierten Codelösungen für ein Codierungsproblem die Komponententests für dieses Problem besteht.⁵

Massive Multitask Language Understanding (MMLU)

MMLU ist ein Benchmark, der die Breite des Wissens eines LLM, die Tiefe seines Natural Language Understanding und seine Fähigkeit zur Lösung von Problemen auf Grundlage des erworbenen Wissens bewertet. Der Datensatz von MMLU umfasst mehr als 15.000 Multiple-Choice-Fragen zum Allgemeinwissen zu 57 Themen. Die Auswertung erfolgt ausschließlich in Few-Shot- und Zero-Shot-Einstellungen. Der MMLU-Benchmark bewertet die Genauigkeit eines Modells in jedem Fach und ermittelt dann den Mittelwert dieser Zahlen für einen finalen Score.⁶

Mostly Basic Programming Problems (MBPP)

MBPP, auch Mostly Basic Python Problems genannt, ist ein weiterer Benchmark zur Codegenerierung. Es verfügt über eine Sammlung von mehr als 900 Codierungsaufgaben. Ähnlich wie HumanEval bewertet es die funktionale Korrektheit auf der Grundlage des Bestehens einer Reihe von Testfällen. Die Auswertung erfolgt in Few-Shot- und Feinabstimmungs-Einstellungen. MBPP verwendet zwei Metriken: den Prozentsatz der Probleme, die von einer beliebigen Stichprobe des Modells gelöst werden, und den Prozentsatz der Stichproben, die ihre jeweiligen Aufgaben lösen.⁷

MT-Bench

Die hinter Chatbot Arena stehenden Forscher haben auch MT-Bench entwickelt, mit dem getestet werden soll, wie gut ein LLM einen Dialog führen und Anweisungen befolgen kann. Der Datensatz besteht aus offenen Multi-Turn-Fragen mit jeweils 10 Fragen in den folgenden acht Bereichen: Codierung, Extraktion, Wissen I (MINT), Wissen II (Geistes- und Sozialwissenschaften), Mathematik, logisches Denken, Rollenspiel und Schreiben. MT-Bench verwendet das GPT-4 LLM zur Bewertung der Reaktionen anderer LLMs.⁸

SWE-Bench

Wie HumanEval testet SWE-Bench die Fähigkeiten eines LLM zur Codegenerierung, wobei der Schwerpunkt auf der Problemlösung liegt. Modelle haben die Aufgabe, einen Fehler zu beheben oder eine Funktionsanfrage in einer bestimmten Codebasis zu bearbeiten. Die Benchmark-Bewertung ist der Prozentsatz der gelösten Aufgabeninstanzen.⁹

TruthfulQA

Große Sprachmodelle neigen zur Halluzination, was zu ungenauen Ausgaben führt. Der TruthfulQA-Benchmark zielt auf die Lösung dieses Problems ab, indem er die Fähigkeit eines LLM zur Generierung wahrheitsgemäßer Antworten auf Fragen misst. Der Datensatz enthält mehr als 800 Fragen zu 38 Themen. TruthfulQA kombiniert die menschliche Bewertung mit dem GPT-3 LLM, das zur Vorhersage der menschlichen Bewertung von Informativität und Wahrheitsgehalt auf die Metriken BLEU und ROUGE abgestimmt ist.¹⁰

Winogrande

Winogrande beurteilt die Funktionen eines LLM zum gesunden Menschenverstand. Es basiert auf dem ursprünglichen Benchmark der Winograd Schema Challenge (WSC) und umfasst einen riesigen Datensatz mit 44.000 Crowdsourcing-Problemen, bei dem ebenfalls adversariales Filtern zum Einsatz kommt. Das Scoring erfolgt nach Genauigkeit.¹¹

So entscheiden Sie sich für das richtige Foundation Model

Erfahren Sie, wie Sie bei der Vorbereitung von Datensätzen und dem Einsatz von Foundation Models den richtigen Ansatz wählen.

Was sind LLM-Benchmarks

Autoren

Was sind LLM-Benchmarks?

So funktionieren LLM-Benchmarks

Einrichtung

Testen

Scoring

Die neuesten KI-Trends, präsentiert von Experten

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Wichtige Metriken für das Benchmarking von LLMs

Warum Foundation Models einen Paradigmenwechsel für die KI bedeuten

Einschränkungen von LLM-Benchmarks

Was sind LLM-Bestenlisten?

Gängige LLM-Benchmarks

AI2 Reasoning Challenge (ARC)

Chatbot Arena

Grade School Math 8K (GSM8K)

HellaSwag

HumanEval

Massive Multitask Language Understanding (MMLU)

Mostly Basic Programming Problems (MBPP)

MT-Bench

SWE-Bench

TruthfulQA

Winogrande

Ressourcen