LLM-Benchmarks sind standardisierte Frameworks zur Bewertung der Leistung großer Sprachmodelle(LLMs). Diese Benchmarks bestehen aus Beispieldaten, einer Reihe von Fragen oder Aufgaben zum Testen von LLMs in Bezug auf bestimmte Fähigkeiten, Metriken zur Leistungsbewertung und einem Bewertungsmechanismus.
Die Modelle werden auf der Grundlage ihrer Funktionen wie Codierung, gesunder Menschenverstand und Argumentation verglichen. Weitere Funktionen umfassen die Verarbeitung natürlicher Sprache, einschließlich maschineller Übersetzung, Beantwortung von Fragen und und Textzusammenfassung.
LLM-Benchmarks spielen bei der Entwicklung und Verbesserung von Modellen eine entscheidende Rolle. Benchmarks zeigen den Lernfortschritt eines LLM mit quantitativen Messungen, die hervorheben, wo das Modell brilliert und wo Verbesserungsbedarf besteht.
Dies wiederum leitet den Feinabstimmungsprozess, der LLM-Forschern und -Entwicklern bei der Weiterentwicklung des Gebiets unterstützt. LLM-Benchmarks bieten auch einen objektiven Vergleich verschiedener Modelle und helfen Softwareentwicklern und Unternehmen bei der Entscheidung, welche Modelle ihren Anforderungen am besten entsprechen.
LLM-Benchmarks funktionieren auf einfache Weise. Sie liefern eine Aufgabe, die ein LLM erfüllen muss, bewerten die Leistung des Modells anhand einer bestimmten Metrik und erstellen eine Bewertung auf der Grundlage dieser Metrik. So funktioniert jeder Schritt im Detail:
Für die LLM-Benchmark sind bereits Beispieldaten vorbereitet – Herausforderung bei der Codierung, große Dokumente, mathematische Probleme, Gespräche aus der Praxis, wissenschaftliche Fragen. Darüber hinaus steht eine Reihe von Aufgaben bereit, darunter logisches Denken, Problemlösen, Beantworten von Fragen, Erstellen von Zusammenfassungen und Übersetzen. Sie alle werden dem Modell zu Beginn der Prüfung mitgeteilt.
Bei der Durchführung des Benchmarks wird das Modell auf eine von drei Arten eingeführt:
Few-Shot: Bevor ein LLM zur Durchführung einer Aufgabe aufgefordert wird, erhält es eine kleine Anzahl von Beispielen, die zeigen, wie diese Aufgabe zu erfüllen ist. Damit wird die Fähigkeit eines Modells demonstriert, auch bei wenigen Daten zu lernen.
Zero-Shot: Ein LLM wird mit einem Prompt aufgefordert, eine Aufgabe zu lösen, ohne vorher Beispiele gesehen zu haben. Dadurch wird die Fähigkeit eines Modells deutlich, neue Konzepte zu verstehen und sich an neue Szenarien anzupassen.
Feinabstimmung: Ein Modell wird anhand eines Datensatzes trainiert, der dem Benchmark entspricht. Ziel ist die Steigerung der Beherrschung der mit dem Benchmark verbundenen Aufgabe durch den LLM und die Optimierung seiner Leistung bei dieser spezifischen Aufgabe.
Sobald die Tests abgeschlossen sind, berechnet ein LLM-Benchmark, wie sehr die Ausgabe eines Modells der erwarteten Lösung oder Standardantwort ähnelt, und generiert dann eine Punktzahl zwischen 0 und 100.
Benchmarks verwenden verschiedene Metriken zur Bewertung der Leistung von LLMs. Hier sind einige häufige Beispiele:
Genauigkeit oder Präzision berechnet den Prozentsatz korrekter Vorhersagen.
Rückruf, auch Sensitivitätsrate genannt, quantifiziert die Anzahl der wahren Positiven, also der tatsächlich richtigen Vorhersagen.
Der F1-Score kombiniert sowohl Genauigkeit als auch Rückruf in einer Metrik. Er betrachtet die beiden Maßnahmen für den Ausgleich etwaiger falsch positiver oder negativer Ergebnisse als gleichwertig. Die F1-Scores liegen zwischen 0 und 1, wobei 1 für einen ausgezeichneten Rückruf und eine ausgezeichnete Genauigkeit steht.
Exact Match ist der Anteil der Vorhersagen, mit denen ein LLM genau übereinstimmt, und ist ein wertvolles Kriterium für die Übersetzung und Beantwortung von Fragen.
Perplexity misst, wie gut ein Modell Vorhersagen treffen kann. Je niedriger der Perplexity-Wert eines LLMs ist, desto besser kann es eine Aufgabe verstehen.
Bilingual Evaluation Understudy (BLEU) bewertet die maschinelle Übersetzung, indem es die passenden N-Gramme (eine Sequenz von n benachbarten Textsymbolen) zwischen der vorhergesagten Übersetzung eines LLM und einer von Menschen erstellten Übersetzung berechnet.
Recall-Oriented Understudy for Gisting Evaluation (ROUGE) bewertet die Textzusammenfassung und hat mehrere Typen. ROUGE-N führt beispielsweise ähnliche Berechnungen wie BLEU für Zusammenfassungen durch, während ROUGE-L die längste gemeinsame Teilsequenz zwischen der vorhergesagten Zusammenfassung und der von Menschen erstellten Zusammenfassung berechnet.
Für eine umfassendere und solidere Bewertung werden in der Regel eine oder mehrere dieser quantitativen Metriken kombiniert.
Bei der menschlichen Bewertung fließen inzwischen qualitative Metriken wie Kohärenz, Relevanz und semantische Bedeutung ein. Die Prüfung und Bewertung eines LLM durch menschliche Gutachter kann zu einer differenzierteren Beurteilung führen, was jedoch arbeitsintensiv, subjektiv und zeitraubend sein kann. Daher ist ein Gleichgewicht sowohl quantitativer als auch qualitativer Metriken erforderlich.
Benchmarks sind zwar solide Indikatoren für die LLM-Leistung, können jedoch nicht vorhersagen, wie gut ein Modell in der Praxis funktionieren wird. Hier sind einige Einschränkungen von LLM-Benchmarks:
Sobald ein Modell die höchstmögliche Bewertung für einen bestimmten Benchmark erreicht hat, muss dieser Benchmark mit schwierigeren Aufgaben aktualisiert werden, damit er zu einer nützlichen Maßnahme wird.
Da LLM-Benchmarks Beispieldaten verwenden, die hauptsächlich aus einem breiten Spektrum von Probanden und einer Vielzahl von Aufgaben stammen, sind sie möglicherweise keine geeignete Metrik für Edge-Szenarien, spezialisierte Bereiche oder bestimmte Anwendungsfälle.
LLM-Benchmarks können nur die aktuellen Fähigkeiten eines Modells testen. Doch in dem Maße, wie sich die LLMs weiterentwickeln und neue Funktionen entstehen, müssen neue Benchmarks geschaffen werden.
Wenn ein LLM mit demselben Datensatz wie der Benchmark trainiert wird, könnte das zu einer Überanpassung führen, wobei das Modell bei den Testdaten gut abschneidet, bei den realen Daten jedoch nicht. Dies führt zu Ergebnissen, die nicht die tatsächlichen Fähigkeiten eines LLM widerspiegeln.
LLM-Bestenlisten veröffentlichen eine Rangliste der LLMs, die auf einer Vielzahl von Benchmarks basiert. Bestenlisten bieten eine Möglichkeit, den Überblick über die unzähligen LLMs zu behalten und ihre Leistung zu vergleichen. LLM-Bestenlisten sind besonders vorteilhaft, um Entscheidungen darüber zu treffen, welche Modelle verwendet werden sollen.
Jeder Benchmark hat in der Regel seine eigene Bestenliste, es gibt jedoch auch unabhängige LLM-Bestenlisten. Hugging Face hat zum Beispiel eine Sammlung von Bestenlisten, darunter eine offene LLM-Bestenliste, die mehrere Open-Source-Modelle auf der Grundlage der Benchmarks ARC, HellaSwag, MMLU, GSM8K, TruthfulQA und Winogrande bewertet.
Forscher klassifizieren LLM-Benchmarks nach diesen beiden Aspekten:1
Bewertungskriterien: LLM-Bewertungsmetriken können entweder die Ground Truth oder menschliche Präferenzen sein. Ground Truth bezieht sich auf Informationen, die als wahr angesehen werden, während menschliche Präferenzen Entscheidungen sind, die eine Verwendung in der Praxis widerspiegeln.
Quelle der Fragen: Die Prompts können entweder aus statischen oder Live-Quellen stammen. Statische Prompts enthalten vordefinierte Fragen, während Live-Prompts Fragen sind, die in einer interaktiven Umgebung gestellt werden.
Benchmarks können in eine oder mehrere dieser Kategorien fallen. So funktionieren einige beliebte Benchmarks:
ARC misst die Fähigkeiten eines LLM zum Beantworten von Fragen und zum logischen Denken anhand einer Reihe von über 7.000 naturwissenschaftlichen Fragen auf Grundschulniveau. Diese Fragen sind in einen einfachen Satz und einen anspruchsvollen Satz unterteilt. Das Scoring ist einfach. Ein Modell erhält einen Punkt für jede richtige Antwort und 1/N Punkte, wenn es mehrere Antworten gibt und eine davon richtig ist.2
Chatbot Arena ist eine offene Benchmark-Plattform, auf der zwei anonyme Chatbots gegeneinander antreten. Die Benutzer führen zufällige Gespräche in der realen Welt mit beiden Chatbots in einer „Arena“ und stimmen dann ab, welchen sie bevorzugen, woraufhin die Identitäten der Models enthüllt werden. Diese paarweisen Vergleichsdaten aus Crowdsourcing werden in statistische Methoden eingespeist, die Scores schätzen und ungefähre Rankings für verschiedene LLMs erstellen. Sampling-Algorithmen werden auch zur Kopplung von Modellen verwendet.1
GSM8K bewertet die mathematischen Fähigkeiten von LLMs. Es umfasst eine Sammlung von 8.500 Aufgaben der Grundschulmathematik. Lösungen werden in Form natürlicher Sprache anstelle von mathematischen Formeln erfasst. KI-Prüfer werden für die Bewertung der Modelllösung trainiert.3
HellaSwag steht für „Harder Endings, Longer Contexts and Low-shot Activities for Situations With Adversarial Generations“. Im Mittelpunkt dieser Benchmark stehen logisches Denken und die Inferenz natürlicher Sprache. Die Modelle haben die Aufgabe, Sätze zu vervollständigen, indem sie aus einer Reihe möglicher Endungen auswählen. Diese Endungen enthalten falsche Antworten, die durch adversariales Filtern erzeugt wurden, einen Algorithmus, der realistische, aber täuschend falsche Antworten generiert. HellaSwag bewertet die Genauigkeit für die Kategorien Few-Shot und Zero-Shot.4
HumanEval bewertet die Leistung eines LLM in Bezug auf die Codegenerierung, insbesondere die funktionale Korrektheit. Die Modelle erhalten Programmieraufgaben, die sie lösen müssen, und werden auf der Grundlage des Bestehens der entsprechenden Komponententests bewertet. Vergleichbar ist dies mit menschlichen Softwareentwicklern, die anhand des Bestehens bestimmter Komponententests prüfen, ob ihr Code korrekt ist. Der HumanEval-Benchmark verwendet die eigene Bewertungsmetrik pass@k, die die Wahrscheinlichkeit angibt, dass mindestens eine der k-generierten Codelösungen für ein Codierungsproblem die Komponententests für dieses Problem besteht.5
MMLU ist ein Benchmark, der die Breite des Wissens eines LLM, die Tiefe seines Natural Language Understanding und seine Fähigkeit zur Lösung von Problemen auf Grundlage des erworbenen Wissens bewertet. Der Datensatz von MMLU umfasst mehr als 15.000 Multiple-Choice-Fragen zum Allgemeinwissen zu 57 Themen. Die Auswertung erfolgt ausschließlich in Few-Shot- und Zero-Shot-Einstellungen. Der MMLU-Benchmark bewertet die Genauigkeit eines Modells in jedem Fach und ermittelt dann den Mittelwert dieser Zahlen für einen finalen Score.6
MBPP, auch Mostly Basic Python Problems genannt, ist ein weiterer Benchmark zur Codegenerierung. Es verfügt über eine Sammlung von mehr als 900 Codierungsaufgaben. Ähnlich wie HumanEval bewertet es die funktionale Korrektheit auf der Grundlage des Bestehens einer Reihe von Testfällen. Die Auswertung erfolgt in Few-Shot- und Feinabstimmungs-Einstellungen. MBPP verwendet zwei Metriken: den Prozentsatz der Probleme, die von einer beliebigen Stichprobe des Modells gelöst werden, und den Prozentsatz der Stichproben, die ihre jeweiligen Aufgaben lösen.7
Die hinter Chatbot Arena stehenden Forscher haben auch MT-Bench entwickelt, mit dem getestet werden soll, wie gut ein LLM einen Dialog führen und Anweisungen befolgen kann. Der Datensatz besteht aus offenen Multi-Turn-Fragen mit jeweils 10 Fragen in den folgenden acht Bereichen: Codierung, Extraktion, Wissen I (MINT), Wissen II (Geistes- und Sozialwissenschaften), Mathematik, logisches Denken, Rollenspiel und Schreiben. MT-Bench verwendet das GPT-4 LLM zur Bewertung der Reaktionen anderer LLMs.8
Wie HumanEval testet SWE-Bench die Fähigkeiten eines LLM zur Codegenerierung, wobei der Schwerpunkt auf der Problemlösung liegt. Modelle haben die Aufgabe, einen Fehler zu beheben oder eine Funktionsanfrage in einer bestimmten Codebasis zu bearbeiten. Die Benchmark-Bewertung ist der Prozentsatz der gelösten Aufgabeninstanzen.9
Große Sprachmodelle neigen zur Halluzination, was zu ungenauen Ausgaben führt. Der TruthfulQA-Benchmark zielt auf die Lösung dieses Problems ab, indem er die Fähigkeit eines LLM zur Generierung wahrheitsgemäßer Antworten auf Fragen misst. Der Datensatz enthält mehr als 800 Fragen zu 38 Themen. TruthfulQA kombiniert die menschliche Bewertung mit dem GPT-3 LLM, das zur Vorhersage der menschlichen Bewertung von Informativität und Wahrheitsgehalt auf die Metriken BLEU und ROUGE abgestimmt ist.10
Winogrande beurteilt die Funktionen eines LLM zum gesunden Menschenverstand. Es basiert auf dem ursprünglichen Benchmark der Winograd Schema Challenge (WSC) und umfasst einen riesigen Datensatz mit 44.000 Crowdsourcing-Problemen, bei dem ebenfalls adversariales Filtern zum Einsatz kommt. Das Scoring erfolgt nach Genauigkeit.11
Erkunden Sie die Foundation-Model-Bibliothek im watsonx-Portfolio von IBM zur zuverlässigen Skalierung generativer KI für Ihr Unternehmen.
Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.
Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.
1 „Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference“, arXiv, 7. März 2024.
2 „Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge“, arXiv, 14. März 2018.
3 „Training Verifiers to Solve Math Word Problems“,arXiv, 18. November 2021.
4 „HellaSwag: Can a Machine Really Finish Your Sentence?“, arXiv, 19. Mai 2019.
5 „Evaluating Large Language Models Trained on Code“, arXiv, 14. Juli 2021.
6 „Measuring Massive Multitask Language Understanding“, arXiv, 7. September 2020.
7 „Program Synthesis with Large Language Models“, arXiv, 16. August 2021.
8 „Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena“, arXiv, 9. Juni 2023.
9 „SWE-Bench: Can Language Models Resolve Real-World GitHub Issues?“, arXiv, 5. April 2024.
10 „TruthfulQA: Measuring How Models Mimic Human Falsehoods“, arXiv, 8. Mai 2022.
11 „WinoGrande: An Adversarial Winograd Schema Challenge at Scale“, arXiv, 21. Nov. 2019.