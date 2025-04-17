Hat ein neues Modell bei einem bestimmten Benchmark betrogen? Welcher Benchmark ist der beste? Und was bedeutet „beste“ überhaupt, wenn jeder Benchmark die Leistung bei einer anderen Aufgabe misst?
Diese Fragen veranlassen Experten wie Marina Danilevsky, Senior Forschung Scientist von IBM, zur Modellevaluierung mit Vorsicht. „Bei einem Benchmark gut abzuschneiden bedeutet genau das – dass man bei diesem Benchmark gut abschneidet“, sagt sie gegenüber IBM Think. Transparenz ist der Schlüssel, erklärt sie. „Wir müssen die vielen Dinge anerkennen, die ein bestimmtes Benchmark nicht testet, sodass die nächsten Benchmarks einige dieser Lücken schließen.“
Im Gegensatz zum Streben nach einem einzigen Benchmark verlagern neue Lösungen die Kontrolle an die Benutzer. Ein Team der Open-Source-KI-Plattform Hugging Face hat kürzlich YourBench veröffentlicht – ein Open-Source-Tool, das es Unternehmen und Entwicklern ermöglicht, eigene Daten zu verwenden, um individuelle Benchmarks zur Bewertung ihrer Modellleistung zu erstellen. Die meisten Benchmarks testen „allgemeine Funktionen“, erklärt Sumuk Shashidhar, Forscher bei Hugging Face, in einem IBM Think-Interview. „Bei vielen Anwendungsfall im realen Leben kommt es vor allem darauf an, wie gut ein Modell die jeweilige Aufgabe erfüllt“, sagt er.
Um den Nutzen von Benchmarks für reale Anwendungen zu erhöhen, generiert YourBench automatisch domänenspezifische Benchmarks direkt aus den vom Benutzer bereitgestellten Dokumenten – kostengünstig und ohne dass die Dokumente manuell annotiert werden müssen, so Shashidhar. Konkret demonstrieren die Forscher die Wirksamkeit von YourBench, indem sie sieben verschiedene MMLU-Teilmengen (Massive Multitask Language Understanding) für unter 15 USD an Gesamtinferenzkosten replizieren und dabei die relativen Modellleistungsrankings erhalten. MMLU wird verwendet, um zu bewerten, wie gut Sprachmodelle Wissen in verschiedenen Fachgebieten verstehen und anwenden können.
Einige Unternehmen, wie IBM, haben bereits einen individuellen Benchmark-Generator ähnlich wie YourBench entwickelt. „Das erinnert mich an unsere selbst entwickelte Pipeline zur Erstellung synthetischer Daten für Training oder Evaluierung“, sagt Danilevsky. „Synthetische Daten zu erstellen ist einfach. Gute synthetische Daten zu erstellen ist schwierig“, sagt sie. „YourBench ist zwar bei MMLU-Teilmengen effektiv, das bedeutet aber nicht, dass es bei allem, was ich ihm auftrage, gut ist.“
Eine weitere Alternative, die stark an Popularität gewonnen hat, ist Chatbot Arena (CA), ein Crowdsourcing-Benchmark. Anstelle rigoroser Mathematik- oder Sprachtests ermöglicht Chatbot Arena es den Nutzern, eine Frage zu stellen, Antworten von zwei anonymen KI-Modellen zu erhalten und zu bewerten, welches besser ist.
CA wurde von zwei Absolventen der University of California in Berkeley ins Leben gerufen und erhält nun frühzeitigen Zugang zu Modellen aller großen KI-Anbieter, sodass Enthusiasten die Bots gegeneinander antreten können, um „Spannung und eine Gamifizierung der Modellbewertung zu schaffen“, so CA-Mitbegründer Anastasios Angelopoulos in einem IBM Think-Interview. Die CA-Rangliste, eine Art Billboard Hot 100 für KI-Modelle, hat bis heute über zwei Millionen Stimmen erhalten.
Da sie neue Modelle genau verfolgen, war Angelopoulos weniger überrascht als viele andere, als DeepSeek-R1 an Popularität gewann. „Open-Source-Modelle holen schon seit einiger Zeit auf, DeepSeek hat diesen Trend also nur bestätigt.“
Die Gründer haben Chatbot Arena als Reaktion auf die Frustration mit traditionellen Benchmarks geschaffen. Ein Teil der Herausforderung besteht laut Angelopoulos darin, dass „Benchmarks statisch sind – bestimmte Modelle schneiden bei bestimmten Benchmarks sehr gut ab.“ Infolgedessen besteht das Risiko einer „Überanpassung der Daten“, sagt er, wodurch ein Modell die Trainingsdaten zu gut lernt. Der Nutzen von Chatbot Arena, fügt er hinzu, besteht darin, dass die Daten live sind: „Man kann die Daten nicht übermäßig anpassen. Sie werden weder kontaminiert noch abgestanden.“
Für Danilevsky ist „die Zusammenfassung der Chatbot Arena-Bestenliste an sich nicht umsetzbar“, sagt sie. „Für viele reale Anwendungen ist ein nuancierteres Feedback zu einem Modell erforderlich, das über ein ‚Daumen hoch’ und ein ‚Daumen runter‘ hinausgeht.“ Dennoch ist das Konzept sehr beliebt, räumt sie ein. „Ich hätte gerne ein bisschen mehr Verständnis dafür, wie und warum Menschen auf ein bestimmtes Modell so reagieren, wie sie es tun. Zusätzliche Metadaten wären hier wirklich hilfreich.“
Selbst Angelopoulos ist der Ansicht, dass „der tatsächliche Gebrauch etwas anderes misst als Benchmarks“. Als Beispiel verwendet er das GPT-4.5-Modell von OpenAI. „Es hat bei vielen qualitativen Benchmarks nicht gut abgeschnitten, aber die Leute haben es geliebt. Man braucht ein anderes Werkzeug, um den Vibe eines Models zu messen.“
