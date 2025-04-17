Hat ein neues Modell bei einem bestimmten Benchmark betrogen? Welcher Benchmark ist der beste? Und was bedeutet „beste“ überhaupt, wenn jeder Benchmark die Leistung bei einer anderen Aufgabe misst?

Diese Fragen veranlassen Experten wie Marina Danilevsky, Senior Forschung Scientist von IBM, zur Modellevaluierung mit Vorsicht. „Bei einem Benchmark gut abzuschneiden bedeutet genau das – dass man bei diesem Benchmark gut abschneidet“, sagt sie gegenüber IBM Think. Transparenz ist der Schlüssel, erklärt sie. „Wir müssen die vielen Dinge anerkennen, die ein bestimmtes Benchmark nicht testet, sodass die nächsten Benchmarks einige dieser Lücken schließen.“

Im Gegensatz zum Streben nach einem einzigen Benchmark verlagern neue Lösungen die Kontrolle an die Benutzer. Ein Team der Open-Source-KI-Plattform Hugging Face hat kürzlich YourBench veröffentlicht – ein Open-Source-Tool, das es Unternehmen und Entwicklern ermöglicht, eigene Daten zu verwenden, um individuelle Benchmarks zur Bewertung ihrer Modellleistung zu erstellen. Die meisten Benchmarks testen „allgemeine Funktionen“, erklärt Sumuk Shashidhar, Forscher bei Hugging Face, in einem IBM Think-Interview. „Bei vielen Anwendungsfall im realen Leben kommt es vor allem darauf an, wie gut ein Modell die jeweilige Aufgabe erfüllt“, sagt er.

Um den Nutzen von Benchmarks für reale Anwendungen zu erhöhen, generiert YourBench automatisch domänenspezifische Benchmarks direkt aus den vom Benutzer bereitgestellten Dokumenten – kostengünstig und ohne dass die Dokumente manuell annotiert werden müssen, so Shashidhar. Konkret demonstrieren die Forscher die Wirksamkeit von YourBench, indem sie sieben verschiedene MMLU-Teilmengen (Massive Multitask Language Understanding) für unter 15 USD an Gesamtinferenzkosten replizieren und dabei die relativen Modellleistungsrankings erhalten. MMLU wird verwendet, um zu bewerten, wie gut Sprachmodelle Wissen in verschiedenen Fachgebieten verstehen und anwenden können.