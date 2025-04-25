Benchmarks sind ein heißes Thema, denn die KI-Fähigkeiten entwickeln sich so schnell weiter, dass sie die Werkzeuge, mit denen sie gemessen werden, ständig überholen.

„Jedes Jahr betrachten wir, wie diese Algorithmen über Benchmarks hinweg abschneiden, und jedes Jahr scheint es, als würden sie diese Benchmarks übertreffen“, sagt Vanessa Parli, eine der Autorinnen des Berichts, in einem Interview mit IBM Think. „Ähnlich verhält es sich auch in diesem Jahr, selbst mit den neueren Benchmarks.“

In dem Bericht wird festgestellt, dass die Forscher 2023 neue Benchmarks – MMMU, GPQA und SWE-Bench –eingeführt haben, um die Grenzen fortschrittlicher KI-Systeme zu testen. Nur ein Jahr später verbesserte sich die Leistung deutlich: Laut Bericht stiegen die Werte bei MMMU, GPQA und SWE-Bench um 18,8, 48,9 bzw. 67,3 Prozentpunkte.

Dies führt innerhalb der Forschung zu Unklarheiten hinsichtlich der wahren Bedeutung und des Wertes eines Benchmarks. Parli stellt entscheidende Fragen zur Überlegung: „Messen wir das Richtige? Sind diese Benchmarks gefährdet? Und wie sollte die wissenschaftliche Gemeinschaft Modelle bewerten?“

Mit Blick in die Zukunft stellt sich Ash Minhas auch die Frage, wie das Benchmarking in Zukunft aussehen wird. „Wo soll das aufhören?" fragt er in einem Interview mit IBM Think. Muss der Turing-Test ständig neu definiert werden? Ist die letzte Prüfung der Menschheit wirklich die letzte Prüfung?“

In der Zwischenzeit warnen Experten vor dem Risiko einer Überanpassung, einem Phänomen, bei dem ein KI-Modell gelernt hat, bei bestimmten Benchmark-Tests außergewöhnlich gut abzuschneiden, es aber möglicherweise nicht gelingt, auf neue, unsichtbare Daten in realen Anwendungen zu verallgemeinern. „Trainieren wir das Modell nur darauf, den Benchmark zu bestehen?“, fügt er hinzu. „MMMU ist ein guter Benchmark-Wert, aber liegt es daran, dass das Modell weiß, wie es auf den Benchmark reagieren soll?“

Minhas warnt auch davor, dass die Begeisterung und die Dynamik des Fortschritts Vorrang vor der Sorge um Ethik, Fairness und Verzerrung haben könnten.