KI-Modelle werden zunehmend gebeten, sich selbst zu bewerten, was eine kritische Frage aufwirft: Wer überwacht die Überwacher?
KI-Unternehmen entwickeln Modelle zur Bewertung anderer KI-Systeme, was einen Wandel von traditionellen, von Menschen durchgeführten Bewertungsmethoden markiert. Das neue Modell von Meta kann beispielsweise die Leistung ohne menschliche Eingabe bewerten. Und es entfacht eine Diskussion unter Forschern über die Genauigkeit und die Grenzen automatisierter Tests.
Der Self-Taught Evaluator verwendet KI-generierte Trainingsdaten und eine Denkketten-Technik, um Antworten in Wissenschaft, Codierung und Mathematik zu bewerten. Das Ziel ist Transparenz, doch damit sind Risiken verbunden. „Das ist ein großes Problem – die Validierung von Validatoren“, sagt IBM Fellow Kush Varshney. Die Selbstevaluierung von KI verspricht mehr Effizienz, birgt aber auch ernsthafte Risiken. Varshney und sein Team bei IBM entwickeln Metriken für LLM-als-Richter-Modelle– LLMs, die andere KI-Ausgaben bewerten können. Dennoch, wie Varshney es ausdrückt, „ist dies nach wie vor ein offenes Forschungsproblem“.
Die zentrale Frage ist, ob man darauf vertrauen kann, dass sich KI-Modelle selbst verbessern, oder ob sie Gefahr laufen, ihre eigenen Fehler zu verstärken.
„Denken Sie daran, ein Mikrofon in die Nähe eines Lautsprechers zu bringen“, sagt Varshney. „In jedem Feedback-System werden Fehler oder Geräusche verstärkt.“
Der Self-Taught Evaluator von Meta versucht, diese Risiken zu mindern, indem er einen Argumentationspfad bereitstellt, ähnlich wie ein Mensch seinen Denkprozess erklärt. Die Abhängigkeit von synthetischen Daten und Selbstverbesserung wirft jedoch die Frage auf: Sind die Urteile des Modells unvoreingenommen? Verzerrung tritt auf, wenn die Ausgaben eines KI-Systems ungerechte oder voreingenommene Annahmen widerspiegeln, in der Regel aufgrund von verzerrten Daten oder Algorithmen.
„Das Ziel muss darin bestehen, dass die LLM-Richter unvoreingenommen sind, deshalb müssen wir ihre Verzerrung bewerten“, sagt Varshney. Eine Methode besteht darin, Multiple-Choice-Antworten zu mischen, um festzustellen, ob ein Modell eine Verzerrung aufweist, d. h. ob es eine Antwort gegenüber anderen bevorzugt. Zusammen mit der Verzerrung der Ausführlichkeit und der Verzerrung zur Selbstverbesserung können positionelle Verzerrungen alle Bewertungen verzerren. „Der Umgang mit diesen Risiken ist Teil der KI-Entwicklung“, sagt Varshney. Verantwortungsvolle KI erfordert die Identifizierung und Abschwächung von Verzerrungen.
In Spezialgebieten wie fortgeschrittener Mathematik und wissenschaftlicher Forschung ist es noch schwieriger, eine zuverlässige KI-Selbstevaluierung sicherzustellen. Das bedeutet, dass häufig menschliche Experten benötigt werden, um Ergebnisse zu validieren und KI-Systeme zuverlässig und auf Kurs zu halten.
„Dabei gibt es viele Tricks, zum Beispiel das Umordnen von Multiple-Choice-Antworten“, sagt Varshney.
Laut Dev Nag, Gründer und CEO von QueryPal, geht es bei Metas Self-Taught Evaluator darum, das menschliche Urteilsvermögen zu erweitern und zu skalieren – nicht darum, den Menschen aus dem Kreislauf zu entfernen.
„Denken Sie daran, wie ähnlich ein Lehrer Übungsaufgaben auf der Grundlage seines Verständnisses davon erstellt, was eine gute oder schlechte Antwort ausmacht“, sagt Nag. „So wie AlphaGo die Regeln von Go als Grundlage nutzte, bevor es mit dem Selbstspiel begann, baut der Self-Taught Evaluator auf von Menschen etablierten Qualitätskriterien auf, bevor er synthetische Trainingsbeispiele generiert, die implizit menschliches Urteilsvermögen einbeziehen.“
Selbst bei selbstüberwachender KI können regelmäßige Prüfungen versteckte Verzerrungen oder Probleme aufdecken, sagt Dan O'Toole, Vorsitzender und CEO von Arrive KI.
„Die Verwendung mehrerer KI-Modelle zur unabhängigen Durchführung derselben Bewertung oder deren Verkettung reduziert Fehler und zeigt potenzielle Probleme auf“, sagt er. Erklärbarkeit ist ebenfalls unerlässlich. „Die Gedankenkette ist ein wichtiger Schritt hin zu Transparenz und erhöhter Vertrauenswürdigkeit.“
O'Toole betont, dass spezialisierte Metriken für Bereiche wie fortgeschrittene Mathematik und wissenschaftliche Forschung entscheidend sind. Meta zum Beispiel hat MT-Bench und RewardBench für allgemeine Bewertungen verwendet, sagt er, aber Benchmarks wie GSM8K sind für mathematische Problemlösungen geeignet. CRUXEval kann beim Code-Denken helfen, während domänenspezifische Benchmarks wie FactKB, PubMed und SciBench sicherstellen können, dass Modelle spezifische Anforderungen erfüllen.
Nag betont, dass die Messung der Leistung und die Gewährleistung der Zuverlässigkeit von entscheidender Bedeutung sind, insbesondere in spezialisierten Bereichen. Er ist der Ansicht, dass der ultimative Benchmark darin bestehen sollte, wie gut die Ergebnisse mit den Bewertungen von Experten auf diesem Gebiet übereinstimmen.
„Die Übereinstimmung von 88,7 % des Self-Taught Evaluators mit menschlichen Beurteilungen auf RewardBench ist eine gute Ausgangsbasis, aber die Berücksichtigung anderer Faktoren wie Konsistenz, Erklärbarkeit und die Fähigkeit des Systems, Edge-Fälle zu erkennen, ist ebenso wichtig“, sagt er. „So wie AlphaGos Selbstspiel durch seine Leistung gegen menschliche Champions bestätigt wurde, sollten Evaluierungssysteme regelmäßig von Expertengremien getestet werden.“
Jen Clark, die Beratungs- und Technologiedienstleistungen bei EisnerAmper leitet, betont, dass die KI-Entwicklung strukturierte Frameworks erfordert, um sowohl Sicherheit als auch effektiven Fortschritt zu gewährleisten.
„Da die KI fortschreitet, ist es entscheidend, auf Methoden zurückzugreifen, die die menschliche Forschung unterstützt haben, wie die wissenschaftliche Methode, starke Gemeinschaften und Kooperationsnetzwerke“, sagt sie. „Die Fokussierung der Bemühungen auf diesen Bereich ist unerlässlich für die Durchsetzung der KI-Sicherheit durch Crowdsourcing und die Steuerung von Geschwindigkeit und Umfang der KI-Entwicklung.“