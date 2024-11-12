In Spezialgebieten wie fortgeschrittener Mathematik und wissenschaftlicher Forschung ist es noch schwieriger, eine zuverlässige KI-Selbstevaluierung sicherzustellen. Das bedeutet, dass häufig menschliche Experten benötigt werden, um Ergebnisse zu validieren und KI-Systeme zuverlässig und auf Kurs zu halten.

„Dabei gibt es viele Tricks, zum Beispiel das Umordnen von Multiple-Choice-Antworten“, sagt Varshney.

Laut Dev Nag, Gründer und CEO von QueryPal, geht es bei Metas Self-Taught Evaluator darum, das menschliche Urteilsvermögen zu erweitern und zu skalieren – nicht darum, den Menschen aus dem Kreislauf zu entfernen.

„Denken Sie daran, wie ähnlich ein Lehrer Übungsaufgaben auf der Grundlage seines Verständnisses davon erstellt, was eine gute oder schlechte Antwort ausmacht“, sagt Nag. „So wie AlphaGo die Regeln von Go als Grundlage nutzte, bevor es mit dem Selbstspiel begann, baut der Self-Taught Evaluator auf von Menschen etablierten Qualitätskriterien auf, bevor er synthetische Trainingsbeispiele generiert, die implizit menschliches Urteilsvermögen einbeziehen.“

Selbst bei selbstüberwachender KI können regelmäßige Prüfungen versteckte Verzerrungen oder Probleme aufdecken, sagt Dan O'Toole, Vorsitzender und CEO von Arrive KI.

„Die Verwendung mehrerer KI-Modelle zur unabhängigen Durchführung derselben Bewertung oder deren Verkettung reduziert Fehler und zeigt potenzielle Probleme auf“, sagt er. Erklärbarkeit ist ebenfalls unerlässlich. „Die Gedankenkette ist ein wichtiger Schritt hin zu Transparenz und erhöhter Vertrauenswürdigkeit.“

O'Toole betont, dass spezialisierte Metriken für Bereiche wie fortgeschrittene Mathematik und wissenschaftliche Forschung entscheidend sind. Meta zum Beispiel hat MT-Bench und RewardBench für allgemeine Bewertungen verwendet, sagt er, aber Benchmarks wie GSM8K sind für mathematische Problemlösungen geeignet. CRUXEval kann beim Code-Denken helfen, während domänenspezifische Benchmarks wie FactKB, PubMed und SciBench sicherstellen können, dass Modelle spezifische Anforderungen erfüllen.

Nag betont, dass die Messung der Leistung und die Gewährleistung der Zuverlässigkeit von entscheidender Bedeutung sind, insbesondere in spezialisierten Bereichen. Er ist der Ansicht, dass der ultimative Benchmark darin bestehen sollte, wie gut die Ergebnisse mit den Bewertungen von Experten auf diesem Gebiet übereinstimmen.

„Die Übereinstimmung von 88,7 % des Self-Taught Evaluators mit menschlichen Beurteilungen auf RewardBench ist eine gute Ausgangsbasis, aber die Berücksichtigung anderer Faktoren wie Konsistenz, Erklärbarkeit und die Fähigkeit des Systems, Edge-Fälle zu erkennen, ist ebenso wichtig“, sagt er. „So wie AlphaGos Selbstspiel durch seine Leistung gegen menschliche Champions bestätigt wurde, sollten Evaluierungssysteme regelmäßig von Expertengremien getestet werden.“

Jen Clark, die Beratungs- und Technologiedienstleistungen bei EisnerAmper leitet, betont, dass die KI-Entwicklung strukturierte Frameworks erfordert, um sowohl Sicherheit als auch effektiven Fortschritt zu gewährleisten.

„Da die KI fortschreitet, ist es entscheidend, auf Methoden zurückzugreifen, die die menschliche Forschung unterstützt haben, wie die wissenschaftliche Methode, starke Gemeinschaften und Kooperationsnetzwerke“, sagt sie. „Die Fokussierung der Bemühungen auf diesen Bereich ist unerlässlich für die Durchsetzung der KI-Sicherheit durch Crowdsourcing und die Steuerung von Geschwindigkeit und Umfang der KI-Entwicklung.“