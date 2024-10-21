Das Paper hebt außerdem die Notwendigkeit besserer Benchmarks in der KI-Branche hervor. Laut Minhas sind die aktuellen Benchmark-Probleme fehlerhaft, weil die Modelle sie durch Mustererkennung anstatt durch tatsächliches logisches Denken lösen können. „Wenn die Benchmarks auf tatsächlichem Denken basieren würden oder wenn die Denkprobleme komplexer wären, dann würden alle Modelle miserabel abschneiden“, sagt er.

Minhas erklärt, dass die Apple-Forscher diesen synthetischen Datensatz – eine Sammlung von Daten, die zum Trainieren und Testen von KI-Modellen und -Algorithmen verwendet werden – durch das Mischen der Symbole erstellt haben.



„Sie haben bewiesen, dass die Leistung dieser Modelle nachlässt, wenn man anfängt, Dinge in der Eingabesequenz zu verändern, sei es durch die Symbole selbst oder durch zusätzlichen Kontext wie überflüssige Token“, sagt er.

Die Methode der Apple-Studie beinhaltete die Einführung verschiedener „Füllwörter“ und Klauseln in das Trainingsset, um zu beobachten, wie sich die Modellleistung verändert hat. Jess Bozorg, Data Scientist IBM , weist jedoch auf eine mögliche Einschränkung hin: „Sie haben nicht angegeben, wie viele Kategorien von Füllwörtern sie bei ihren Ergänzungen berücksichtigt haben oder welche Arten von Füllwörtern sie aus welcher Kategorie verwendet haben“, sagt sie.

Einer der Kritikpunkte des Papiers an den aktuellen LLM-Benchmarks ist das Problem der Datenverunreinigung. Bozorg erklärt, dass die Apple-Studie den GSM-8K-Datensatz verwendet hat. Set, das von Menschen erstellte mathematische Wortaufgaben für die Grundschule enthält. „Es gibt Datenlecks“, sagt sie. „Das bedeutet, dass das Modell einige dieser Daten bereits während der Testphase im Rahmen seines Trainings gesehen hat.“

Kontamination ist ein weit verbreitetes Problem in der Branche. Minhas sagt, dass der GSM-8K-Datensatz „ein solcher Branchenmaßstab ist, dass sich Bruchstücke davon überall in den Trainingsdaten finden, die allen Modellen bekannt sind. Das ist ein grundlegendes Problem bei all diesen erstellten Benchmarks.“

Interessanterweise zeigte die Studie, dass GPT-4 bei Tests auf dem neuen symbolischen Datensatz deutlich besser abschnitt als andere Modelle. Minhas spekuliert über den Grund: „Ist es möglich, dass sie beim Training von GPT-4 über symbolische Darstellungen nachgedacht und solche Testdaten generiert haben? Vielleicht führt es immer noch nur Mustererkennung durch, aber es enthielt diesen Datentyp in seinem Trainingsdatensatz.“

Minhas weist darauf hin, dass Forscher versuchen, über den Musterabgleich hinauszugehen, indem sie Speicher in KI-Systeme verschieben. „Auf diese Weise versuchen wir, sie allgemeiner zu gestalten, aber es handelt sich immer noch nur um einen Musterabgleich auf der Grundlage Ihrer Angaben“, sagt er.

Die Apple-Studie hat erhebliche Einschränkungen in aktuellen KI-Systemen aufgedeckt und gezeigt, dass der Weg zu wirklich intelligenten Maschinen noch lange nicht abgeschlossen ist. Experten zufolge steht die KI-Community nun vor der Herausforderung, die Kluft zwischen Mustererkennung und echtem Denken zu überbrücken.

„Die Transformer-Architektur allein reicht für eine Begründung nicht aus“, sagt Minhas. „Für die Entwicklung von Funktionen sind Fortschritte in der Modellarchitektur erforderlich.“