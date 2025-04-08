Große Sprachmodelle werden unheimlich gut darin, menschliche Sprache zu verstehen – aber was, wenn sie auch das Gehirn selbst spiegeln?
In einer neuen Studie, die in Nature Human Behaviour veröffentlicht wurde, fanden Wissenschaftler heraus, dass das Whisper-Modell von OpenAI eine Sprache verarbeitet , die auffallend ähnlich ist wie echte Neuronen während natürlicher Gespräche. Der leitende Forscher Ariel Goldstein erzählt IBM Think, dass er und sein Team mehr als 100 Stunden Gehirnaufnahmen von Menschen in ungeskripteten Gesprächen analysiert haben. Durch den Vergleich dieser Aufnahmen mit der internen Abläufe von Whistler entdeckten sie, dass die geschichteten Darstellungen des Modells eng mit der Verarbeitung der Sprache durch das Gehirn übereinstimmen, vom reinen Laut bis zur Bedeutung.
Laut Goldstein könnten die Ergebnisse erhebliche wirtschaftliche Auswirkungen haben. Unternehmen könnten eines Tages KI-Sprachtools entwickeln, die Sprache so flexibel und effizient wie das Gehirn dekodieren, die Trainingszeit verkürzen, die Transkription verbessern und sogar neuronale Prothesen der nächsten Generation unterstützen.
„Sprache entsteht in unübersichtlichen, sozialen Kontexten, nicht in sterilen Laboren“, sagt Goldstein. „Unsere Studie zeigt, dass menschliche Kognition und KI-Modelle möglicherweise einen tieferen, flexibleren Code für die Gesprächsführung gemeinsam teilen.“
Die Aufzeichnungen wurden mit Elektrokortikografie (ECoG) aufgenommen, bei der Elektroden direkt auf der Gehirnoberfläche platziert werden. Diese Technik ist zwar invasiv, bietet aber einen originalgetreuen Blick auf die neuronale Aktivität. Goldsteins Team zeichnete die Gehirnaktivität von Patienten auf, die sich bereits für eine Epilepsie-Operation überwachten, und fing spontane, alltägliche Gespräche statt einzelner Worthinweise oder künstliche Hinweise auf.
Die Verbindung zwischen Gehirn und KI hat Innovationen bei IBM Research inspiriert, wo Wissenschaftler Chips wie NorthPole entwickelt haben, die neuronale Architektur nachahmen, indem sie traditionelle Speicher-Rechen-Engpässe eliminieren. Der Prototyp von IBM hat eine bemerkenswerte Effizienz bewiesen, indem er Inferenzen auf große KI-Modelle bis zu 46,9 Mal schneller durchführte als führende GPUs.
Die Studie ergab, dass neuronale Signale und die Einbettungen von Whispers Modell einen hohen Grad an linearer Ausrichtung aufwiesen, was darauf hindeutet, dass das Gehirn Sprache nicht in starren, getrennten Phasen, sondern in flexiblen, überlappenden Schichten verarbeitet, genau wie Deep-Learning-Systeme. Akustische, semantische und grammatikalische Informationen waren nicht auf isolierte Bereiche im Gehirn oder im KI-Modell beschränkt. Stattdessen schienen sie innerhalb derselben Schichten verschmolzen zu sein, was auf eine gemeinsame Optimierungsstrategie für Bedeutung hindeutet.
„Die Idee, dass wir ein System haben, das für eine Aufgabe optimiert ist und Repräsentationen hervorruft, die mit psycholinguistischen Konzepten korrelieren, aber nicht exakt – ist eine neue Denkweise darüber, wie das Gehirn Informationen verarbeitet“, erklärt Goldstein.
Er stellt fest, dass – anders als frühere Ansichten, die die Sprachfunktionen des Gehirns in diskrete Module unterteilten, einige für Klang, andere für Grammatik, andere für Bedeutung – die Ergebnisse seines Teams darauf hindeuten, dass das Gehirn all diese Module gleichzeitig in integrierten Bereichen verarbeiten kann, ähnlich wie ein Deep-Learning-Modell, das darauf trainiert ist, Aufgaben End-to-End-zu erledigen.
Whisper, entwickelt von OpenAI, wurde aufgrund seiner architektonischen Ähnlichkeit mit der Aufgabe des Gehirns ausgewählt: die Umwandlung akustischer Eingaben in kohärente Sprache. „Das Gehirn empfängt keine Wörter – es empfängt Geräusche“, so Goldstein. „Whisper ahmt dies nach, indem es Rohaudio Schicht für Schicht in Text umwandelt.“
Außerdem stellte das Team fest, dass semantische Signale manchmal erkannt werden konnten, bevor eine Person tatsächlich zu sprechen begann. Dies deutet darauf hin, dass das Gehirn bereits vor dem Sprechen eine Absicht oder Bedeutung kodiert, wodurch die Grenze zwischen Gedanken und Ausdruck weiter verwischt wird.
Goldstein merkt an, dass dieser Durchbruch die Echtzeit-Transkription verbessern, Sprachassistenten optimieren und intelligentere KI-Kundendienstmitarbeiter für Unternehmen ermöglichen könnte. Die Idee ist, dass eine stärkere Abstimmung von KI-Modellen auf menschliche Gehirnsignale – insbesondere unter rauschenden, realen Bedingungen – die Leistung steigern könnte, ohne Hunderttausende von Trainingsstunden zu erfordern.
„Es ist möglich, dass zukünftige Speech-to-Text-Modelle mit neuronalen Signalen oder menschlichen neuronalen Repräsentationen die Leistung dieser Modelle verbessern“, sagt Goldstein. „Aber das ist reine Spekulation. Wir haben es nicht direkt getestet.“
Stellen Sie sich einen zukünftigen Sprachassistenten vor, der nicht nur auf Transkripte, sondern auf gehirnähnliche Repräsentationen von Bedeutung trainiert ist. Dies könnte die Datenanforderungen für das Training reduzieren und die Robustheit in unvorhersehbaren Umgebungen wie Call-Centern oder Fahrassistenzsystemen erhöhen.
Die Forschung bietet ebenfalls vielversprechende Möglichkeiten für Hilfstechnologien. Die Entschlüsselung interner Sprachsignale könnte die Kommunikation von Personen mit degenerativen Erkrankungen oder Personen, die ihre Sprechfähigkeit verloren haben, wiederherstellen. Large Language Models könnten als Gerüst dienen und dabei helfen, grobe neuronale Absichten in grammatikalisch kohärente Sprache zu übersetzen.
„Wenn das Problem nicht kognitiver Natur ist, sondern die Kontrolle der Muskeln betrifft – ja, dann könnten wir irgendwann Geräte entwickeln, die die Bedeutung aus dem Gehirn entschlüsseln und den Menschen bei der Kommunikation helfen“, sagt er. „Aber wir haben in dieser Studie invasive Methoden angewendet. Wenn man etwas für den praktischen Gebrauch entwickelt, muss es auf nicht invasive Weise funktionieren, und diese Signale sind verrauschter.“
Es gibt auch ein spekulatives Forschungsgebiet: Gedankenlesen. Goldstein ist vorsichtig. „Sprechen ist Teil des Prozesses der Gedankenbildung“, bemerkt er. „Es ist nicht so, dass wir alles schon vollständig im Kopf haben und dann einfach auf ‚Senden‘ drücken. Wir können vielleicht etwas auf konzeptioneller Ebene erfassen, aber nicht unbedingt einen detaillierten inneren Monolog.“
Dennoch fanden frühe Belege aus der Studie Spuren semantischer Inhalte in Gehirnsignalen, bevor ein Wort gesprochen wurde, was darauf hindeutet, dass eine Maschine mit ausreichender Auflösung und Kontext vorhersagen könnte, was jemand sagen will.
Goldstein betont, dass die heutigen Sprachmodelle wie Whisper und GPT im Grunde Feedforward-Architekturen sind – die Daten fließen in eine Richtung –, das Gehirn aber rekursiv und feedbackgesteuert ist. „Der Endzustand des Gehirns wird zu seinem nächsten Input“, sagt er. „Es gibt einen ständigen Kreislauf der Selbstmodifikation.“ Das ist ein wesentlicher Unterschied.“
Er schlägt vor, dass zukünftige KI-Systeme durch die Integration ähnlicher Feedback-Schleifen, bei denen die Ausgabe zukünftige Eingaben in Echtzeit beeinflusst, an Leistung gewinnen. Dies hat Auswirkungen auf die Sprache und jedes System, das durch Interaktion lernt, wie etwa Robotertechnik oder autonome Agenten.
Die Forschung eröffnet ebenfalls neue Möglichkeiten für interdisziplinäre Kooperationen. Goldsteins Labor erkundet nun, wie multimodale Eingaben – Sehen, Ton, Bewegung – in KI-Systeme integriert werden könnten, die besser widerspiegeln, wie Menschen die Welt erleben und die Erfahrung haben.
„Wenn wir die gleichen Sinnesmodalitäten, die Menschen nutzen – körperliche, visuelle und auditive –, verwenden und Modelle entwickeln können, die auf ähnliche Weise trainiert werden, könnten wir der Modellierung des Gehirns viel näher kommen“, sagt er.
Für die Zukunft hat Goldstein etwas Ruhigeres im Auge. Nicht Smalltalk oder reaktives Reden, sondern Selbstreflexion.
„Menschen, die mit sich selbst sprechen und ihren inneren Zustand beschreiben – das ist der Bereich, in den ich als Nächstes gehen möchte“, sagt er. „Nicht soziale Interaktion, sondern die sanfte Stimme des Geistes.“
Er glaubt, dass die Modellierung des internen Dialogs – unserer privatesten Gespräche – tiefgreifende Erkenntnisse in das Bewusstsein und die Kognition bieten könnte. Aber es ist auch ethisch problematisch. Was passiert, wenn Maschinen unsere Gedanken abhören können, wenn auch unvollkommen?
„Wir müssen uns ernsthaft Gedanken über Überwachung, Verhaltensmanipulation und unbeabsichtigte Folgen machen“, warnt er. „Ich persönlich bin nicht beunruhigt, aber wir sollten vorbereitet sein. Wir müssen Ressourcen zuweisen, um zu verstehen, wie sich diese Art von Verhalten entwickeln könnte.“
Goldstein widersteht Sensationsgier. Das Gehirn ist kein Computer, und KI ist kein Gehirn. Die Ähnlichkeiten zwischen den beiden könnten jedoch mehr als nur oberflächliche Metaphern sein.
„Das ist ein Schritt nach vorn“, sagt er, „aber es steckt immer noch Magie darin, wie unser Gehirn Wörter im laufenden Betrieb zusammensetzt.“
