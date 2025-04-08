Les grands modèles de langage deviennent étrangement doués pour comprendre le langage humain, mais que se passerait-il s’ils reflétaient également le fonctionnement du cerveau lui-même ?
Dans une nouvelle étude publiée dans Nature Human Behaviour, des scientifiques ont découvert que le modèle Whisper d’OpenAI traite le langage de manière étonnamment similaire à la façon dont les vrais neurones réagissent lors de conversations naturelles. Le chercheur principal, Ariel Goldstein, explique à IBM Think que son équipe et lui ont analysé plus de 100 heures d’enregistrements cérébraux provenant de personnes engagées dans des dialogues improvisés. En comparant ces enregistrements avec le fonctionnement interne de Whisper, ils ont découvert que les représentations en couches du modèle correspondent étroitement à la manière dont le cerveau traite la parole, du son brut au sens.
Selon M. Goldstein, ces résultats pourraient avoir des implications commerciales importantes. Les entreprises pourraient un jour concevoir des outils vocaux basés sur l’IA qui décodent la parole de manière aussi flexible et efficace que le cerveau, réduisant ainsi le temps d’entraînement, améliorant la transcription et alimentant même les prothèses neuronales nouvelle génération.
« Le langage s’exprime dans des contextes sociaux chaotiques, et non dans des laboratoires stériles, explique M. Goldstein. Notre étude montre que la cognition humaine et les modèles d’IA pourraient partager un code plus profond et plus flexible pour gérer les conversations. »
Les enregistrements ont été recueillis à l’aide de l’électrocorticographie (ECoG), qui consiste à placer des électrodes directement à la surface du cerveau. Bien qu’invasive, cette technique offre une vision très fidèle de l’activité neuronale. L’équipe de M. Goldstein a enregistré l’activité cérébrale de patients déjà sous surveillance en vue d’une chirurgie de l’épilepsie, capturant des conversations spontanées et quotidiennes plutôt que des mots isolés ou des invites artificielles.
La connexion entre le cerveau et l’IA a inspiré des innovations chez IBM Research, où des scientifiques ont développé des puces telles que NorthPole, qui imitent l’architecture neuronale en éliminant les goulets d’étranglement traditionnels entre la mémoire et le calcul. Le prototype d’IBM a démontré une efficacité remarquable, effectuant des inférences sur de grands modèles d’IA jusqu’à 46,9 fois plus rapidement que les principaux processeurs graphiques.
L’étude a révélé que les signaux neuronaux et les embeddings du modèle Whisper présentaient un degré élevé d’alignement linéaire, ce qui suggère que le cerveau traite le langage non pas en étapes rigides et séparées, mais en couches flexibles et superposées, à l’instar des systèmes d’apprentissage profond. Les informations acoustiques, sémantiques et grammaticales n’étaient pas confinées à des zones isolées du cerveau ou du modèle d’IA. Au contraire, elles semblaient fusionnées au sein des mêmes couches, laissant entrevoir une stratégie d’optimisation commune pour la signification.
« Cette idée selon laquelle nous disposons d’un système optimisé pour une tâche donnée, qui induit des représentations corrélées aux concepts psycholinguistiques, mais pas exactement, est une nouvelle façon d’envisager la manière dont le cerveau traite les informations », explique M. Goldstein.
Il note que, contrairement aux points de vue antérieurs qui divisaient les fonctions linguistiques du cerveau en modules distincts (certains pour le son, d’autres pour la grammaire, d’autres encore pour le sens), les conclusions de son équipe suggèrent que le cerveau pourrait traiter tous ces éléments simultanément dans des régions intégrées, à l’instar d’un modèle d’apprentissage profond entraîné à accomplir des tâches de bout en bout.
Développé par OpenAI, Whisper a été choisi pour sa similitude architecturale avec la tâche du cerveau : transformer les entrées acoustiques en langage cohérent. « Le cerveau ne reçoit pas des mots, il reçoit des sons, explique M. Goldstein. Whisper imite ce processus en convertissant le son brut en texte, couche par couche. »
De plus, l’équipe a découvert que les signaux sémantiques pouvaient parfois être détectés avant même qu’une personne ne commence à parler. Cela suggère que le cerveau pourrait pré-encoder l’intention ou le sens avant la parole, brouillant encore davantage la frontière entre pensée et expression.
M. Goldstein note que cette avancée pourrait améliorer la transcription en temps réel, perfectionner les assistants vocaux et permettre aux entreprises de disposer d’agents de service client d’IA plus intelligents. L’idée est que le fait d’aligner plus étroitement les modèles d’IA sur les signaux du cerveau humain, en particulier dans des conditions réelles bruyantes, pourrait améliorer les performances sans nécessiter des centaines de milliers d’heures d’entraînement.
« Il est possible que si nous limitons les futurs modèles Speech to Text à l’aide de signaux neuronaux ou de représentations neuronales humaines, cela améliore les performances de ces modèles, explique M. Goldstein. Mais ce n’est qu’une hypothèse. Nous ne l’avons pas testé directement. »
Imaginez un assistant vocal futur entraîné non seulement à partir de transcriptions, mais aussi à partir de représentations cérébrales du sens. Cela pourrait réduire les besoins en données pour l’entraînement et augmenter la robustesse dans des environnements imprévisibles, comme les centres d’appels ou les systèmes d’aide à la conduite.
Cette recherche est également prometteuse pour les technologies d’assistance. Le décodage des signaux linguistiques internes pourrait rétablir la communication pour les personnes atteintes de maladies dégénératives ou qui ont perdu la capacité de parler. Les grands modèles de langage pourraient servir de base, aidant à traduire l’intention neuronale brute en un langage grammaticalement cohérent.
« Si le problème n’est pas cognitif, mais lié au contrôle des muscles, alors oui, nous pourrions éventuellement construire des appareils qui décodent le sens à partir du cerveau et aident les gens à communiquer, dit-il. Mais nous avons employé des méthodes invasives dans cette étude. Si vous construisez quelque chose à des fins pratiques, cela devrait fonctionner de manière non invasive, et ces signaux sont plus bruités. »
Il existe également une frontière spéculative : la télépathie. M. Goldstein reste prudent. « Parler fait partie du processus de formation d’une pensée, note-t-il. Ce n’est pas comme si tout était déjà entièrement formé dans notre esprit et qu’il suffisait d’appuyer sur le bouton ”envoyer”. Nous pourrions être capables de capturer quelque chose au niveau conceptuel, mais pas nécessairement un monologue interne détaillé. »
Néanmoins, les premières conclusions de l’étude ont révélé des traces de contenu sémantique dans les signaux cérébraux avant qu’un mot ne soit prononcé, ce qui suggère qu’avec une résolution et un contexte suffisants, une machine pourrait prédire ce qu’une personne a l’intention de dire.
M. Goldstein souligne que si les modèles de langage actuels tels que Whisper et GPT sont fondamentalement des architectures à propagation directe (les données circulent dans un seul sens), le cerveau est récursif et fonctionne par rétroaction. « L’état final du cerveau devient sa prochaine entrée, explique-t-il. Il y a une boucle constante d’auto-modification. C’est une différence majeure. »
Il suggère que les futurs systèmes d’IA gagnent en puissance en intégrant des boucles de rétroaction similaires, où les résultats influencent les entrées futures en temps réel. Cela a des implications pour le langage et tout système qui apprend par l’interaction, comme la robotique ou les agents autonomes.
Cette recherche ouvre également la voie à de nouveaux types de collaborations interdisciplinaires. Le laboratoire de M. Goldstein explore actuellement comment les entrées multimodales (vision, son, mouvement) pourraient être intégrées dans des systèmes d’IA qui reflètent mieux la façon dont les gens perçoivent le monde.
« Si nous pouvons utiliser les mêmes modalités que les humains (corporelles, visuelles, auditives) et concevoir des modèles entraînés de manière similaire, nous pourrions nous rapprocher beaucoup plus de la modélisation du cerveau », explique-t-il.
Pour l’avenir, il s’intéresse à quelque chose de plus discret : pas les conversations sociales ou les discours réactifs, mais l’introspection.
« Les gens qui se parlent à eux-mêmes, qui décrivent leur état intérieur, c’est là que je voudrais aller ensuite, dit-il. Pas les interactions sociales, mais notre petite voix intérieure. »
Il estime que la modélisation du dialogue interne, nos conversations les plus intimes, pourrait offrir des informations approfondies sur la conscience et la cognition. Mais cela pose également des problèmes éthiques. Que se passera-t-il lorsque les machines pourront écouter nos pensées, même de manière imparfaite ?
« Nous devons réfléchir sérieusement à la surveillance, à la manipulation comportementale et aux conséquences imprévues, prévient-il. Je ne suis pas alarmé personnellement, mais nous devons nous préparer. Nous devons allouer des ressources pour comprendre comment ce type de comportement pourrait se développer. »
M. Goldstein résiste au sensationnalisme. Le cerveau n’est pas un ordinateur, et l’IA n’est pas un cerveau. Cependant, les similitudes entre les deux peuvent être plus que de simples métaphores superficielles.
« C’est un pas en avant, dit-il, mais il y a encore de la magie dans la façon dont notre cerveau assemble les mots à la volée. »
