Votre chat est peut-être plus intelligent que ChatGPT. Si l’intelligence artificielle est désormais capable d’écrire de la poésie et de réussir des examens de droit, elle ne peut toujours pas rivaliser avec les capacités de raisonnement élémentaires qui permettent à votre chat de se déplacer sur les rebords de fenêtre et de bondir sur ses proies.
Cet écart entre la maîtrise des connaissances humaines par l’IA et son incapacité à égaler la compréhension du monde physique par les animaux est apparu comme un défi critique dans la quête de machines plus intelligentes. Yann LeCun, directeur scientifique en IA chez Meta, a mis cette question sur le devant de la scène la semaine dernière lors d’un sommet sur la sécurité de l’IA à Paris, affirmant que les « modèles du monde » (des systèmes d’IA qui forment des représentations internes de la structure, de la dynamique et des relations causales) pourraient être la clé pour faire progresser l’intelligence artificielle.
Cependant, certains chercheurs de premier plan se demandent si cette approche est aussi révolutionnaire qu’elle le semble.
« L’IA utilise des modèles du monde depuis les années 1950, et plusieurs sous-domaines de l’IA dépendent entièrement de ces modèles, a déclaré Stuart J. Russell, professeur d’informatique à l’université de Californie à Berkeley, à IBM Think. C’est à peu près aussi novateur et ingénieux que de suggérer que les mathématiques pourraient être utiles à la physique. »
Ce débat met en évidence la course effrénée vers l’intelligence artificielle générale (IAG), c’est-à-dire des systèmes d’IA capables d’égaler ou de dépasser le niveau d’apprentissage et de raisonnement humain dans pratiquement tous les domaines. Contrairement aux systèmes d’IA spécialisés actuels, qui excellent dans des tâches spécifiques telles que les échecs ou le traitement du langage, l’IAG devrait comprendre le monde de manière plus fondamentale, en alliant capacités de raisonnement, compréhension physique et adaptabilité.
Les grandes entreprises technologiques ont adopté différentes approches pour relever ce défi. Par le biais de sa série GPT, OpenAI s’est concentrée sur l’amélioration des modèles de langage afin d’obtenir un raisonnement de plus en plus sophistiqué. Google DeepMind, avec des systèmes tels qu’AlphaFold et AlphaGo, a ciblé des domaines spécifiques tout en travaillant à l’amélioration de capacités plus générales. De son côté, Meta a souligné l’importance d’apprendre à partir d’interactions réelles plutôt que du seul texte.
« Ne cherchez pas à reproduire l’intelligence humaine, a déclaré M. LeCun lors du sommet. Nous ne pouvons même pas reproduire l’intelligence d’un chat ou d’un rat. N’importe quel chat est capable de planifier des actions très complexes. »
Ces dernières années, les systèmes d’IA ont rapidement amélioré leurs scores sur des critères de référence dans des domaines spécifiques. Mais M. LeCun souligne ce que les chercheurs appellent le paradoxe de Moravec : le constat que les compétences que les humains trouvent faciles s’avèrent souvent les plus difficiles à maîtriser pour les machines.
« Nous pensons que les choses que nous considérons comme acquises parce que les humains et les animaux en sont capables ne sont pas compliquées, alors qu’elles le sont, a-t-il déclaré. Et les choses que nous considérons comme propres à l’humain, comme manipuler et générer du langage, jouer aux échecs, jouer au jeu de go… s’avèrent être relativement faciles. »
Ce paradoxe, selon lequel l’IA excelle dans des tâches que nous considérons comme intellectuellement exigeantes tout en ayant du mal avec des capacités physiques et perceptives apparemment basiques, suscite le scepticisme de certains experts.
« Le processus qui a permis de passer d’une séquence d’images rétiniennes aux équations de Maxwell pour l’électromagnétisme, par exemple, a pris des dizaines de milliers d’années à l’humanité et a nécessité un processus cumulatif de formation de concepts et de mathématisation, explique M. Russell. Je n’ai rien vu de similaire dans les systèmes d’apprentissage profond actuels. »
Pour illustrer les limites actuelles, LeCun a fait une comparaison frappante : les LLM modernes s’entraînent sur des trillions de tokens, une quantité de texte qui prendrait un demi-million d’années à lire pour un humain. Pourtant, un enfant de quatre ans, éveillé depuis seulement environ 16 000 heures, traite une quantité comparable de données grâce à sa seule perception visuelle.
« Un enfant de quatre ans a vu autant de données que le plus grand LLM sous forme de perception visuelle, et pour les enfants aveugles, c’est le toucher, a déclaré M. LeCun. Cela nous en apprend beaucoup. Nous n’atteindrons jamais le niveau d’intelligence humaine en entraînant les modèles uniquement sur du texte. »
Cette observation a poussé les chercheurs à explorer de nouvelles approches. Chez Meta, l’équipe de M. LeCun a même abandonné le terme « intelligence artificielle générale » au profit de « intelligence artificielle avancée » (IAA). « La raison en est que l’intelligence humaine est en réalité assez spécialisée, et donc l’appeler IAG est en quelque sorte un abus de langage », a déclaré M. LeCun.
M. LeCun pense que nous devons repenser complètement la façon dont l’IA va évoluer. Plutôt que d’essayer de copier le cerveau humain, il souhaite changer la manière dont l’IA apprend et comprend le monde. Il soutient que l’IA doit se forger sa propre image mentale de la réalité en absorbant des informations par le biais de ses « sens », par exemple en apprenant comment les objets physiques se comportent simplement en regardant des vidéos. Ces systèmes d’IA devraient être capables de mémoriser les informations de manière cohérente et de planifier leurs actions étape par étape afin d’accomplir leurs tâches.
Les informaticiens ont des opinions divergentes sur la manière dont les systèmes d’IA pourraient développer leur propre compréhension du monde. Pedro Domingos, professeur émérite à l’université de Washington, estime que des progrès sont possibles, mais pas dans l’immédiat. « Il est tout à fait réaliste de créer des IA qui développent leurs propres modèles du monde, a-t-il déclaré à IBM Think, mais nous ne savons pas encore comment, et des recherches supplémentaires sont nécessaires ».
Les capacités actuelles de l’IA sont loin d’atteindre le niveau de raisonnement humain, en particulier dans le traitement de tâches complexes. Comme l’explique Russell : « Depuis les années 1960, nous avons compris que l’utilisation de modèles du monde simples et uniformes conduit à des problèmes de raisonnement et de planification totalement insolubles. (Imaginez que vous essayez de planifier des vacances en déterminant à l’avance la séquence exacte des 800 millions d’activations musculaires qui seront nécessaires). » Il note que les humains traitent les informations différemment : « Le principal outil utilisé par les humains pour surmonter cela est la hiérarchie : nous fonctionnons avec de nombreux modèles à plusieurs niveaux d’abstraction, depuis les actions importantes et de haut niveau… jusqu’aux actions minuscules et de bas niveau, comme bouger un doigt pour taper la lettre ”i” dans cet e-mail. »
