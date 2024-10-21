Dans une étude qui fait des vagues dans le monde technologique, les chercheurs d’Apple ont remis en question l’idée selon laquelle les grands modèles de langage (LLM) sont véritablement capables de raisonner.
Les auteurs de l’article ont entrepris d’examiner les capacités de raisonnement mathématique des modèles d’IA actuels, y compris le leader du secteur GPT-4 d’OpenAI, en introduisant un nouveau jeu de données symboliques. En présentant des concepts mathématiques familiers de manière inhabituelle, les chercheurs ont cherché à remettre en question la compréhension des modèles au-delà de la simple reconnaissance de formes.
Les résultats ont été frappants : la plupart des LLM testés ont obtenu des performances nettement inférieures lorsqu’ils ont été confrontés à ces nouvelles représentations de problèmes mathématiques, ce qui suggère que ces systèmes s’appuient davantage sur la reconnaissance de modèles que sur de réelles capacités de résolution de problèmes.
« Cet article a fondamentalement prouvé que les LLM ne peuvent pas raisonner, déclare Ash Minhas, responsable du contenu technique chez IBM. Ils ne font que reconnaître des schémas. »
Cette révélation amène les experts à s’interroger sur l’étendue des capacités actuelles de l’IA et sur l’avenir de ce domaine. Les conclusions de l’étude soulignent la distinction entre l’intelligence artificielle étroite (IAE) et l’intelligence artificielle générale (IAG), suggérant que les LLM actuels appartiennent clairement à la première catégorie, selon M. Minhas.
Le domaine de l’IA envisage de plus en plus la possibilité de parvenir à l’IAG, qui désigne des systèmes d’IA capables d’apprendre et de comprendre comme les humains, d’appliquer leurs connaissances à divers domaines, d’effectuer des tâches variées et de potentiellement surpasser les capacités humaines dans tous les domaines, du raisonnement à la créativité.
Helen Toner, ancienne membre du conseil d’administration d’OpenAI et directrice de la stratégie au Centre pour la sécurité et les technologies émergentes de l’université de Georgetown, a récemment déclaré devant une sous-commission judiciaire du Sénat américain que « le plus grand décalage que je constate entre la perception du public et le point de vue des spécialistes de l’IA provient d’une poignée d’entreprises qui travaillent à la mise au point d’une ”intelligence artificielle générale” (IAG), c’est-à-dire une IA qui serait à peu près aussi intelligente qu’un être humain ». Elle a déclaré que les grandes entreprises d’IA telles qu’OpenAI, Google et Anthropic considèrent la création de l’IAG comme « un objectif tout à fait sérieux ».
Cependant, certains experts affirment que l’IAG est loin d’être une réalité. « Cet article souligne que nous sommes toujours dans le monde de l’IAE, déclare M. Minhas. Nous n’avons pas encore atteint l’IAG. »
L’article soulève également la nécessité de disposer de meilleurs critères de référence dans le secteur de l’IA. Selon M. Minhas, les critères actuels sont imparfaits, car les modèles peuvent les résoudre par la correspondance de schémas plutôt que par un véritable raisonnement. « Si les critères de référence étaient basés sur un raisonnement réel, ou si les problèmes de raisonnement étaient plus complexes, tous les modèles auraient des performances désastreuses », explique-t-il.
M. Minhas précise que les chercheurs d’Apple ont créé ce jeu de données synthétiques, une collection de données employées pour entraîner et tester des modèles et des algorithmes d’IA, en mélangeant les symboles.
« Ils ont prouvé que les performances de ces modèles se dégradent lorsque vous commencez à modifier et à changer des éléments dans la séquence d’entrée, que ce soit par le biais des symboles eux-mêmes ou d’un contexte supplémentaire comme des tokens superflus », explique-t-il.
La méthodologie de l’étude d’Apple consistait à introduire divers éléments superflus et clauses dans le jeu d’entraînement afin d’observer comment les performances du modèle évoluaient. Cependant, Jess Bozorg, data scientist chez IBM, souligne une limite potentielle : « Ils n’ont pas précisé combien de catégories d’éléments superflus ils ont prises en compte dans leurs ajouts, ni quels types ils ont utilisés dans chaque catégorie. »
L’une des critiques formulées dans l’article à l’égard des critères de référence actuels des LLM concerne la question de la contamination des données. Mme Bozorg explique que l’étude d’Apple a utilisé le jeu de données GSM-8K, qui contient des problèmes mathématiques de niveau primaire créés par des humains. « Il y a une fuite de données, dit-elle. Cela signifie que le modèle avait déjà vu certaines de ces données pendant la phase de test de son entraînement. »
La contamination est un problème très répandu dans le secteur. M. Minhas affirme que le jeu de données GSM-8K « est une référence tellement importante dans l’industrie que tous les modèles en connaissent des fragments dans les données d’entraînement. C’est un problème fondamental avec tous ces critères de référence créés. »
Il est intéressant de noter que l’étude a révélé que le GPT-4 obtenait des résultats nettement supérieurs à ceux des autres modèles lorsqu’il était testé sur le nouvel ensemble de données symboliques. M. Minhas émet une hypothèse sur la raison de ce phénomène : « Est-il possible que lors de l’entraînement de GPT-4, les chercheurs aient pensé à des représentations symboliques et généré des données de test de ce type ? Peut-être qu’il ne fait encore que mettre en correspondance des schémas, mais son jeu de données d’entraînement contenait ce type de données. »
M. Minhas souligne que les chercheurs tentent d’aller au-delà de cette mise en correspondance en introduisant la mémoire dans les systèmes d’IA. « C’est une façon d’essayer de les rendre plus généraux, mais cela reste une mise en correspondance de schémas basée sur ce que vous leur avez fournissez », explique-t-il.
L’étude d’Apple a mis en évidence les limites importantes des systèmes d’IA actuels, révélant que le chemin vers des machines véritablement intelligentes est encore loin d’être parcouru. Selon les experts, la communauté de l’IA doit désormais relever le défi de combler le fossé entre la mise en correspondance de schémas et le raisonnement véritable.
« L’architecture transformatrice ne suffit pas à elle seule pour le raisonnement, explique M. Minhas. Des progrès dans l’architecture des modèles sont nécessaires pour développer les capacités de raisonnement. »
