L’article soulève également la nécessité de disposer de meilleurs critères de référence dans le secteur de l’IA. Selon M. Minhas, les critères actuels sont imparfaits, car les modèles peuvent les résoudre par la correspondance de schémas plutôt que par un véritable raisonnement. « Si les critères de référence étaient basés sur un raisonnement réel, ou si les problèmes de raisonnement étaient plus complexes, tous les modèles auraient des performances désastreuses », explique-t-il.

M. Minhas précise que les chercheurs d’Apple ont créé ce jeu de données synthétiques, une collection de données employées pour entraîner et tester des modèles et des algorithmes d’IA, en mélangeant les symboles.



« Ils ont prouvé que les performances de ces modèles se dégradent lorsque vous commencez à modifier et à changer des éléments dans la séquence d’entrée, que ce soit par le biais des symboles eux-mêmes ou d’un contexte supplémentaire comme des tokens superflus », explique-t-il.

La méthodologie de l’étude d’Apple consistait à introduire divers éléments superflus et clauses dans le jeu d’entraînement afin d’observer comment les performances du modèle évoluaient. Cependant, Jess Bozorg, data scientist chez IBM, souligne une limite potentielle : « Ils n’ont pas précisé combien de catégories d’éléments superflus ils ont prises en compte dans leurs ajouts, ni quels types ils ont utilisés dans chaque catégorie. »

L’une des critiques formulées dans l’article à l’égard des critères de référence actuels des LLM concerne la question de la contamination des données. Mme Bozorg explique que l’étude d’Apple a utilisé le jeu de données GSM-8K, qui contient des problèmes mathématiques de niveau primaire créés par des humains. « Il y a une fuite de données, dit-elle. Cela signifie que le modèle avait déjà vu certaines de ces données pendant la phase de test de son entraînement. »

La contamination est un problème très répandu dans le secteur. M. Minhas affirme que le jeu de données GSM-8K « est une référence tellement importante dans l’industrie que tous les modèles en connaissent des fragments dans les données d’entraînement. C’est un problème fondamental avec tous ces critères de référence créés. »

Il est intéressant de noter que l’étude a révélé que le GPT-4 obtenait des résultats nettement supérieurs à ceux des autres modèles lorsqu’il était testé sur le nouvel ensemble de données symboliques. M. Minhas émet une hypothèse sur la raison de ce phénomène : « Est-il possible que lors de l’entraînement de GPT-4, les chercheurs aient pensé à des représentations symboliques et généré des données de test de ce type ? Peut-être qu’il ne fait encore que mettre en correspondance des schémas, mais son jeu de données d’entraînement contenait ce type de données. »

M. Minhas souligne que les chercheurs tentent d’aller au-delà de cette mise en correspondance en introduisant la mémoire dans les systèmes d’IA. « C’est une façon d’essayer de les rendre plus généraux, mais cela reste une mise en correspondance de schémas basée sur ce que vous leur avez fournissez », explique-t-il.

L’étude d’Apple a mis en évidence les limites importantes des systèmes d’IA actuels, révélant que le chemin vers des machines véritablement intelligentes est encore loin d’être parcouru. Selon les experts, la communauté de l’IA doit désormais relever le défi de combler le fossé entre la mise en correspondance de schémas et le raisonnement véritable.

« L’architecture transformatrice ne suffit pas à elle seule pour le raisonnement, explique M. Minhas. Des progrès dans l’architecture des modèles sont nécessaires pour développer les capacités de raisonnement. »