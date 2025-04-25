Sujet d'actualité, s'il y en a un, les benchmarks sont devenus au cœur du débat maintenant que les capacités de l'IA évoluent si rapidement qu'elles devancent de plus en plus les outils utilisés pour les mesurer.

« Chaque année, nous examinons les performances de ces algorithmes par rapport aux différents indices de référence, et chaque année, il semble qu’ils les devancent », explique Vanessa Parli, l’une des autrices du rapport, lors d’un entretien avec IBM Think. « De même, cette année, ceci se produit même avec les nouveaux critères de référence. »

Le rapport a noté qu’en 2023, les chercheurs ont introduit de nouveaux benchmarks de référence —MMMU, GPQA et SWE-bench— pour tester les limites des systèmes d’IA avancés. À peine un an plus tard, les performances ont fortement augmenté : les scores ont augmenté de 18,8, 48,9 et 67,3 points de pourcentage respectivement sur MMMU, GPQA et SWE-Bench, selon le rapport.

Ceci soulève une ambiguïté au sein de la communauté de recherche sur la signification et la valeur réelles d’une référence LLM. Mme Parli pose des questions critiques : « Est-ce que nous mesurons la bonne chose ? Ces indices de référence sont-ils compromis ? Et comment la communauté scientifique devrait-elle évaluer les modèles ? »

En pensant à l'avenir, Ash Minhas s'interroge également sur ce que sera l'avenir du benchmarking. « Où cela va-t-il s’arrêter ? », demande-t-il dans une interview accordée à IBM Think. « Le test de Turing devra-t-il constamment être un poste d’objectif en mouvement ? Le dernier examen de l’humanité est-il vraiment le dernier examen ? »

Par ailleurs, les experts mettent en garde contre le risque de surajustement, un phénomène dans lequel un modèle IA a appris à réaliser des performances exceptionnelles lors de tests de référence spécifiques, mais ne parvient pas à s'adapter à de nouvelles données inédites dans les applications du monde réel. « Sommes-nous simplement en train d’entraîner le modèle à atteindre le seuil de référence ? », ajoute-t-il. « MMMU est un bon de référence, mais est-ce parce que le modèle sait comment y répondre ? »

M. Minhas met également en garde contre le fait que l'enthousiasme et l'élan du progrès pourraient prendre le pas sur les questions d'éthique, d'équité et de partialité.