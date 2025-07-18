L'intelligence artificielle peut produire du code mais ne pense pas comme un ingénieur logiciel.
C’est la conclusion d’une nouvelle recherche du laboratoire d’informatique et d’intelligence artificielle du MIT, qui a révélé que si les grands modèles de langage (LLM) excellent dans la génération d’extraits de code, ils ne sont pas capables du raisonnement sophistiqué, de la planification et de la collaboration qu’exige l’ingénierie logicielle du monde réel. L’étude, menée en collaboration avec des chercheurs de Stanford, UC Berkeley et Cornell et présentée lors de la Conférence internationale sur l’apprentissage automatique de cette semaine, remet en question les hypothèses sur la préparation de l’IA à transformer le développement logiciel.
« La planification de codes à long terme nécessite un degré sophistiqué de raisonnement et d'interaction humaine », a déclaré Alex Gu, doctorant au MIT CSAIL et auteur principal de l'étude, lors d'un entretien avec IBM Think. « Le modèle doit prendre en compte différents compromis, tels que les performances, la mémoire, la qualité du code, etc., et s'en servir pour décider avec précision de la conception du code. »
Les outils de codage basés sur l'IA font désormais partie intégrante du développement de logiciels modernes. En 2025, 82 % des développeurs ont déclaré utiliser des outils de codage IA au moins une fois par semaine, et 59 % ont indiqué s'appuyer sur trois assistants ou plus dans leur workflow. Par ailleurs, 78 % ont fait état de gains de productivité évidents, ce qui montre à quel point l'IA façonne la manière dont le code est écrit aujourd'hui.
L’étude du MIT définit ce qu’elle appelle la « planification de code à long terme » comme une limitation majeure des systèmes d’IA actuels. Selon M. Gu, cela implique de raisonner sur la manière dont le code s'intègre dans des systèmes plus vastes et d'envisager les conséquences globales des décisions locales.
M. Gu a cité l'exemple de la conception d'un nouveau langage de programmation. La tâche, a-t-il expliqué, nécessite de prendre en compte toutes les différentes façons dont le langage doit être utilisé, de décider quelles fonctions API à exposer et de réfléchir aux modèles d’utilisation des utilisateurs. L’étude souligne que les modèles doivent également raisonner sur les effets globaux des modifications de code locaux, car de légères modifications dans la conception d’une seule fonction peuvent se propager au reste de la base de code.
La recherche du MIT identifie les problèmes avec la manière dont les capacités de codage de l'IA sont actuellement évaluées. Selon M. Gu, la plupart des tests de référence en codage se concentrent sur la génération de petits programmes autonomes à partir de zéro, ce qui ne reflète pas la réalité du génie logiciel à grande échelle.
« Un aspect que nous mentionnons est la diversité des tâches : alors que le génie logiciel [SWE] dans le monde réel implique des tâches telles que les tests ou la maintenance de logiciels, celles-ci sont rarement prises en compte dans les critères de référence actuels », a déclaré M. Gu.
Tout aussi importante, a-t-il ajouté, est la capacité des systèmes d'IA à déduire l'intention de l'utilisateur, une compétence essentielle pour adapter les solutions à des cas d'utilisation spécifiques. « Un site Web d'entreprise doit probablement être plus robuste qu'un site Web conçu pour le plaisir. »
La recherche a révélé que les LLM fonctionnent mieux sur des tâches qui ressemblent beaucoup à des exemples observés lors de la formation, créant des défis pour les projets reposant sur des langages de programmation à faible ressources ou des bibliothèques spécialisées. Selon M. Gu, les langues à faibles ressources et les bibliothèques spécialisées apparaissent relativement peu fréquemment dans ce pool de données. Les LLM ont donc plus de mal à les utiliser.
« L’exécution de ces tâches repose davantage sur l’extrapolation à des données et des domaines non observés (généralisation), ce qui est souvent plus difficile que de réitérer un code similaire à la distribution d’entraînement », a déclaré M. Gu.
Selon l’étude, cette limitation signifie que les agents de codage IA ont tendance à être moins efficaces dans les systèmes hérités, les environnements informatiques scientifiques et les outils internes où la documentation peut être limitée.
L’étude du MIT identifie la nécessité pour les systèmes d’IA de développer un modèle sémantique précis de la base de code d’un projet. Selon M. Gu, il s'agit de comprendre la structure des logiciels, la façon dont les composants interagissent et la manière dont ces relations évoluent dans le temps.
« L'IA doit d'abord comprendre la structure de la base de code et la façon dont les différentes parties s'assemblent », a-t-il déclaré. « Ensuite, elle doit comprendre le fonctionnement des différentes fonctions. Enfin, elle devra mettre à jour son modèle de base de code au fur et à mesure de l'ajout de nouvelles fonctionnalités. »
L'étude note que les modèles IA actuels n'ont pas d'état persistant entre les prompts, et qu'ils n'ont pas de mémoire de l'évolution d'une base de code ou de représentation interne de son architecture.
Malgré ces limitations, les auteurs identifient plusieurs domaines susceptibles d’amélioration. Selon M. Gu, de meilleurs critères de référence pourraient être utiles, en particulier s'ils permettent d'évaluer les systèmes d'IA sur un plus large éventail de tâches, y compris les tests, la maintenance et la collaboration entre l'homme et l'IA.
Il voit également des promesses à court terme dans des domaines au-delà du codage, en particulier dans la formation. « L'IA dispose déjà de solides capacités pour résoudre la plupart des problèmes des écoles élémentaires et des collèges », a-t-il déclaré. « L’IA recèle un fort potentiel pour rationaliser les flux de travail existants dans le domaine de l’éducation, tels que la génération d’exercices pratiques, la notation et l’identification des fausses idées des élèves. »
