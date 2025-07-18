L’étude du MIT définit ce qu’elle appelle la « planification de code à long terme » comme une limitation majeure des systèmes d’IA actuels. Selon M. Gu, cela implique de raisonner sur la manière dont le code s'intègre dans des systèmes plus vastes et d'envisager les conséquences globales des décisions locales.

« La planification de code à long terme nécessite un degré élevé de raisonnement et d'interaction humaine », explique M. Gu. « Le modèle doit prendre en compte des compromis comme la performance, la mémoire et la qualité du code, et s’en servir pour décider comment concevoir le code. »

M. Gu a cité l'exemple de la conception d'un nouveau langage de programmation. La tâche, a-t-il expliqué, nécessite de prendre en compte toutes les différentes façons dont le langage doit être utilisé, de décider quelles fonctions API à exposer et de réfléchir aux modèles d’utilisation des utilisateurs. L’étude souligne que les modèles doivent également raisonner sur les effets globaux des modifications de code locaux, car de légères modifications dans la conception d’une seule fonction peuvent se propager au reste de la base de code.

La recherche du MIT identifie les problèmes avec la manière dont les capacités de codage de l'IA sont actuellement évaluées. Selon M. Gu, la plupart des tests de référence en codage se concentrent sur la génération de petits programmes autonomes à partir de zéro, ce qui ne reflète pas la réalité du génie logiciel à grande échelle.

« Un aspect que nous mentionnons est la diversité des tâches : alors que le génie logiciel [SWE] dans le monde réel implique des tâches telles que les tests ou la maintenance de logiciels, celles-ci sont rarement prises en compte dans les critères de référence actuels », a déclaré M. Gu.

Tout aussi importante, a-t-il ajouté, est la capacité des systèmes d'IA à déduire l'intention de l'utilisateur, une compétence essentielle pour adapter les solutions à des cas d'utilisation spécifiques. « Un site Web d'entreprise doit probablement être plus robuste qu'un site Web conçu pour le plaisir. »

La recherche a révélé que les LLM fonctionnent mieux sur des tâches qui ressemblent beaucoup à des exemples observés lors de la formation, créant des défis pour les projets reposant sur des langages de programmation à faible ressources ou des bibliothèques spécialisées. Selon M. Gu, les langues à faibles ressources et les bibliothèques spécialisées apparaissent relativement peu fréquemment dans ce pool de données. Les LLM ont donc plus de mal à les utiliser.

« L’exécution de ces tâches repose davantage sur l’extrapolation à des données et des domaines non observés (généralisation), ce qui est souvent plus difficile que de réitérer un code similaire à la distribution d’entraînement », a déclaré M. Gu.

Selon l’étude, cette limitation signifie que les agents de codage IA ont tendance à être moins efficaces dans les systèmes hérités, les environnements informatiques scientifiques et les outils internes où la documentation peut être limitée.