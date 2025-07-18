La investigación del MIT define lo que denomina "planificación de código a largo plazo" como una limitación clave de los sistemas de IA actuales. Según Gu, esto implica razonar sobre cómo encaja el código en sistemas más grandes y considerar las consecuencias globales de las decisiones locales.

"La planificación del código a largo plazo requiere un alto grado de razonamiento e interacción humana", afirma Gu. "El modelo debe tener en cuenta aspectos como el rendimiento, la memoria y la calidad del código, y utilizarlos para decidir cómo diseñarlo".

Gu señaló el ejemplo del diseño de un nuevo lenguaje de programación. La tarea, explicó, requiere considerar todas las diversas formas en que se debe usar el lenguaje, decidir qué funciones API exponer y pensar en los patrones de uso del usuario. El estudio señala que los modelos también deben razonar sobre los efectos globales de los cambios locales en el código, ya que ligeros cambios en el diseño de una única función pueden propagarse al resto del código base.

La investigación del MIT ha identificado problemas en la forma en que actualmente se evalúan las capacidades de codificación de la IA. Según Gu, la mayoría de los puntos de referencia de codificación se centran en generar programas pequeños y autónomos desde cero, lo que no refleja la realidad de la ingeniería de software a gran escala.

"Un aspecto que mencionamos es la diversidad de tareas: mientras que la ingeniería de software del mundo real [SWE] implica tareas como pruebas de software o mantenimiento de software, estas rara vez se reflejan en los puntos de referencia actuales", dijo Gu.

Igualmente importante, añadió, es la capacidad de los sistemas de IA para inferir la intención del usuario, una habilidad esencial para adaptar las soluciones a casos de uso específicos. "Es probable que un sitio web empresarial necesite mayor solidez que uno diseñado para el entretenimiento".

La investigación descubrió que los LLM funcionan mejor en tareas que se parecen mucho a los ejemplos vistos durante el entrenamiento, lo que crea desafíos para los proyectos que se basan en lenguajes de programación de bajos recursos o bibliotecas especializadas. Según Gu, los lenguajes de bajos recursos y las bibliotecas especializadas aparecen con relativa poca frecuencia en este conjunto de datos, por lo que los LLM tienen más dificultades con ellos.

"La realización de estas tareas depende en mayor medida de la extrapolación a datos y dominios no vistos (generalización), lo que a menudo resulta más difícil que repetir código similar a la distribución de entrenamiento", afirmó Gu.

Según el estudio, esta limitación significa que los agentes de codificación de IA tienden a ser menos efectivos en sistemas heredados, entornos de computación científica y herramientas internas donde la documentación puede ser limitada.