La investigación del MIT define lo que llama "planificación de código a largo plazo" como una limitación clave de los sistemas de IA actuales. Según Gu, esto implica razonar sobre cómo encaja el código en sistemas más grandes y considerar las consecuencias globales de las decisiones locales.

"La planificación de código a largo plazo requiere un grado sofisticado de razonamiento e interacción humana", dijo Gu. "El modelo debe considerar compensaciones como el rendimiento, la memoria y la calidad del código, y usar eso para decidir cómo diseñar el código".

Gu señaló el ejemplo del diseño de un nuevo lenguaje de programación. La tarea, explicó, requiere considerar todas las diversas formas en que se debe usar el lenguaje, decidir qué funciones de API exponer y pensar en los patrones de uso del usuario. El estudio señala que los modelos también deben tener en cuenta los efectos globales de los cambios en el código local, ya que pequeños cambios en el diseño de una sola función pueden propagarse al resto del código base.

La investigación del MIT identifica problemas con la forma en que se evalúan actualmente las capacidades de programación de IA. Según Gu, la mayoría de los puntos de referencia de programación se centran en generar programas pequeños e independientes desde cero, lo que no refleja la realidad de la ingeniería de software a gran escala.

"Un aspecto que mencionamos es la diversidad de tareas: mientras que la ingeniería de software del mundo real [SWE] implica tareas como pruebas de software o mantenimiento de software, estas rara vez se reflejan en los puntos de referencia actuales", dijo Gu.

Igualmente importante, agregó, es la capacidad de los sistemas de IA para inferir la intención del usuario, una habilidad esencial para adaptar las soluciones a casos de uso específicos. "Es probable que un sitio web para una empresa deba ser más sólido que un sitio web diseñado para divertirse".

La investigación encontró que los LLM funcionan mejor en tareas que se parecen mucho a los ejemplos vistos durante el entrenamiento, creando desafíos para proyectos que dependen de lenguajes de programación de bajos recursos o bibliotecas especializadas. Según Gu, los lenguajes de bajos recursos y las bibliotecas especializadas aparecen con relativa poca frecuencia en este conjunto de datos, por lo que los LLM tienen más dificultades con ellos.

"Realizar estas tareas depende más de la extrapolación a datos y dominios no vistos (generalización), que a menudo es más difícil que reiterar código similar a la distribución de entrenamiento", dijo Gu.

Según el estudio, esta limitación significa que los agentes de programazión de IA tienden a ser menos efectivos en sistemas heredados, entornos informáticos científicos y herramientas internas donde la documentación puede ser limitada.