La inteligencia artificial puede generar código, pero no puede pensar como un ingeniero de software.
Esa es la conclusión de una nueva investigación del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT, que descubrió que, si bien los modelos de lenguaje de gran tamaño (LLM) se destacan en la generación de fragmentos de código, no alcanzan el razonamiento sofisticado, la planificación y la colaboración que exige la ingeniería de software del mundo real. El estudio, realizado en colaboración con investigadores de Stanford, UC Berkeley y Cornell y presentado esta semana en la conferencia internacional sobre machine learning, cuestiona las suposiciones sobre la capacidad de la IA para transformar el desarrollo de software.
"La planeación de código a largo plazo requiere un grado sofisticado de razonamiento e interacción humana", dijo Alex Gu, candidato a doctorado en MIT CSAIL y autor principal del estudio, en una entrevista con IBM Think. El modelo debe tener en cuenta diversas compensaciones, como el rendimiento, la memoria, la calidad del código, etc., y utilizarlas para decidir con precisión cómo diseñar el código.
Las herramientas de programación con IA son ahora un elemento básico del desarrollo de software moderno. En 2025, el 82% de los desarrolladores informaron que usaban herramientas de programación de IA semanalmente o más, y el 59% dijo que dependían de tres o más asistentes en su flujo de trabajo. Otro 78% reportó claras ganancias en productividad, demostrando hasta qué punto la IA está moldeando la forma en que se escribe el código hoy en día.
Boletín de la industria
Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .
Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
La investigación del MIT define lo que llama "planificación de código a largo plazo" como una limitación clave de los sistemas de IA actuales. Según Gu, esto implica razonar sobre cómo encaja el código en sistemas más grandes y considerar las consecuencias globales de las decisiones locales.
"La planificación de código a largo plazo requiere un grado sofisticado de razonamiento e interacción humana", dijo Gu. "El modelo debe considerar compensaciones como el rendimiento, la memoria y la calidad del código, y usar eso para decidir cómo diseñar el código".
Gu señaló el ejemplo del diseño de un nuevo lenguaje de programación. La tarea, explicó, requiere considerar todas las diversas formas en que se debe usar el lenguaje, decidir qué funciones de API exponer y pensar en los patrones de uso del usuario. El estudio señala que los modelos también deben tener en cuenta los efectos globales de los cambios en el código local, ya que pequeños cambios en el diseño de una sola función pueden propagarse al resto del código base.
La investigación del MIT identifica problemas con la forma en que se evalúan actualmente las capacidades de programación de IA. Según Gu, la mayoría de los puntos de referencia de programación se centran en generar programas pequeños e independientes desde cero, lo que no refleja la realidad de la ingeniería de software a gran escala.
"Un aspecto que mencionamos es la diversidad de tareas: mientras que la ingeniería de software del mundo real [SWE] implica tareas como pruebas de software o mantenimiento de software, estas rara vez se reflejan en los puntos de referencia actuales", dijo Gu.
Igualmente importante, agregó, es la capacidad de los sistemas de IA para inferir la intención del usuario, una habilidad esencial para adaptar las soluciones a casos de uso específicos. "Es probable que un sitio web para una empresa deba ser más sólido que un sitio web diseñado para divertirse".
La investigación encontró que los LLM funcionan mejor en tareas que se parecen mucho a los ejemplos vistos durante el entrenamiento, creando desafíos para proyectos que dependen de lenguajes de programación de bajos recursos o bibliotecas especializadas. Según Gu, los lenguajes de bajos recursos y las bibliotecas especializadas aparecen con relativa poca frecuencia en este conjunto de datos, por lo que los LLM tienen más dificultades con ellos.
"Realizar estas tareas depende más de la extrapolación a datos y dominios no vistos (generalización), que a menudo es más difícil que reiterar código similar a la distribución de entrenamiento", dijo Gu.
Según el estudio, esta limitación significa que los agentes de programazión de IA tienden a ser menos efectivos en sistemas heredados, entornos informáticos científicos y herramientas internas donde la documentación puede ser limitada.
El estudio del MIT identifica la necesidad de que los sistemas de IA desarrollen un modelo semántico preciso del código base de un proyecto. Según Gu, esto implica comprender la estructura del software, cómo interactúan los componentes y cómo esas relaciones cambian con el tiempo.
"Primero, la IA debe comprender la estructura del código base y cómo se unen las distintas partes", dijo. “En segundo lugar, debe comprender cómo funcionan las funciones individuales. Por último, debería actualizar su modelo del código base a medida que se añaden nuevas características.
El estudio señala que los modelos actuales de IA no tienen un estado persistente entre las instrucciones, ya que carecen de memoria sobre cómo ha evolucionado un código base o de una representación interna de su arquitectura.
A pesar de estas limitaciones, los autores identifican varias áreas de mejora potencial. Gu dijo que mejores puntos de referencia podrían ayudar, especialmente si pueden evaluar los sistemas de IA en una gama más amplia de tareas, incluyendo pruebas, mantenimiento y colaboración humano-IA.
También ve un futuro prometedor a corto plazo en áreas más allá de la programación, especialmente en la educación. “La IA ya tiene fuertes capacidades para resolver la mayoría de los problemas de la escuela primaria y media”, dijo. "La IA tiene mucho potencial para optimizar los flujos de trabajo existentes en la educación, como generar problemas de práctica, calificar e identificar conceptos erróneos de los estudiantes".
Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.