La inteligencia artificial puede generar código pero no puede pensar como un ingeniero de software.
Esa es la conclusión de una nueva investigación del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT, que descubrió que, si bien los modelos de lenguaje de gran tamaño (LLM) sobresalen en la generación de fragmentos de código, no alcanzan el razonamiento sofisticado, la planificación y la colaboración que exige la ingeniería de software del mundo real. El estudio, realizado en colaboración con investigadores de Stanford, UC Berkeley y Cornell y presentado en la conferencia internacional sobre machine learning de esta semana, pone en tela de juicio los supuestos sobre la disposición de la IA para transformar el desarrollo de software.
"La planificación de código a largo plazo requiere un grado sofisticado de razonamiento e interacción humana", dijo Alex Gu, candidato a doctorado en MIT CSAIL y autor principal del estudio, en una entrevista con IBM Think. "El modelo debe considerar varias compensaciones, como el rendimiento, la memoria, la calidad del código, etc., y utilizar eso para decidir con precisión cómo diseñar el código".
Las herramientas de codificación de IA son ahora un elemento básico del desarrollo moderno de software. En 2025, el 82 % de los desarrolladores informaron que usaban herramientas de codificación de IA semanalmente o más, y el 59 % dijo que dependían de tres o más asistentes en su flujo de trabajo. Otro 78 % informó de un claro aumento de la productividad, lo que demuestra hasta qué punto la IA está dando forma a la forma en que se escribe el código hoy en día.
Boletín del sector
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
La investigación del MIT define lo que denomina "planificación de código a largo plazo" como una limitación clave de los sistemas de IA actuales. Según Gu, esto implica razonar sobre cómo encaja el código en sistemas más grandes y considerar las consecuencias globales de las decisiones locales.
"La planificación del código a largo plazo requiere un alto grado de razonamiento e interacción humana", afirma Gu. "El modelo debe tener en cuenta aspectos como el rendimiento, la memoria y la calidad del código, y utilizarlos para decidir cómo diseñarlo".
Gu señaló el ejemplo del diseño de un nuevo lenguaje de programación. La tarea, explicó, requiere considerar todas las diversas formas en que se debe usar el lenguaje, decidir qué funciones API exponer y pensar en los patrones de uso del usuario. El estudio señala que los modelos también deben razonar sobre los efectos globales de los cambios locales en el código, ya que ligeros cambios en el diseño de una única función pueden propagarse al resto del código base.
La investigación del MIT ha identificado problemas en la forma en que actualmente se evalúan las capacidades de codificación de la IA. Según Gu, la mayoría de los puntos de referencia de codificación se centran en generar programas pequeños y autónomos desde cero, lo que no refleja la realidad de la ingeniería de software a gran escala.
"Un aspecto que mencionamos es la diversidad de tareas: mientras que la ingeniería de software del mundo real [SWE] implica tareas como pruebas de software o mantenimiento de software, estas rara vez se reflejan en los puntos de referencia actuales", dijo Gu.
Igualmente importante, añadió, es la capacidad de los sistemas de IA para inferir la intención del usuario, una habilidad esencial para adaptar las soluciones a casos de uso específicos. "Es probable que un sitio web empresarial necesite mayor solidez que uno diseñado para el entretenimiento".
La investigación descubrió que los LLM funcionan mejor en tareas que se parecen mucho a los ejemplos vistos durante el entrenamiento, lo que crea desafíos para los proyectos que se basan en lenguajes de programación de bajos recursos o bibliotecas especializadas. Según Gu, los lenguajes de bajos recursos y las bibliotecas especializadas aparecen con relativa poca frecuencia en este conjunto de datos, por lo que los LLM tienen más dificultades con ellos.
"La realización de estas tareas depende en mayor medida de la extrapolación a datos y dominios no vistos (generalización), lo que a menudo resulta más difícil que repetir código similar a la distribución de entrenamiento", afirmó Gu.
Según el estudio, esta limitación significa que los agentes de codificación de IA tienden a ser menos efectivos en sistemas heredados, entornos de computación científica y herramientas internas donde la documentación puede ser limitada.
El estudio del MIT identifica la necesidad de que los sistemas de IA desarrollen un modelo semántico preciso del código base de un proyecto. Según Gu, esto implica comprender la estructura del software, cómo interactúan los componentes y cómo esas relaciones cambian con el tiempo.
"En primer lugar, la IA debe comprender la estructura del código base y cómo se unen las distintas partes", dijo. "En segundo lugar, debe comprender cómo funcionan las funciones individuales. Por último, debería actualizar su modelo de base de código a medida que se añadan nuevas características".
El estudio señala que los modelos de IA actuales no tienen un estado persistente entre instrucciones, ya que carecen de memoria para recordar cómo ha evolucionado un código base o de una representación interna de su arquitectura.
A pesar de estas limitaciones, los autores identifican varias áreas de mejora potencial. Gu afirmó que contar con mejores puntos de referencia podría ayudar, especialmente si permiten evaluar los sistemas de IA en una gama más amplia de tareas, como pruebas, mantenimiento y colaboración entre humanos e IA.
También ve promesas a corto plazo en áreas más allá de la codificación, particularmente en educación. “La IA ya tiene fuertes capacidades para resolver la mayoría de los problemas de la escuela primaria y secundaria”, dijo. "La IA tiene un gran potencial para optimizar los flujos de trabajo existentes en el ámbito educativo, como la generación de problemas prácticos, la evaluación y la identificación de conceptos erróneos de los estudiantes".
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.