¿La IA realmente agiliza la codificación?

espalda de una mujer de pelo verde sentada en un escritorio con varias pantallas codificando en un ordenador

Durante los últimos años, los modelos de frontera de la IA han hecho una promesa audaz: que el uso de asistentes de codificación da como resultado un código más rápido, menos errores y menos trabajo duro para los desarrolladores. Herramientas como GitHub Copilot y Cursor, impulsadas por modelos de lenguaje de gran tamaño (LLM) como Claude o GPT, están diseñadas para automatizar las partes tediosas de la programación para que los programadores humanos puedan centrarse en los problemas más difíciles y creativos de su base de código.

Al menos, esa ha sido la idea hasta ahora. Pero METR (abreviatura de Model Evaluation and Threat investigación y que se pronuncia "meter"), una organización sin fines de lucro de Berkeley que evalúa las capacidades de los modelos fronterizos, quería ver si había pruebas reales que respaldaran esa afirmación. Lo que encontraron cambia la historia: los asistentes de codificación podrían en realidad ralentizar a los desarrolladores.

Los investigadores de METR observaron el trabajo de 16 desarrolladores experimentados que habían contribuido a grandes repositorios de código abierto en los que habían trabajado durante varios años. Cada desarrollador proporcionó una lista de tareas reales que normalmente abordaría, desde correcciones hasta nuevas característica. A continuación, los investigadores dividieron aleatoriamente las tareas en dos grupos: uno en el que los desarrolladores podían utilizar herramientas de IA y otro en el que no.

La IA en la ecuación

Cuando se permitió la IA, los desarrolladores podían elegir las herramientas que quisieran; la mayoría elegía Cursor Pro combinado con Claude 3.5 o 3.7 Sonnet. Grabaron sus pantallas a medida que completaban cada tarea y luego informaron cuál creían que era su tiempo total de implementación. Los resultados del estudio fueron sorprendentes. "Cuando a los desarrolladores se les permite utilizar herramientas de IA, tardan un 19 % más en completar los problemas, una ralentización significativa que va en contra de las creencias de los desarrolladores y las previsiones de los expertos", escribieron los autores del artículo.

Le pedimos al líder de defensa de la IA de IBM, PJ Hagerty, y al distinguido ingeniero Chris Hay que echaran un vistazo al estudio de METR y compartieran sus impresiones.

Hagerty advirtió que el entusiasmo por los asistentes de IA puede estar superando su utilidad en el mundo real. "La promesa de que la IA hace que las personas sean más productivas proviene del liderazgo tecnológico y de las empresas de IA generativa que buscan capitalizar el bombo de la IA", dijo a IBM Think. "En realidad, la IA está aprendiendo sobre la marcha y probablemente utilizando los mismos recursos que podría utilizar un desarrollador junior (Stack Overflow, Github y googlear en general), pero sin nada de contexto".

"Creo que es un resultado relevante", añadió Hay. "Pero no creo que debamos decir: 'Vaya, la IA no sirve para nada'. Soy más rápido haciéndolo yo mismo". Creo que hay un punto, sin embargo, en el que para ciertas tareas quizá sea más rápido hacerlo uno mismo que convencer a la IA".

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

La percepción no siempre es la realidad

La otra mitad de los resultados del estudio son igual de interesantes: los desarrolladores esperaban que la IA acelerara su trabajo en un 24 % antes de empezar. Sin embargo, incluso después de experimentar la ralentización del 19 %, seguían creyendo que la IA los había acelerado en un 20 %.

¿Entonces, qué hay detrás de esta brecha de percepción? Hablamos con Nate Rush de METR, uno de los autores del estudio. "Esta es una gran pregunta, y nuestro trabajo no responde plenamente", dijo Rush a IBM Think. “Idealmente, el trabajo futuro explorará más a fondo cómo las expectativas de los desarrolladores sobre la utilidad de la IA afectan el modo en que usan las herramientas, y por qué existe esta brecha de percepción”.

Más allá de la cuestión de la percepción, el estudio plantea una serie de preguntas importantes: ¿es el ahorro de tiempo la única forma en que deberíamos medir la productividad de los desarrolladores? ¿Cómo encajan métricas como la calidad del código y el impacto en el equipo en el panorama general?

"Nuestro estudio solo habla del ahorro de tiempo, que es solo una medida de un aspecto de la productividad", dijo Rush. “No existe una única métrica correcta, sino probablemente un conjunto de métricas que brinden información sobre el impacto de las herramientas de IA”. Añadió que, si bien este estudio se centró en el tiempo, su equipo ha descubierto que el marco SPACE de la productividad de los desarrolladores (SPACE es la abreviatura de Satisfacción, Rendimiento, Actividad, Comunicación y Eficiencia) es útil para pensar en las direcciones futuras.

Otra pregunta: ¿podrían las versiones del modelo (en este caso, Claude 3.5 y 3.7 Sonnet) haber afectado al tiempo de rendimiento? “Esta es la realidad”, dijo Hay. “Pienso que las versiones importan. Claude 4 Sonnet es significativamente mejor. Claude 4 Opus es significativamente mejor. No estamos hablando de una pequeña cantidad de mejor. Estamos hablando de mucho mejor".

Según Quentin Anthony, uno de los 16 participantes del estudio, el elemento humano es otra consideración importante. "Nos gusta decir que los LLM son herramientas, pero los tratamos más como una solución mágica", escribió en X. "Los LLM son un gran botón de atajo de dopamina que puede resolver un problema de un plumazo. ¿Sigue pulsando el botón que tiene un 1 % de posibilidades de solucionarlo todo? Es mucho más placentero que la alternativa agotadora, al menos para mí”. (Anthony añadió que las distracciones de las redes sociales son otra forma fácil de causar retrasos).

Entonces, a medida que los asistentes de codificación de IA evolucionen y mejoren, ¿dónde tendrán el impacto más sostenible a largo plazo en el desarrollo de software? "Una vez que se vuelvan estables, confiables y útiles, Think que los asistentes de codificación se ubicarán mejor en la capa de control de calidad: pruebas, garantía de calidad, accesibilidad", dijo Hagerty. "Las cosas restringidas y basadas en reglas son la mejor aplicación de estas herramientas".

Esto se debe a que, dijo, escribir código es fundamentalmente diferente de verificarlo. "La codificación en sí misma es una actividad creativa. Es construir algo de la nada en un ecosistema único. Los asistentes de IA pierden ese matiz. Pero es probable que puedan hacer pruebas utilizando un sistema de reglas que sea más general y universal".

Soluciones relacionadas
Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM en la cartera de IBM watsonx para escalar la IA generativa para su negocio con confianza.

Explore watsonx.ai Explore las soluciones de IA