Durante los últimos años, los modelos de frontera de IA han hecho una promesa audaz: que el uso de asistentes de programación da como resultado un código más rápido, menos errores y menos trabajo pesado para los desarrolladores. Herramientas como GitHub Copilot y Cursor, impulsadas por modelos de lenguaje de gran tamaño (LLM) como Claude o GPT, están diseñadas para automatizar las partes tediosas de la programación para que los programadores humanos puedan centrarse en los problemas más difíciles y creativos de su base de código.
Al menos, esa fue la idea hasta ahora. Pero METR (abreviatura de Evaluación de Modelos e Investigación de Amenazas y pronunciado “meter”), una organización sin fines de lucro de Berkeley que evalúa las capacidades de los modelos de frontera, quería ver si había evidencia real para respaldar esa afirmación. Lo que descubrieron da un giro a la narrativa: los asistentes de programación podrían, en realidad, ralentizar el trabajo de los desarrolladores.
Los investigadores de METR observaron el trabajo de 16 desarrolladores experimentados que habían estado contribuyendo a grandes repositorios de código abierto en los que habían trabajado durante varios años. Cada desarrollador proporcionaba una lista de tareas reales que normalmente abordaría, desde arreglos hasta nuevas características. A continuación, los investigadores dividieron aleatoriamente las tareas en dos grupos: uno en el que los desarrolladores podían utilizar herramientas de IA y otro en el que no podían.
Cuando se permitió la IA, los desarrolladores podían elegir las herramientas que quisieran; la mayoría eligió Cursor Pro junto con Claude 3.5 o 3.7 Sonnet. Registraron sus pantallas a medida que completaban cada tarea y luego informaron cuál pensaban que era su tiempo total de implementación. Los resultados del estudio fueron sorprendentes. “Cuando a los desarrolladores se les permite usar herramientas de IA, tardan un 19 % más en completar los problemas, una ralentización significativa que va en contra de las creencias de los desarrolladores y las previsiones de los expertos”, escribieron los autores del artículo.
Le pedimos al líder de defensa de la IA de IBM, PJ Hagerty, y al distinguido ingeniero Chris Hay que echaran un vistazo al estudio de METR y compartieran sus impresiones.
Hagerty advirtió que la exageración en torno a los asistentes de IA puede estar superando su utilidad en el mundo real. “La promesa de que la IA hace que las personas sean más productivas proviene del liderazgo tecnológico y las empresas de IA generativa que buscan capitalizar el entusiasmo por la IA”, dijo a IBM Think. "En realidad, la IA está aprendiendo sobre la marcha y probablemente utilice los mismos Recursos que un desarrollador junior podría usar (Stack Overflow, Github y búsqueda general en Google), pero sin nada de contexto".
"Creo que es un resultado relevante", agregó Hay. "Pero no creo que debamos decir, 'Vaya, IA no sirve para nada. Soy más rápido haciéndolo yo mismo”. Sin embargo, creo que hay un punto en el que, para ciertas tareas, tal vez sea más rápido hacerlo usted mismo en lugar de convencer a la IA”
Boletín de la industria
Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .
Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.
La otra mitad de los resultados del estudio son igual de interesantes: los desarrolladores esperaban que la IA acelerara su trabajo en un 24 % antes de comenzar. Sin embargo, incluso después de experimentar la desaceleración del 19 %, seguían creyendo que la IA los había acelerado en un 20 %.
¿Entonces, qué hay detrás de esta brecha de percepción? Hablamos con Nate Rush de METR, uno de los autores del estudio. "Esta es una gran pregunta, y nuestro trabajo no responde completamente", dijo Rush a IBM Think. “Idealmente, el trabajo futuro explorará más a fondo cómo las expectativas de los desarrolladores sobre la utilidad de la IA afectan la forma en que utilizan las herramientas [y] por qué existe esta brecha de percepción”.
Más allá del problema de la percepción, el estudio plantea una serie de preguntas importantes: ¿es el ahorro de tiempo la única forma en que deberíamos medir la productividad de los desarrolladores? ¿Cómo encajan métricas como la calidad del código y el impacto del equipo en el panorama general?
"Nuestro estudio solo habla del ahorro de tiempo, que es solo una medida de un aspecto de la productividad", dijo Rush. “No existe una única métrica correcta, sino probablemente un conjunto de métricas que brinden información sobre el impacto de las herramientas de IA”. Agregó que si bien este estudio se enfocó en el tiempo, su equipo ha encontrado la infraestructura SPACE de productividad de los desarrolladores (SPACE es la abreviatura de Satisfacción, Rendimiento, Actividad, Comunicación y Eficiencia) útil para pensar en direcciones futuras.
Otra pregunta: ¿podrían las versiones del modelo (en este caso, Claude 3.5 y 3.7 Sonnet) haber afectado el tiempo de rendimiento? “Esta es la realidad”, dijo Hay. "Creo que las versiones sí importan. Claude 4 Sonnet es significativamente mejor. Claude 4 Opus es significativamente mejor. No estamos hablando de una pequeña cantidad de mejor. Estamos hablando de mucho mejor”.
Según Quentin Anthony, uno de los 16 participantes del estudio, el elemento humano es otra consideración importante. “Nos gusta decir que los LLM son herramientas, pero trátelos más como una bala mágica”,escribió en X. “Los LLM son un gran botón de acceso directo de dopamina que puede solucionar su problema. ¿Sigues presionando el botón que tiene un 1 % de posibilidades de arreglarlo todo? Es mucho más agradable que la alternativa agotadora, al menos para mí”. (Anthony agregó que las distracciones en las redes sociales son otra forma fácil de causar retrasos).
Entonces, a medida que los asistentes de programación de IA evolucionen y mejoren, ¿dónde tendrán el impacto más sostenible a largo plazo en el desarrollo de software? “Una vez que se vuelvan estables, de confianza y útiles, creo que los asistentes de código se sentarán mejor en la capa de QA, pruebas, aseguramiento de calidad, accesibilidad”, dijo Hagerty. "Las cosas que están restringidas y basadas en reglas son la mejor aplicación de estas herramientas".
Esto se debe a que, dijo, escribir código es fundamentalmente diferente de verificarlo. “La programación en sí es una actividad creativa. Es construir algo de la nada en un ecosistema único. Los asistentes de IA no captan ese matiz. Pero es probable que puedan probar usando un sistema de reglas que sean más generales y universales”.
Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas mediante la incorporación de IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.