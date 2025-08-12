La otra mitad de los resultados del estudio son igual de interesantes: los desarrolladores esperaban que la IA acelerara su trabajo en un 24 % antes de empezar. Sin embargo, incluso después de experimentar la ralentización del 19 %, seguían creyendo que la IA los había acelerado en un 20 %.

¿Entonces, qué hay detrás de esta brecha de percepción? Hablamos con Nate Rush de METR, uno de los autores del estudio. "Esta es una gran pregunta, y nuestro trabajo no responde plenamente", dijo Rush a IBM Think. “Idealmente, el trabajo futuro explorará más a fondo cómo las expectativas de los desarrolladores sobre la utilidad de la IA afectan el modo en que usan las herramientas, y por qué existe esta brecha de percepción”.

Más allá de la cuestión de la percepción, el estudio plantea una serie de preguntas importantes: ¿es el ahorro de tiempo la única forma en que deberíamos medir la productividad de los desarrolladores? ¿Cómo encajan métricas como la calidad del código y el impacto en el equipo en el panorama general?

"Nuestro estudio solo habla del ahorro de tiempo, que es solo una medida de un aspecto de la productividad", dijo Rush. “No existe una única métrica correcta, sino probablemente un conjunto de métricas que brinden información sobre el impacto de las herramientas de IA”. Añadió que, si bien este estudio se centró en el tiempo, su equipo ha descubierto que el marco SPACE de la productividad de los desarrolladores (SPACE es la abreviatura de Satisfacción, Rendimiento, Actividad, Comunicación y Eficiencia) es útil para pensar en las direcciones futuras.

Otra pregunta: ¿podrían las versiones del modelo (en este caso, Claude 3.5 y 3.7 Sonnet) haber afectado al tiempo de rendimiento? “Esta es la realidad”, dijo Hay. “Pienso que las versiones importan. Claude 4 Sonnet es significativamente mejor. Claude 4 Opus es significativamente mejor. No estamos hablando de una pequeña cantidad de mejor. Estamos hablando de mucho mejor".

Según Quentin Anthony, uno de los 16 participantes del estudio, el elemento humano es otra consideración importante. "Nos gusta decir que los LLM son herramientas, pero los tratamos más como una solución mágica", escribió en X. "Los LLM son un gran botón de atajo de dopamina que puede resolver un problema de un plumazo. ¿Sigue pulsando el botón que tiene un 1 % de posibilidades de solucionarlo todo? Es mucho más placentero que la alternativa agotadora, al menos para mí”. (Anthony añadió que las distracciones de las redes sociales son otra forma fácil de causar retrasos).

Entonces, a medida que los asistentes de codificación de IA evolucionen y mejoren, ¿dónde tendrán el impacto más sostenible a largo plazo en el desarrollo de software? "Una vez que se vuelvan estables, confiables y útiles, Think que los asistentes de codificación se ubicarán mejor en la capa de control de calidad: pruebas, garantía de calidad, accesibilidad", dijo Hagerty. "Las cosas restringidas y basadas en reglas son la mejor aplicación de estas herramientas".

Esto se debe a que, dijo, escribir código es fundamentalmente diferente de verificarlo. "La codificación en sí misma es una actividad creativa. Es construir algo de la nada en un ecosistema único. Los asistentes de IA pierden ese matiz. Pero es probable que puedan hacer pruebas utilizando un sistema de reglas que sea más general y universal".