L'altra metà dei risultati dello studio è altrettanto interessante: gli sviluppatori si aspettavano che l'AI accelerasse il loro lavoro del 24% prima di iniziare. Eppure, anche dopo aver sperimentato un rallentamento del 19%, continuavano a credere che l'AI li avesse accelerati del 20%.

Quindi, cosa c'è dietro questo divario di percezione? Abbiamo chiesto a Nate Rush di METR, uno degli autori dello studio. "Questa è una grande domanda, e il nostro lavoro non risponde pienamente", ha detto Rush a IBM Think. "Idealmente, il lavoro futuro esplorerà ulteriormente come le aspettative degli sviluppatori sull'utilità dell'AI influenzano il modo in cui utilizzano gli strumenti [e] perché esiste questo divario di percezione."

Oltre al problema della percezione, lo studio solleva una serie di domande importanti: il risparmio di tempo è comunque l'unico modo per misurare la produttività degli sviluppatori? Come si inseriscono metriche come la qualità del codice e l'impatto sul team nel quadro generale?

"Il nostro studio si concentra solo sul risparmio di tempo, che è solo una misura di un aspetto della produttività", ha affermato Rush. "Non esiste una 'metrica giusta', ma probabilmente esiste una serie di metriche che forniscono informazioni sull'impatto degli strumenti di AI." Ha aggiunto che, sebbene questo studio si sia concentrato sul tempo, il suo team ha trovato il framework SPACE per la produttività degli sviluppatori (SPACE è l'abbreviazione di Soddisfazione, Prestazioni, Attività, Comunicazione ed Efficienza) utile per pensare alle direzioni future.

Un'altra domanda: le versioni dei modelli (in questo caso, Claude 3.5 e 3.7 Sonnet) potrebbero aver influito sulle prestazioni? "Ecco la realtà", ha detto Hay. "Penso che le versioni abbiano importanza. Claude 4 Sonnet è decisamente migliore. Claude 4 Opus è decisamente migliore. Non stiamo parlando di essere migliori di poco. Stiamo parlando di una differenza notevole."

Secondo Quentin Anthony, uno dei 16 partecipanti allo studio, l'elemento umano è un'altra considerazione importante. "Ci piace dire che gli LLM sono strumenti, ma li trattiamo più come un proiettile magico", ha scritto su X. "Gli LLM sono un grande pulsante scorciatoia di dopamina che potrebbe eliminare in un colpo il tuo problema. Continua a premere il pulsante che ha una probabilità dell'1% di risolvere tutto? È molto più piacevole dell'alternativa estenuante, almeno per me." (Anthony ha aggiunto che le distrazioni dei social media sono un altro modo semplice per causare ritardi).

Quindi, man mano che gli assistenti di codifica AI si evolvono e migliorano, dove avranno l'impatto più sostenibile e a lungo termine sullo sviluppo software? "Una volta che saranno diventati stabili, affidabili e utili, penso che gli assistenti di codifica saranno più adatti a livello di QA, ovvero test, garanzia della qualità, accessibilità", ha affermato Hagerty. "Le cose vincolate e basate su regole sono la migliore applicazione di questi strumenti."

Questo perché, ha affermato, scrivere codice è fondamentalmente diverso dal controllarlo. "La codifica stessa è un'attività creativa. Si tratta di costruire qualcosa dal nulla in un ecosistema unico. Gli assistenti AI non colgono questa sfumatura. Ma è probabile che possano effettuare test utilizzando un sistema di regole più generali e universali."