A IA realmente torna a programação mais rápida?

as costas de uma mulher de cabelo verde sentada em uma mesa com várias telas de codificação em um computador

Nos últimos dois anos, os modelos de fronteira da IA têm feito uma promessa ousada: que o uso de assistentes de programação resulta em código mais rápido, menos bugs e menos trabalho pesado para os desenvolvedores. Ferramentas como o GitHub Copilot e Cursor,impulsionadas por grandes modelos de linguagem (LLMs), como Claude ou GPT, são projetadas para automatizar as partes tediosas da programação, para que os programadores humanos possam se concentrar nos problemas mais difíceis e criativos da sua base de código.

Pelo menos, essa tem sido a proposta até agora. Mas a METR (abreviação de Avaliação de Modelos e Pesquisa de Ameaças e se pronuncia "medidor"), uma organização sem fins lucrativos de Berkeley que avalia os recursos de modelos de fronteira, queria ver se havia evidências reais para apoiar essa alegação. O que eles descobriram inverte a narrativa: os assistentes de codificação podem, na verdade, atrasar os desenvolvedores.

Os pesquisadores do METR observaram o trabalho de 16 desenvolvedores experientes que contribuíam para grandes repositórios de código aberto nos quais trabalharam por vários anos. Cada desenvolvedor forneceu uma lista de tarefas reais que normalmente realizaria, desde correções até novas funcionalidades. Os pesquisadores então dividiram aleatoriamente as tarefas em dois grupos: um no qual os desenvolvedores poderiam usar ferramentas de IA e outro no qual não poderiam.

IA no mix

Quando a IA era permitida, os desenvolvedores podiam escolher quaisquer ferramentas que quisessem; a maioria escolheu o Cursor Pro emparelhado com o Claude 3.5 ou 3.7 Sonnet. Eles gravavam suas telas à medida que concluíam cada tarefa e, em seguida, relatavam o que achavam que era seu tempo total de implementação. Os resultados do estudo foram surpreendentes. "Quando os desenvolvedores são autorizados a usar ferramentas de IA, eles demoram 19% mais para concluir os problemas, uma desaceleração significativa que vai contra as crenças dos desenvolvedores e as previsões de especialistas", escreveram os autores do artigo.

Pedimos ao líder de defesa da IA da IBM, PJ Hagerty, e ao ilustre engenheiro Chris Hay para dar uma olhada no estudo da METR e compartilhar suas impressões.

Hagerty alertou que o hype em torno dos assistentes de IA pode estar ultrapassando sua utilidade real. “A promessa de a IA tornar as pessoas mais produtivas vem da liderança tecnológica e das empresas de IA generativa que buscam capitalizar a empolgação da IA”, disse ele ao IBM Think. "Na realidade, a IA está aprendendo enquanto trabalha e provavelmente usando os mesmos recursos que um desenvolvedor júnior pode usar — Stack Overflow, Github e googling geral — mas sem nenhum contexto."

“Acho que é um resultado relevante”, acrescentou Hay. “Mas acho que não devemos pensar: 'Nossa, a IA é inútil. Sou mais rápido fazendo isso sozinho.' No entanto, acho que há uma questão em que, para certas tarefas, talvez seja mais rápido fazer você mesmo do que convencer a IA."

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

A percepção nem sempre é a realidade

A outra metade dos resultados do estudo é igualmente interessante: os desenvolvedores esperavam que a IA acelerasse seu trabalho em 24% antes de começarem. No entanto, mesmo depois de experimentarem a desaceleração de 19%, eles ainda acreditavam que a IA os havia acelerado em 20%.

Então, o que está por trás dessa lacuna de percepção? Entramos em contato com Nate Rush, do METR, um dos autores do estudo. “Essa é uma ótima pergunta, e uma que nosso trabalho não aborda completamente”, disse Rush ao IBM Think. "Idealmente, os trabalhos futuros explorarão ainda mais como as expectativas dos desenvolvedores sobre a utilidade da IA afetam a forma como eles usam as ferramentas [e] por que essa lacuna de percepção existe."

Além da questão da percepção, o estudo levanta uma série de questões importantes: será que a economia de tempo é a única maneira de medir a produtividade dos desenvolvedores? Como métricas como qualidade do código e impacto da equipe se encaixam no panorama geral?

"Nosso estudo fala apenas de economia de tempo, que é apenas uma medida de um aspecto da produtividade", disse Rush. “Não existe uma “métrica certa”, mas provavelmente uma coleção de métricas informativas sobre o impacto das ferramentas de IA.” Ele acrescentou que, embora este estudo tenha se concentrado no tempo, sua equipe descobriu que o framework SPACE de produtividade do desenvolvedor (SPACE é a abreviação de Satisfação, desempenho, Atividade, Comunicação e Eficiência) é útil para pensar em direções futuras.

Outra pergunta: as versões do modelo (nesse caso, Claude 3.5 e 3.7 Sonnet) poderiam afetar o tempo de desempenho? “Aqui está a realidade”, disse Hay. “Acho que as versões são importantes. O Claude 4 Sonnet é significativamente melhor. O Claude 4 Opus é significativamente melhor. Não estamos falando de um pouco de melhor. Estamos falando de uma melhora significativa.”

De acordo com Quentin Anthony, um dos 16 participantes do estudo, o elemento humano é outra consideração importante. “Gostamos de dizer que os LLMs são ferramentas, mas trate-os como uma varinha mágica”,escreveu ele no X. “Os LLMs são um grande botão atalho da dopamina que pode solucionar seu problema de uma vez. Você continua pressionando o botão que tem 1% de chance de resolver tudo? É muito mais agradável do que a alternativa cansativa, pelo menos para mim." (Anthony acrescentou que as distrações nas redes sociais são outra maneira fácil de causar atrasos.)

Então, à medida que os assistentes de codificação de IA evoluem e melhoram, onde eles terão o impacto mais sustentável de longo prazo no desenvolvimento de software? "Quando eles se tornarem estáveis, confiáveis e úteis, eu acho que os assistentes de código ficarão melhor na camada de QA — testes, garantia de qualidade, acessibilidade", disse Hagerty. “Coisas restritas e baseadas em regras são a melhor aplicação dessas ferramentas.”

Isso porque, segundo ele, escrever código é fundamentalmente diferente de verificá-lo. "Programação em si é uma atividade criativa. Está construindo algo do nada em um ecossistema único. Os assistentes de IA não percebem essa nuance. Mas eles provavelmente podem testar usando um sistema de regras mais gerais e universais."

Soluções relacionadas
Modelos de base

Explore a biblioteca de modelos de base da IBM no portfólio do watsonx para escalar a IA generativa com confiança na sua empresa.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço da sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e as operações críticas adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor comercial.

Explore os serviços de IA
Dê o próximo passo

Explore a biblioteca da IBM de modelos de base no portfólio do IBM® watsonx para escalar a IA generativa para os seus negócios com confiança.

Explore o watsonx.ai Explore as soluções de IA