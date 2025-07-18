A pesquisa do MIT define o que chama de "planejamento de código de horizonte longo" como uma limitação fundamental dos sistemas de IA atuais. De acordo com Gu, isso envolve raciocinar sobre como o código se encaixa em sistemas maiores e considerar as consequências globais das decisões locais.

"O planejamento de código de horizonte longo requer um grau sofisticado de raciocínio e interação humana", disse Gu. "O modelo deve considerar compensações como desempenho, memória e qualidade do código, e usar isso para decidir como projetar o código."

Gu apontou o exemplo de projetar uma nova linguagem de programação. A tarefa, explicou ele, exige considerar todas as várias maneiras de usar a linguagem, decidir quais funções de API expor e pensar nos padrões de uso do usuário. O estudo observa que os modelos também devem raciocinar sobre os efeitos globais das mudanças no código local, pois pequenas alterações no projeto de uma única função podem se propagar para o restante da base de código.

A pesquisa do MIT identifica problemas com a forma como os recursos de programação de IA são avaliados atualmente. De acordo com Gu, a maioria dos benchmarks de programação se concentra na geração de programas pequenos e autocontidos do zero, o que não reflete a realidade da engenharia de software em grande escala.

"Um aspecto que mencionamos é a diversidade de tarefas: embora a engenharia de software do mundo real [SWE] envolva tarefas como teste ou manutenção de software, essas raramente são refletidas nos benchmarks atuais", disse Gu.

Igualmente importante, ele acrescentou, é a capacidade dos sistemas de IA de inferir a intenção do usuário, uma habilidade essencial para adaptar soluções a casos de uso específicos. “Um site para uma empresa provavelmente precisa ser mais robusto do que um site projetado para diversão.”

A pesquisa descobriu que os LLMs têm melhor desempenho em tarefas que se assemelham aos exemplos vistos durante o treinamento, criando desafios para projetos que dependem de linguagens de programação de poucos recursos ou bibliotecas especializadas. De acordo com Gu, linguagens de baixos recursos e bibliotecas especializadas aparecem com relativa pouca frequência nesse conjunto de dados e, portanto, os LLMs têm mais dificuldades com elas.

"A execução dessas tarefas depende mais da extrapolação para dados e domínios não vistos (generalização), o que muitas vezes é mais difícil do que reiterar código semelhante à distribuição de treinamento", disse Gu.

Segundo o estudo, essa limitação significa que os agentes de programação de IA tendem a ser menos eficazes em sistemas legados, ambientes de computação científica e ferramentas internas, onde a documentação pode ser limitada.