Ao nos aproximarmos da metade de 2025, podemos olhar para as tendências predominantes em inteligência artificial do ano até agora — e antecipar o que o restante do ano poderá trazer.
Dada a amplitude e profundidade do desenvolvimento de IA, nenhum resumo de tendências em IA pode ter a pretensão de ser exaustivo. Este artigo não é exceção. Resumimos a análise em uma lista de 10 pontos: cinco desenvolvimentos que impulsionaram a primeira metade do ano e mais cinco que esperamos que desempenhem um papel importante nos próximos meses.
As tendências em IA são impulsionadas não apenas por avanços em modelos e algoritmos, mas também pela variedade crescente de casos de uso aos quais os recursos de IA generativa estão sendo aplicadas. À medida que os modelos se tornam mais capazes, versáteis e eficientes, também evoluem as aplicações de IA, as ferramentas de IA e outros fluxos de trabalho impulsionados por IA que esses modelos viabilizam. Compreender verdadeiramente como o ecossistema de IA está evoluindo hoje exige entender de forma contextual as causas e os efeitos dos avanços em aprendizado de máquina.
Este artigo explora principalmente tendências em andamento cujo impacto no mundo real pode ser sentido em um horizonte de meses: em outras palavras, tendências com impacto tangível principalmente em 2025 Existem, é claro, outras iniciativas em IA que são mais permanentes e já bem conhecidas. Por exemplo, embora tenha havido avanços recentes em veículos totalmente autônomos em contextos isolados — pilotos de robotáxis foram lançados em algumas cidades dos EUA, com testes adicionais no exterior em Oslo, Genebra e 16 cidades chinesas —, esses veículos provavelmente ainda estão a anos de se tornarem onipresentes.
Muitas outras tendências macro importantes em IA — como o surgimento de agentes de IA ou a disrupção da IA em buscas e SEO — são amplas, multifacetadas e já bem cobertas em outros lugares, por isso foram deixadas de lado em favor de desenvolvimentos mais focados e menos divulgados.
Dito isso, vamos à lista.
O progresso não exige necessariamente um fluxo constante de ideias totalmente novas. Muitas das tendências mais importantes em IA na primeira metade de 2025 refletem mudanças em como o setor está aplicando ideias já existentes — algumas de forma pragmática e produtiva, outras nem tanto.
Os modelos atuais não são apenas significativamente melhores do que os modelos de gerações anteriores, mas também muito mais baratos de operar. Considere este gráfico da SemiAnalysis: em menos de 2 anos, o preço por token para alcançar resultados equivalentes no benchmark MMLU diminuiu dezenas de vezes. Isso dificilmente é novidade para quem acompanha os indicadores de desempenho de cada nova geração de modelos lançados. Mas, quando visto de forma agregada, esse ritmo de melhoria em aceleração constante ilustra melhor o motivo do hype em torno da IA generativa do que apenas observar os já impressionantes recursos dos modelos atuais.
Um estudo estima o ritmo de melhoria algorítmica em cerca de 400% ao ano: em outras palavras, os resultados de hoje podem ser alcançados um ano depois usando um quarto da capacidade de computação — e isso sem levar em conta os avanços simultâneos em computação (vide Lei de Moore) ou dados sintéticos de treinamento. O GPT-4 original, que se estima ter cerca de 1,8 trilhão de parâmetros,1 alcançou uma pontuação de 67% no HumanEval, um benchmark popular para desempenho em programação. O IBM Granite 3.3 2B Instruct, lançado dois anos depois e 900 vezes menor, alcançou uma pontuação de 80,5%.2
Essa expansão exponencial da economia dos modelos, mais do que qualquer outra coisa, é o que capacita a era emergente dos agentes de IA. Os grandes modelos de linguagem (LLMs) estão se tornando mais práticos ainda mais rapidamente do que estão se tornando mais capazes, o que viabiliza a implementação de sistemas multiagentes complexos nos quais um conjunto de modelos pode planejar, executar e coordenar tarefas complexas de forma autônoma — sem que os custos de inferência disparem.
O lançamento do o1 da OpenAI introduziu um novo caminho para aumentar o desempenho dos modelos. Sua melhoria notável em relação ao estado anterior em benchmarks altamente técnicos de matemática e codificação iniciou uma corrida por modelos chamados de “modelos de raciocínio”. Seu desempenho aprimorado em tarefas que requerem tomada de decisões lógicas tende a desempenhar um papel importante no desenvolvimento de IA agêntica. Mas, como frequentemente ocorre com tecnologias de IA, a empolgação inicial com o desempenho bruto tem dado lugar, mais recentemente, à busca pela implementação mais prática.
A intuição por trás dos modelos de raciocínio vem de pesquisas que mostram que aumentar o cálculo no momento do teste (geração de saída) pode melhorar o desempenho tanto quanto aumentar o cálculo no treinamento (treino do modelo). Isso originou técnicas de ajuste fino que incentivam o modelo a gerar processos de pensamento mais longos antes de entregar a resposta, práticas conhecidas como inference scaling (escalonamento de inferência).
Mas o dimensionamento de inferência também implica aumento de custos e latência na inferência. Os usuários precisam pagar (e esperar) por todos os tokens que o modelo gera enquanto “pensa” nas respostas finais, e esses tokens de pensamento consomem a janela de contexto disponível. Existem casos de uso que justificam esse tempo e essa capacidade de computação adicionais, mas também há muitos cenários em que isso representa desperdício de recursos. No entanto, alternar constantemente de um modelo de raciocínio para um modelo “padrão” de tarefa em tarefa, prompt a prompt, é impraticável.
Por enquanto, a solução são os “modelos de raciocínio híbridos”. Em fevereiro, o IBM Granite 3.2 se tornou o primeiro LLM a oferecer um modo de “pensamento” ativável, permitindo que os usuários utilizem o raciocínio quando necessário e priorizem a eficiência quando não for o caso.3 O Claude 3.7 Sonnet da Anthropic seguiu o exemplo no final do mesmo mês, adicionando a capacidade para usuários de API controlarem de forma detalhada quanto tempo o modelo “pensa”.4 O Google introduziu uma funcionalidade de modularidade de “pensamento” semelhante no Gemini 2.5 Flash.5 O Qwen3 da Alibaba, assim como o IBM Granite, permite que o modo de pensamento seja ativado ou desativado.
Pesquisas em andamento buscam entender melhor o que ocorre enquanto os modelos de raciocínio “pensam” e até que ponto os rastros de Chain of Thought (CoT) realmente contribuem para os resultados. Um estudo de abril indica que, em algumas tarefas, os modelos podem ser eficazes sem mostrar os pensamentos. Já a Anthropic sugeriu que os resultados CoT exibidos ao usuário podem não refletir o “pensamento” real do modelo.
O desenvolvimento de IA sempre dependeu fortemente do uso de repositórios de conhecimento de código aberto, como a Wikipedia e o GitHub. Sua importância só tende a crescer, especialmente após revelações de que grandes desenvolvedores de IA estavam treinando modelos com torrents de livros pirateados — o que presumivelmente desestimulará o uso contínuo dessas fontes alternativas. Para as organizações que mantêm recursos de código aberto valiosos, a situação já está causando pressão significativa.
Embora uma série de processos judiciais tenha trazido consciência sobre os danos da coleta de dados — sejam legais, ilegais ou ambíguos — sobre a propriedade intelectual, menos atenção tem sido dada a como a fome de dados dos sistemas de IA prejudica os repositórios de conhecimento. Como a Wikimedia Foundation articulou em um anúncio em abril sobre o tráfego de bots, “[seu] conteúdo é gratuito, [sua] infraestrutura não.” A Wikimedia, em particular, tem enfrentado um aumento potencialmente insustentável de tráfego em seus sites por bots de scraping que coletam dados para treinar modelos de IA generativa. Desde janeiro de 2024, a largura de banda utilizada para download de conteúdo multimídia da Wikimedia cresceu 50%.
O aumento no volume de tráfego é preocupante por si só, mas é a natureza desse tráfego que está colocando uma pressão desproporcional em recursos limitados. O comportamento de navegação humana é previsível: nosso tráfego se concentra em páginas populares e segue padrões lógicos, permitindo estratégias de automação e cache que alocam a largura de banda de forma eficiente. Mas, ao contrário dos humanos, os bots vasculham indiscriminadamente páginas obscuras, o que muitas vezes força os data centers a atendê-los diretamente. Isso não é apenas caro e ineficiente em circunstâncias normais, mas pode ser desastroso em situações em que a infraestrutura precisa responder a picos reais de uso.
Como Ars Technica relata, esse problema é generalizado e é agravado pelo que muitos consideram um comportamento deliberadamente predatório por parte de bots e das empresas que os operam. Várias, como a Perplexity, foram acusadas de contornar sorrateiramente o robots.txt e até mesmo de burlar paywalls para realizar raspagem de dados (data scraping) Quando os sites tentam limitar a taxa de acesso dos bots, eles trocam de IP; quando seu ID é bloqueado diretamente, eles alternam para outras strings de ID. Um gerente de infraestrutura de código aberto, que descobriu que quase 25% do tráfego de sua rede vinha de bots do ChatGPT, descreveu isso como “literalmente um DDoS na internet inteira.”
Em resposta, muitos projetos estão buscando ativamente medidas defensivas. Um projeto de código aberto, o Anubis, força os bots a resolverem quebra-cabeças computacionais antes de obter acesso. Outro, o Nepenthes, envia os crawlers de IA para um “labirinto infinito”. A Cloudflare, um importante provedor de infraestrutura web, lançou recentemente um recurso chamado “AI Labyrinth”, que utiliza uma abordagem semelhante (embora menos agressiva). A Wikimedia está mobilizando uma nova iniciativa, WE5: Responsible Use of Infrastructure, voltada para uma solução estrutural.
A capacidade do desenvolvimento comercial de IA e dos repositórios de conhecimento de código aberto de desenvolverem colaborativamente um protocolo mutuamente adequado terá um impacto tremendo não apenas no futuro da IA, mas no futuro da própria Internet.
Embora o conceito por trás dos modelos de combinação de especialistas (MoE) exista desde 1991, ele não entrou no mainstream de processamento de linguagem natural (PLN) ou de IA generativa até o lançamento do modelo Mixtral pela Mistral AI no final de 2023.6 Embora o modelo e sua arquitetura tenham recebido muita atenção — e o GPT-4 da OpenAI tenha sido alvo de rumores (embora nunca tenha sido confirmado) de que seria um MoE em seu lançamento — isso não motivou o setor a se desviar do foco nos LLMs “densos” convencionais.
Esse foco parece ter mudado após o lançamento do DeepSeek-R1. O DeepSeek-R1 e o modelo base DeepSeek-V3, do qual foi ajustado, demonstraram de forma conclusiva que os modelos MoE são perfeitamente capazes de oferecer desempenho de ponta, além de sua já comprovada eficiência computacional.
Esse interesse renovado nos modelos MoE esparsos é evidente na atual onda de modelos de próxima geração — incluindo (mas não se limitando a) Meta Llama 4, Qwen3 da Alibaba e o IBM Granite 4.0 — que utilizam essa arquitetura. Também é possível que alguns modelos fechados líderes de mercado, de empresas como OpenAI, Anthropic ou Google, sejam MoEs, embora informações sobre a arquitetura de modelos fechados raramente sejam divulgadas.
À medida que capacidade e desempenho impressionantes se tornam cada vez mais commodities nos próximos anos, a velocidade de inferência e a eficiência oferecidas pelos modelos esparsos provavelmente se tornarão uma prioridade maior.
O futuro é sempre difícil de prever. O ritmo acelerado de melhorias nas gerações anteriores de modelos de IA levou muitos a esperar que a geração de modelos a ser lançada em 2025 desse passos significativos em direção à inteligência artificial geral (AGI). Embora os modelos mais recentes da OpenAI, Meta e de outros participantes mais financiados no espaço de IA sejam, sem dúvida, impressionantes, eles certamente estão aquém de serem revolucionários.
No lado prático, o progresso é irregular. Muitos líderes otimistas com a adoção de IA em 2023 passaram 2024 percebendo que a infraestrutura de TI de suas empresas não estava pronta para escalar a IA.
Analistas costumam dizer que a IA assumirá tarefas repetitivas, liberando humanos para pensar de forma criativa. Mas os dados sobre adoção de IA não confirmam isso. Um estudo realizado pelo IBM Institute for Business Value (IBV) revelou que o oposto ocorre, pelo menos na cadeia de suprimentos de conteúdo do varejo: 88% dos varejistas usam gen IA para “ideação/concepção criativa” e 74% para “criação e edição de conteúdo”. Enquanto isso, a maioria das tarefas repetitivas ainda é realizada por humanos: apenas 23% usam IA generativa para gerar variações de conteúdo por canal e apenas 10% para gerar variações por região.
Em resumo, não é que as organizações não estejam buscando ativamente a adoção de IA — um novo relatório do IBV mostra que estão, especialmente no uso de agentes de IA —, mas isso não ocorre de forma linear. A transição de experimentos para operações formais raramente é suave.
Na segunda metade de 2025 (e no início do próximo ano), os elementos estarão prontos para uma disrupção significativa de aspectos do status quo vigente desde os primeiros dias da era atual da IA generativa.
Em um nível fundamental, não existe um benchmark perfeito para medir desempenho em IA. Qualquer métrica está sujeita à Lei de Goodhart: “Quando uma medida vira alvo, deixa de ser uma boa medida”. Ainda assim, métricas padronizadas e transparentes ajudam no desenvolvimento de modelos — e auxiliam líderes a comparar soluções e modelos de IA de forma justa.
Os primeiros benchmarks “padrão” usados pelo setor foram os do Open LLM Leaderboard da Hugging Face. Quando seus benchmarks ficaram saturados — em outras palavras, quando a maioria dos modelos estava alcançando pontuações de avaliação tão altas que era difícil diferenciá-los — a tabela de classificação adotou novos benchmarks significativamente mais desafiadores em junho de 2024. Novamente, modelos de código aberto e fechados passaram a usar os benchmarks do “V2”. Mas em março de 2025, a Hugging Face desativou o Open LLM Leaderboard. Mas em março de 2025, a Hugging Face desativou o Open LLM Leaderboard.
O fim do leaderboard e o afastamento de benchmarks padronizados resultaram (e também causaram) uma diversificação na forma de uso e avaliação dos modelos.
Há um movimento em favor do uso de métodos de comparação mais qualitativos entre modelos, como o popular Chatbot Arena, em vez de avaliações puramente quantitativas. Mas estes também são imperfeitos. Um artigo recente, publicado por diversos pesquisadores acadêmicos e da comunidade de código aberto, apontou várias práticas problemáticas no Chatbot Arena que favorecem desproporcionalmente os maiores provedores de modelos. Esse artigo seguiu alegações de que a Meta manipulou o Chatbot Arena durante o lançamento do Llama 4.
A realidade é que não existe um melhor benchmark. A melhor prática provavelmente é que as organizações desenvolvam seus próprios benchmarks que reflitam o desempenho nas tarefas que realmente importam para elas. Uma empresa não contrataria alguém apenas com base em um teste de QI, e também não deveria escolher um modelo apenas com base em testes padronizados.
Introduzidos em 2017, os modelos de transformadores são amplamente responsáveis pela era da IA generativa e continuam sendo a espinha dorsal de tudo, desde geração de imagens e modelos de séries temporais até LLMs. Embora os transformadores certamente não desapareçam tão cedo, eles estão prestes a ter companhia.
Os transformadores têm uma fraqueza crucial: suas necessidades computacionais escalam de forma quadrática com o contexto. Em outras palavras, cada vez que o comprimento do contexto dobra, o mecanismo de autoatenção não usa apenas o dobro de recursos — usa quatro vezes mais. Esse “gargalo quadrático” limita a velocidade e a eficiência dos LLMs convencionais, principalmente em sequências longas ou quando incorporam informações de interações anteriores. A otimização contínua da arquitetura de modelos transformadores segue gerando modelos de ponta mais robustos, mas eles estão ficando extremamente caros.
Mamba, apresentado em 2023, é um tipo totalmente diferente de arquitetura de modelo — especificamente, um modelo de espaço de estados — e está prestes a oferecer a primeira concorrência séria aos transformadores no mundo dos LLMs. Essa arquitetura demonstrou capacidade de igualar os transformadores na maioria das tarefas de modelagem de linguagem (com exceção de tarefas de aprendizado em contexto, como o prompt few-shot), além de ter necessidades computacionais que escalam de forma linear com o comprimento do contexto. Em termos simples, a forma como o Mamba entende o contexto é inerentemente mais eficiente: o mecanismo de autoatenção do transformador precisa analisar todos os tokens repetidamente para decidir em quais focar; o mecanismo de seletividade do Mamba retém apenas os tokens que considera importantes.
Quando se trata de transformadores ou Mamba, o futuro da IA provavelmente não será uma escolha de “um ou outro”: na verdade, pesquisas sugerem que um híbrido entre os dois é melhor do que cada um isoladamente. Vários modelos Mamba ou híbridos Mamba/transformador foram lançados no último ano. A maioria ainda é voltada apenas para pesquisa acadêmica, com exceções notáveis como o Codestral Mamba da Mistral AI e a série híbrida Jamba da AI2I. Mais recentemente, a próxima série IBM Granite 4.0 utilizará uma arquitetura híbrida de transformador com Mamba-2.
O mais importante é que os menores requisitos de hardware dos modelos Mamba e híbridos reduzirão significativamente os custos de infraestrutura, o que ajudará a democratizar ainda mais o acesso à IA.
O surgimento de modelos de IA multimodal marcou a expansão dos LLMs para além do texto, mas a próxima fronteira do desenvolvimento de IA busca levar essas capacidades multimodais ao mundo físico.
Esse campo emergente se enquadra no conceito de “IA incorporada”. Fundos de capital de risco estão investindo cada vez mais em startups que desenvolvem robótica humanoide avançada e gerada por IA, como Skild AI, Physical Intelligence e 1X Technologies.
Outra linha de pesquisa se concentra nos “modelos de mundo”, que buscam modelar interações do mundo real de forma direta e abrangente, em vez de indiretamente e de forma fragmentada por meio de dados de linguagem, imagem e vídeo. A World Labs, uma startup liderada por Fei-Fei Li, de Stanford — famosa, entre outras coisas, pelo ImageNet, que abriu caminho para a visão computacional moderna — levantou USD 230 milhões no fim do ano passado.
Alguns laboratórios estão realizando experimentos em “mundos virtuais”, como videogames: o Genie 2, da Google DeepMind, por exemplo, é “um modelo de mundo fundamental capaz de gerar uma variedade infinita de ambientes 3D jogáveis e controláveis”. Naturalmente, a indústria de games pode ser a primeira beneficiária direta do potencial econômico dos modelos de mundo.
Muitos (mas não todos) dos principais especialistas em IA, incluindo Yann LeCun, cientista-chefe de IA da Meta e um dos “pais do deep learning,”7 acreditam que os modelos de mundo, e não os LLMs, são o verdadeiro caminho para a AGI. Em comentários públicos, LeCun frequentemente alude ao Paradoxo de Moravec, a noção contraintuitiva de que na IA, habilidades de raciocínio complexas são diretas, mas tarefas sensório-motoras e de percepção simples que uma criança pode fazer facilmente não são.8
Nessa linha, algumas pesquisas interessantes buscam ensinar a IA a entender conceitos, e não apenas palavras, incorporando essa IA em robôs e ensinando-a da mesma forma que ensinamos bebês.
A promessa de longo prazo dos agentes de IA é usar a IA para realizar tarefas complexas e específicas de forma autônoma, com pouca ou nenhuma intervenção humana. Para personalizar suas decisões às necessidades contextuais específicas de um ambiente ou situação — como um funcionário ou assistente competente faria — um agente de IA precisa aprender na prática. Em outras palavras, ele deve manter um histórico robusto de cada interação gerada pela IA e de seus resultados.
No entanto, coletar e armazenar permanentemente todas essas interações pode entrar em conflito com os princípios fundamentais de privacidade digital na IA, especialmente quando se trabalha com modelos fechados em nuvem (ao contrário de modelos de código aberto executados localmente).
Por exemplo, em abril, a OpenAI anunciou que o ChatGPT passaria a lembrar automaticamente todas as conversas que você tiver com ele, como parte do objetivo de desenvolver “sistemas de IA que o conheçam ao longo da vida”. Porém, essa funcionalidade não foi disponibilizada na UE, Reino Unido, Suíça, Noruega, Islândia ou Liechtenstein — presumivelmente por entrar em conflito com leis de privacidade e regulamentações de IA vigentes nessas regiões.9
Ainda não se sabe se o conceito de um modelo salvar todas as interações personalizadas e utilizá-las para treinamento e otimização do próprio modelo é compatível com princípios centrais do GDPR, como o “direito ao esquecimento”.
De fato, o futuro da IA, e especialmente dos agentes de IA, será cada vez mais pessoal — a ponto de o impacto da IA transcender questões tecnológicas ou econômicas e passar a envolver também aspectos psicológicos.
No final de 2024, Mustafa Suleyman, CEO de IA da Microsoft, publicou um post no blog declarando o objetivo da empresa de “criar um companheiro de IA para cada pessoa”. Em uma entrevista recente em podcast, Mark Zuckerberg, CEO da Meta, propôs “amigos de IA” como solução para a epidemia de solidão nos EUA.10 Um número crescente de startups está lançando colegas de trabalho em IA.
Há um perigo inerente nisso, decorrente principalmente da predisposição histórica da humanidade em criar vínculos emocionais até mesmo com chatbots rudimentares. Com milhões de pessoas interagindo diariamente com chatbots personalizados, os riscos de apego emocional a colegas de trabalho em IA serão complexos, significativos e difíceis de evitar.
À medida que avançamos em um ano crucial para a inteligência artificial, entender e se adaptar às tendências emergentes é essencial para maximizar o potencial, minimizar os riscos e escalar de forma responsável a adoção da IA generativa.
¹ "GPT-4 architecture, datasets, costs and more leaked," The Decoder, 11 de julho de 2023
² "IBM Granite 3.3 2B model card", Hugging Face, 16 de abril de 2025
³ "Bringing reasoning to Granite," IBM, 7 de fevereiro de 2025
⁴ "Claude 3.7 Sonnet and Claude Code," Anthropic, 24 de fevereiro de 2025
⁵ "Gemini Thinking," Google, 2025.
⁶ "Adaptive Mixtures of Local Experts," Neural Computation, 1.º de março de 1991
⁷ "Turing Award 2018: Novel Prize of computing given to 'godfathers of AI'," The Verge, 27 de março de 2019
⁸ @YLeCun on X (formerly Twitter), via XCancel, 20 de fevereiro de 2024
⁹ "ChatGPT will now remember your old conversations," The Verge, 11 de abril de 2025
¹⁰ "Meta CEO Mark Zuckerberg Envisions a Future Where Your Friends Are AI Chatbots—But Not Everyone Is Convinced," Entrepreneur, 8 de maio de 2025