A corrida armamentista da IA não é mais apenas para os gigantes de bilhões de dólares.
Empresas como a OpenAI, Google e Microsoft dominaram as manchetes quando se trata de conversas sobre inteligência artificial. No entanto, uma nova onda de inovação de código aberto — exemplificada pelo recente modelo DeepSeek— está nivelando o campo de atuação. O sucesso do modelo ressalta uma tendência crescente: as empresas menores podem desafiar cada vez mais os participantes mais proeminentes da IA.
"Isso só reforça coisas que já sabíamos", diz David D. Cox, Vice-Presidente de modelos de IA na IBM pesquisa. "Nós não pensamos que você precisa de bilhões e bilhões de dólares para construir ótimos modelos. O DeepSeek é a prova de que as abordagens de código aberto estão se atualizando, e isso é uma coisa boa."
Os pesquisadores de IA estão em uma corrida constante para tornar os modelos mais poderosos, sem aumentar os custos computacionais. Com as preocupações crescentes com as limitações do hardware e o consumo de energia, as inovações que melhoram a eficiência estão se tornando tão importantes quanto os ganhos brutos de desempenho.
"Por muito tempo, a corrida da IA tem sido um jogo de escala onde modelos maiores significavam melhores resultados", escreveu o CEO da IBM, Arvind Krishna, no LinkedIn. "Mas não há lei da física que impulsione que os modelos de IA devam permanecer grandes e caros. O custo do treinamento e da inferência é apenas mais um desafio tecnológico a ser resolvido.”
O avanço da DeepSeek na eficiência da IA vem de uma nova técnica chamada Atenção Latente de Várias Cabeças (MLA). Este método muda a forma como os modelos de IA lidam e armazenam suas informações. A principal melhoria é que o MLA reduz o tamanho de algo chamado cache KV, que é essencial para que os sistemas de IA funcionem de forma eficiente. Segundo Cox, isso faz com que os sistemas de IA usem menos memória e permite que eles cresçam com mais facilidade.
"Eles fizeram um trabalho muito bom aqui", observa Cox. "Reduzir o tamanho do cache do KV é crucial porque permite que os modelos sejam executados mais rapidamente e usem menos recursos."
Sob o capô do DeepSeek, os avanços se multiplicaram. Prasanna Sattigeri, um Cientista de Pesquisa Principal na IBM, destacou que as inovações da empresa tratavam de eficiência e melhorias arquitetônicas.
"Eles otimizaram a comunicação entre GPUs, o que costuma ser um gargalo no treinamento de IA em grande escala", diz Sattigeri. "Isso permitiu que eles treinassem de forma eficaz usando hardware mais antigo, um feito notável de engenharia."
Mas, como qualquer projeto ambicioso de engenharia, esse salto adiante teve custos. O DeepSeek também utilizou técnicas de aprendizado por reforço (RL), semelhantes às usadas na abordagem de escala de inferência o1 da OpenAI. Esse método refina o desempenho do modelo reforçando as produções bem-sucedidas em várias iterações. No entanto, Cox destaca que a implementação do DeepSeek levou a compromissos, como recursos de chamada de função mais fracos e preocupações com o alinhamento de segurança.
"É um grande passo adiante, mas há algumas arestas", diz ele. “O modelo é fantástico em tarefas de raciocínio, mas outras áreas foram prejudicadas.”
Mesmo com os avanços facilitando a criação de grandes modelos de IA, um desafio maior permanece: o enorme poder computacional necessário para manter a competitividade. Xia "Ben" Hu, professor associado de ciência da computação na Success University, reconhece que o DeepSeek é um passo mais eficiente no desenvolvimento da IA. No entanto, ele observa que isso não muda fundamentalmente a dinâmica geral de poder na infraestrutura de IA, onde o acesso a vastos recursos ainda determina quem lidera a corrida.
"O DeepSeek é apoiado por um grande fundo de risco na China e tem acesso a dezenas de milhares de GPUs", diz Hu. "Isso ainda é uma grande barreira para muitas startups menores."
No entanto, Hu prevê que a mudança mais significativa provavelmente estaria na adoção da IA empresarial. "Os setores tradicionais — petróleo e gás, manufatura — têm hesitado em desenvolver suas próprias soluções de IA", diz ele. “Com a queda nos custos e a melhoria dos modelos de código aberto, as empresas que antes dependiam de serviços externos de IA agora estão considerando a possibilidade de construir modelos internos adaptados às suas necessidades específicas”.
As implicações vão além de um modelo. Com a multiplicação dos projetos de IA de código aberto, startups menores agora podem acessar ferramentas que antes exigiam data centers enormes e orçamentos enormes. Cox disse que a OpenAI e suas contrapartes há muito projetam um "ar de inevitabilidade" — que apenas aqueles com bolsos profundos poderiam liderar em IA. Mas à medida que o DeepSeek e outros modelos surgem, essa noção está começando a quebrar.
“Estamos vendo uma mudança em que uma abertura muito maior de players pode competir nesse espaço”, diz Cox. “Não é que qualquer pessoa com USD 5 milhões possa aparecer e construir um modelo de ponta da noite para o dia. Mas startups bem financiadas e empresas de médio porte? Com certeza.”
Pesquisadores também estão focando em eficiência, e não apenas em poder computacional bruto. Cox e sua equipe têm se concentrado na abordagem Mixture of Experts, que permite que a IA seja mais seletiva na forma como utiliza seus recursos de processamento.
“Mixture of Experts é apenas uma peça do quebra-cabeça — muita coisa ainda está por vir”, ele afirma, sugerindo que o futuro da IA pode depender menos do acesso a chips avançados e mais de maneiras mais inteligentes de usar o hardware existente.
Sattigeri destacou uma dessas inovações: a ascensão dos dados sintéticos, ou informações geradas artificialmente que imitam dados reais. “Com modelos como o DeepSeek, estamos vendo uma mudança rumo ao uso de dados sintéticos gerados por IA para refinar e treinar modelos com mais eficiência”, diz ele. “Isso pode reduzir significativamente os custos e tornar IA de alta qualidade acessível a muito mais players.
”A crescente acessibilidade do desenvolvimento de IA levanta novas questões sobre o futuro da competição. A infraestrutura e o poder computacional ainda determinarão os vencedores, ou a capacidade de inovar rapidamente se tornará o ativo mais valioso? Segundo Cox, é uma combinação de ambos.
"Você ainda precisa de uma infraestrutura séria, de grande talento, mas o fosso que a OpenAI e o Google têm não é tão profundo quanto gostariam que as pessoas acreditassem", diz ele. “Segredos não permanecem em segredo neste campo. As ideias se espalham e as pessoas migram. Estamos vendo uma convergência rápida.”
Hu acrescentou que o desenvolvimento da IA ainda requer quatro componentes críticos: "Eu o chamo de modelo ABCD — Algoritmos, Big Data, Computação e Distribuição", diz ele. “As melhores empresas de IA têm as quatro. DeepSeek está fazendo uma diferença nos dois primeiros, mas a computação e a distribuição ainda dão margem principais participantes.”
O crescente número de empresas de IA viabilizadas por técnicas mais eficientes não se trata apenas de concorrência — isso pode desencadear uma revolução criativa. Se mais empresas puderem desenvolver IA sem orçamentos bilionários, a inovação será impulsionada por diversas perspectivas, em vez de um punhado de agendas corporativas, diz Cox. Isso significa soluções de IA mais personalizadas e modelos especializados, bem como um mercado mais dinâmico.
“A inovação acontecerá de forma mais rápida, segura e inclusiva”, afirma Cox. "Se nos movermos além de uma monocultura em que poucos participantes estabelecem os termos, veremos um florescer de abordagens diferentes."
Cox disse que, para a IBM, que se comprometeu com a IA de código aberto, a ascensão do DeepSeek valida sua abordagem. "Na verdade, é uma coisa boa para nós", diz ele. “Isso prova que os modelos abertos podem funcionar e que há demanda para eles. Quanto mais as pessoas contribuem, mais todos nós nos beneficiamos do benefício.”
Hu ressalta que, enquanto empresas menores estão ganhando terreno, os principais players estão se adaptando. "Amazon, Meta e Microsoft não vão apenas sentar e deixar o código aberto comer seu almoço", diz ele. "Eles estão trabalhando duro para descobrir como integrar modelos de código aberto e, ao mesmo tempo, manter o controle sobre a infraestrutura e os dados."
O que acontece depois? Cox e outros especialistas dizem que o desenvolvimento de IA não se tornará gratuito, mas está claro que as empresas menores não estão mais à mercê dos gigantes da tecnologia. As ferramentas de código aberto estão acelerando o progresso, e são as empresas que adotam essa mudança que mais vão se beneficiar.
"Isso faz parte de uma tendência constante", comenta Cox. “Não começou com o DeepSeek e não vai terminar com ele. Mas definitivamente acordou algumas pessoas.”
Conheça o IBM® Granite, nossa família de modelos abertos de IA de alto desempenho, confiáveis e personalizados para a empresa e otimizados para escalar suas aplicações de IA. Explore as opções de linguagem, código, séries temporais e proteções.
Saiba como selecionar o modelo de base de IA mais adequado para seu caso de uso.
Mergulhe nos artigos, blogs e tutoriais do IBM Developer para aprofundar seu conhecimento sobre LLMs.
Saiba como incentivar sempre as equipes a melhorar o desempenho do modelo e superar a concorrência utilizando as técnicas e infraestrutura mais recentes de IA.
Explore o valor de modelos de base de nível empresarial que proporcionam confiança, desempenho e benefícios econômicos para todos os setores.
Saiba como incorporar IA generativa, aprendizado de máquina e modelos de base em suas operações de negócios para melhorar o desempenho.
Explore a biblioteca de modelos de base da IBM no portfólio do watsonx para escalar a IA generativa com confiança na sua empresa.
Use a IA a serviço da sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e as operações críticas adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor comercial.
Explore a biblioteca da IBM de modelos de base no portfólio do IBM® watsonx para escalar a IA generativa para os seus negócios com confiança.