Quase um ano depois do modelo R1 de baixo custo e alto desempenho da DeepSeek ter abalado o Vale do Silício e Wall Street, o laboratório chinês de IA está prestes a revolucionar o setor de IA mais uma vez. Desta vez, a DeepSeek lançou um novo frameworkque pode tornar o treinamento de grandes modelos de linguagem (LLMs) muito mais eficiente, estável e escalável. Talvez o mais importante seja que isso reduz o custo do treinamento prévio, liberando o poder dos LLMs para empresas menores e desenvolvedores individuais.
"Com essa inovação, o DeepSeek está dizendo 'como posso obter o máximo de retorno do meu investimento durante o pré-treinamento?'", disse Chris Hay, Engenheiro Distinto da IBM, em entrevista ao IBM Think. "O treinamento do modelo é a parte cara."
Os pesquisadores da DeepSeek testaram essa nova arquitetura, chamada Hiperconexões com Restrição de Variedade (mHC, na sigla em inglês), em modelos com três bilhões, nove bilhões e 27 bilhões de parâmetros. Eles descobriram que os modelos eram escaláveis sem adicionar uma carga computacional significativa ou instabilidades, ambos os quais geralmente aumentam em conjunto com a escalabilidade.
Normalmente, os laboratórios de IA de ponta dependem da "força bruta" para aprimorar a IA, disse Kaoutar El Maghraoui, Cientista de Pesquisa Principal da IBM, no episódio mais recente do podcast Mixture of Experts. Isso significa "adicionar mais dados, mais poder computacional, mais parâmetros", disse ela. Mas essa abordagem é "cada vez mais ineficiente e acessível apenas por algumas grandes empresas".
El Maghraoui destacou que a arquitetura mHC da DeepSeek pode revolucionar o pré-treinamento de modelos. "Trata-se de ampliar a IA de forma mais inteligente, em vez de simplesmente torná-la maior", disse ela. "É uma forma mais inteligente de projetar esses modelos, que também funcionaria melhor para o hardware." Segundo El Maghraoui, o mHC também pode ser facilmente integrado ao hardware personalizado de uma empresa, tornando-se uma opção potencialmente atraente para empresas que buscam IA com uma boa relação custo-benefício. Como exemplo, ela citou os aceleradores de hardware especializados da IBM, projetados para acelerar a IA, o aprendizado de máquina e as cargas de trabalho de deep learning para clientes corporativos no local.
Em uma postagem no LinkedIn, Pierre-Carl Langlais, cofundador da startup francesa de IA Pleias, sugeriu que a verdadeira importância do artigo vai além de provar a escalabilidade do mHC. A "verdadeira flexibilidade" reside na capacidade do DeepSeek de reestruturar todas as dimensões do ambiente de treinamento, escreveu ele. "É isso que faz [do DeepSeek] um laboratório de vanguarda."
Para Hay, o fato de a DeepSeek manter o código aberto em seus novos trabalhos é notável porque torna a IA mais acessível a um público mais amplo. "Aprecio que eles criem inovações, as apresentem ao mundo, permitam que as pessoas as experimentem e, em seguida, envolvam todo o setor", disse ele.
À medida que os líderes de IA em organizações menores lidam com as complexidades da implementação de soluções de IA com boa relação custo-benefício, inovações como o framework mHC da DeepSeek facilitam o acesso a modelos de base poderosos que, historicamente, estavam disponíveis apenas para empresas com recursos financeiros muito maiores. Ao reduzir significativamente o custo do pré-treinamento dos LLMs e tornar a IA mais acessível, os avanços da DeepSeek estão prestes a revolucionar o cenário da IA para pequenas e médias empresas.
