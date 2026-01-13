Quase um ano depois do modelo R1 de baixo custo e alto desempenho da DeepSeek ter abalado o Vale do Silício e Wall Street, o laboratório chinês de IA está prestes a revolucionar o setor de IA mais uma vez. Desta vez, a DeepSeek lançou um novo frameworkque pode tornar o treinamento de grandes modelos de linguagem (LLMs) muito mais eficiente, estável e escalável. Talvez o mais importante seja que isso reduz o custo do treinamento prévio, liberando o poder dos LLMs para empresas menores e desenvolvedores individuais.

"Com essa inovação, o DeepSeek está dizendo 'como posso obter o máximo de retorno do meu investimento durante o pré-treinamento?'", disse Chris Hay, Engenheiro Distinto da IBM, em entrevista ao IBM Think. "O treinamento do modelo é a parte cara."

Os pesquisadores da DeepSeek testaram essa nova arquitetura, chamada Hiperconexões com Restrição de Variedade (mHC, na sigla em inglês), em modelos com três bilhões, nove bilhões e 27 bilhões de parâmetros. Eles descobriram que os modelos eram escaláveis sem adicionar uma carga computacional significativa ou instabilidades, ambos os quais geralmente aumentam em conjunto com a escalabilidade.