O DeepSeek-R1, modelo de IA da startup chinesa DeepSeek, disparou para o topo da lista dos modelos mais baixados e ativos na plataforma de código aberto de IA Hugging Face poucas horas após seu lançamento na semana passada. Isso também causou um grande impacto nos mercados financeiros, levando os investidores a reconsiderar as avaliações de fabricantes de chips como a NVIDIA e os investimentos colossais que as gigantes americanas de IA estão fazendo para escalar seus negócios de IA.
Por que tanto alvoroço? O DeepSeek-R1, um chamado "modelo de raciocínio", é um assistente digital que apresenta desempenho equivalente ao o1 da OpenAI em determinados benchmarks de IA para tarefas de matemática e programação, foi treinado com muito menos chips e é aproximadamente 96% mais barato de usar, segundo a empresa.
"DeepSeek está remodelando definitivamente o cenário da IA, desafiando gigantes com ambição de código aberto e inovações", diz Kaoutar El Maghraoui, uma Cientista de Pesquisa e Gerente da IBM AI Hardware.
Enquanto isso, a ByteDance, gigante chinesa de tecnologia proprietária do TikTok, anunciou recentemente seu próprio agente de raciocínio, IU-TARS, que, segundo a empresa, supera o GPT-4o da OpenAI, o Claude da Anthropic e o Gemini do Google em determinados benchmarks. O agente do ByteDance pode ler interfaces gráficas, raciocinar e tomar ações autônomas passo a passo.
Desde startups a gigantes consolidados, as empresas chinesas de IA parecem estar reduzindo a diferença em relação às suas rivais americanas, em grande parte graças à sua disposição em código aberto ou Compartilhe o código-fonte do software subjacente com outras empresas e desenvolvedores de software. "A DeepSeek conseguiu proliferar alguns modelos bastante poderosos em toda a comunidade", diz Abraham Daniels, Gerente Sênior de Produto Técnico do modelo Granite da IBM. O DeepSeek-R1 é oferecido no Hugging Face sob uma licença MIT que permite uso comercial irrestrito. "O DeepSeek pode realmente acelerar a democratização da IA", diz ele.
No verão passado, a empresa chinesa Kuaishou revelou uma ferramenta de geração de vídeo que era como o Sora da OpenAI, mas disponível para o público imediatamente. Sora foi apresentado em fevereiro passado, mas só foi lançado completamente em dezembro e, mesmo assim, apenas aqueles com uma assinatura ChatGPT Pro puderam acessar todas as suas funcionalidades. Os desenvolvedores do Hugging Face também adotaram novos modelos de código aberto dos gigantes chineses da tecnologia Tencent e Alibaba. Embora a Meta tenha disponibilizado seus Llama em código aberto, tanto a OpenAI quanto o Google adotaram uma abordagem predominantemente de código fechado para o desenvolvimento de seus modelos.
Além da dádiva do código aberto, os engenheiros da DeepSeek também usaram apenas uma fração dos chips NVIDIA altamente especializados usados pelos concorrentes americanos para treinar seus sistemas. Os engenheiros da DeepSeek, por exemplo, disseram que precisavam de apenas 2.000 GPUs (unidades de processamento gráfico), ou chips, para treinar seu modelo DeepSeek-V3, de acordo com um artigo de pesquisa que publicaram com o lançamento do modelo.
"O que é realmente impressionante é a capacidade de raciocinar dos modelos do DeepSeek", diz Kush Varshney, um IBM Fellow. Os modelos de raciocínio essencialmente Verify ou se autoavaliam, representando um tipo de “metacognição”, ou “pensar sobre o pensamento”, diz Varshney. "Agora estamos começando a colocar sabedoria nesses modelos, e isso é um grande passo."
Modelos de raciocínio se tornaram o principal tópico de conversa em setembro passado, quando a OpenAI apresentou seu modelo de raciocínio o1. Ao contrário dos modelos anteriores de IA, que produziam uma resposta sem explicar o raciocínio, ele resolve problemas complexos dividindo-os em etapas.Os modelos de raciocínio podem levar mais alguns segundos ou minutos para responder porque refletem sobre sua análise passo a passo ou de uma forma de “cadeia de pensamento”.
O DeepSeek-R1 combina o raciocínio em cadeia com o aprendizado por reforço, no qual um agente autônomo aprende a executar uma tarefa por tentativa e erro e sem nenhuma instrução de um usuário humano. O aprendizado por reforço difere de formas de aprendizado mais comuns, como o aprendizado supervisionado, que usa dados rotulados manualmente para produzir previsões ou classificações, e o aprendizado não supervisionado, que visa descobrir e aprender padrões ocultos a partir de dados não rotulados.
O DeepSeek-R1 questiona o pressuposto de que os modelos melhorarão sua capacidade de raciocinar sendo treinados em exemplos rotulados de comportamento correto ou incorreto, ou extraindo informações de padrões ocultos, afirma Yisua Zhang, estudante de doutorado na Universidade Estadual de Michigan que escreveu dezenas de trabalhos artigos sobre aprendizado de máquina. "A hipótese chave é simples, mas ousada", diz Zhang. “Podemos simplesmente recompensar o modelo pela exatidão e deixar que ele descubra a melhor maneira de Think por conta própria?”
Zhang diz que o que ele e outros acharam particularmente notável no treinamento em grande escala de grandes modelos de linguagem como o do DeepSeek é que "o modelo começa a mostrar um momento real de 'ahá', onde ele recua, detecta erros e se corrige."
Parte da comoção em torno do DeepSeek vem do seu preço baixo. O DeepSeek-V3, lançado no dia de Natal, custou USD 5,5 milhões para treinar e é muito mais barato para os desenvolvedores que desejam experimentá-lo, de acordo com o relatório técnico divulgado pela empresa. "É realmente impressionante o que eles fizeram pelo custo do modelo e o tempo que levaram para treiná-lo", diz Chris Hay, Distinguished Engineer da IBM.
Esse preço baixo, no entanto, pode não ser toda a história, diz Kate Soule, Diretora de Gerenciamento Técnico de Produtos do Granite na IBM pesquisa. O custo de US$ 5,5 milhões "representa apenas uma fração da computação necessária", diz ela. Ele não inclui detalhes de custos que as empresas mantêm proprietários mesmo com modelos de código aberto, como "os custos de computação para aprendizado por reforço, ablações de dados e pesquisas de hiperparâmetros", diz Soule.
O que não é questionável, no entanto, é que o DeepSeek alcançou maior eficiência de custos ao usar uma combinação de arquitetura de especialistas (MoE), que é dramaticamente menos intensiva em recursos para treinar. A arquitetura MoE divide um modelo de IA em sub-redes separadas (ou “especialistas”), cada uma especializada em um subconjunto dos dados de entrada. O modelo ativa apenas os especialistas específicos necessários para uma determinada tarefa, em vez de ativar toda a rede neural. Consequentemente, a arquitetura MoE reduz significativamente os custos de computação durante o pré-treinamento e alcança um desempenho mais rápido durante o tempo de inferência. Diversas empresas ao redor do mundo, incluindo a pioneira empresa francesa de IA Mistral e IBM, popularizaram a arquitetura MoE no último ano e alcançaram maior eficiência ao combinar MoE e código aberto.
No caso da série de modelos Granite de código aberto da IBM (desenvolvidos com uma arquitetura MoE), as empresas conseguem atingir o desempenho de modelos de ponta a uma fração do custo, pois podem adaptar um grande modelo pré-treinado para suas aplicações ou casos de uso específicos, criando, na prática, modelos menores e adequados à finalidade. Ao integrar recursos consideráveis em modelos menores , esses modelos podem ser usados em smartphones e outros dispositivos móveis que operam na edge, como computadores de automóveis ou sensores inteligentes em uma linha de produção.
Esse processo de pegar um modelo maior e destilá-lo em modelos menores com menos recursos também contribuiu para o sucesso do DeepSeek. Além do lançamento do modelo R1, a startup chinesa também lançou uma série de modelos menores e adequados à finalidade. Curiosamente, eles mostraram que modelos maiores destilados em modelos menores têm um desempenho melhor no raciocínio em comparação com o uso de aprendizado por reforço de modelos pequenos desde o início.
À medida que rivalizam ou ultrapassam seus concorrentes mais antigos em determinados benchmarks, como esses novos modelos chineses impactarão o cenário global de IA? "Não se trata apenas do desempenho bruto em benchmarks", diz El Maghraoui. "O que importa é se há integração completa desses modelos de maneira segura e ética." Como resultado, afirma El Maghraoui, é cedo demais para dizer se o DeepSeek-R1 e outros "transformarão as interações humanas, a tecnologia e as aplicações empresariais".
Em última análise, "a taxa de adoção pelos desenvolvedores determinará a popularidade dos modelos do DeepSeek", diz Daniels. Além disso, será "muito interessante ver os casos de uso que eles descobrem para os modelos", diz ele.
E, como observa Varshney, da IBM, as diferenças geopolíticas também podem ser menos importantes do que se poderia supor nessa corrida global da IA. "Uma vez que um modelo é de código aberto, de onde ele vem deixa de ser importante em muitos aspectos", diz ele.
