Se você leu as manchetes em 20 de janeiro de 2025, deve ter pensado que o céu estava caindo. Isso ocorre porque a DeepSeek com sede na China, lançou seu grande modelo de linguagem (LLM) R1, que rapidamente se tornou um dos modelos mais baixados e ativos logo após seu lançamento.

O que gerou entusiasmo foi o fato de que o laboratório de pesquisa de IA baseado em Hangzhou, na China, que lança modelos com seu nome, ter construído um modelo a um custo muito menor —US$ 5,6 milhões — e com muito menos recursos de computação e acesso a chips NVIDIA do que os principais modelos dos EUA.

Como um relógio, as pessoas se preocupavam abertamente com o fato de que algumas das empresas de IA dos EUA, altamente financiadas, estavam prestes a ficar para trás. Como a DeepSeek usou menos chips NVIDIA do que essas outras empresas, o preço das ações da empresa caiu. No entanto, isso foi mais uma reação automática à notícia do que qualquer coisa materialmente preocupante sobre o futuro do fabricante de chips.

Repórter de tecnologia e negócios viram essa notícia como um choque para o sistema. No entanto, para outros especialistas em IA e para mim, a única surpresa com o anúncio do R1 da DeepSeek foi o quão surpresos todos pareciam estar.

Embora o modelo fosse novo, o DeepSeek está longe de ser um novo operador no mercado. Ela tem um amplo histórico de produção de valiosos modelos de código aberto no mercado chinês, especialmente o modelo V3 lançado em dezembro. Na verdade, ele lançou um artigo técnico que o acompanha, que oferece uma educação para qualquer pessoa que queira se aprofundar em como construir esses laboratórios. O modelo V3 foi mais uma surpresa, mas isso aparentemente passou despercebido.

O modelo R1 da DeepSeek, é claro, é outro exemplo de uma ferramenta de IA generativa que pode se tornar a base para o futuro da IA agêntica, onde as ferramentas de IA não apenas respondem às solicitações de seus usuários, mas também trabalham de forma independente para fornecer serviços a esses usuários.

Embora a IBM by Design faça parceria e use todos esses modelos, também somos grandes defensores e engenheiros do movimento de código aberto. Ver um modelo de código aberto como o R1 receber elogios tão merecidamente é ótimo para o setor.

É compreensível que tenha sido um pouco chocante para os grandes players ver a DeepSeek produzir um modelo igual ou melhor do que seus modelos, mas construído por uma fração do custo de modelos mais conhecidos. No entanto, é isso que a comunidade de código aberto foi projetada para fazer.

O anúncio do DeepSeek R1 demonstra uma história de dois mundos: os mercados financeiros projetaram turbulência, enquanto os especialistas em IA estavam empolgados com o avanço tecnológico e como ele poderia informar modelos mais eficientes e poderosos.