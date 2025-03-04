Se você leu as manchetes em 20 de janeiro de 2025, deve ter pensado que o céu estava caindo. Isso ocorre porque a DeepSeek com sede na China, lançou seu grande modelo de linguagem (LLM) R1, que rapidamente se tornou um dos modelos mais baixados e ativos logo após seu lançamento.
O que gerou entusiasmo foi o fato de que o laboratório de pesquisa de IA baseado em Hangzhou, na China, que lança modelos com seu nome, ter construído um modelo a um custo muito menor —US$ 5,6 milhões — e com muito menos recursos de computação e acesso a chips NVIDIA do que os principais modelos dos EUA.
Como um relógio, as pessoas se preocupavam abertamente com o fato de que algumas das empresas de IA dos EUA, altamente financiadas, estavam prestes a ficar para trás. Como a DeepSeek usou menos chips NVIDIA do que essas outras empresas, o preço das ações da empresa caiu. No entanto, isso foi mais uma reação automática à notícia do que qualquer coisa materialmente preocupante sobre o futuro do fabricante de chips.
Repórter de tecnologia e negócios viram essa notícia como um choque para o sistema. No entanto, para outros especialistas em IA e para mim, a única surpresa com o anúncio do R1 da DeepSeek foi o quão surpresos todos pareciam estar.
Embora o modelo fosse novo, o DeepSeek está longe de ser um novo operador no mercado. Ela tem um amplo histórico de produção de valiosos modelos de código aberto no mercado chinês, especialmente o modelo V3 lançado em dezembro. Na verdade, ele lançou um artigo técnico que o acompanha, que oferece uma educação para qualquer pessoa que queira se aprofundar em como construir esses laboratórios. O modelo V3 foi mais uma surpresa, mas isso aparentemente passou despercebido.
O modelo R1 da DeepSeek, é claro, é outro exemplo de uma ferramenta de IA generativa que pode se tornar a base para o futuro da IA agêntica, onde as ferramentas de IA não apenas respondem às solicitações de seus usuários, mas também trabalham de forma independente para fornecer serviços a esses usuários.
Embora a IBM by Design faça parceria e use todos esses modelos, também somos grandes defensores e engenheiros do movimento de código aberto. Ver um modelo de código aberto como o R1 receber elogios tão merecidamente é ótimo para o setor.
É compreensível que tenha sido um pouco chocante para os grandes players ver a DeepSeek produzir um modelo igual ou melhor do que seus modelos, mas construído por uma fração do custo de modelos mais conhecidos. No entanto, é isso que a comunidade de código aberto foi projetada para fazer.
O anúncio do DeepSeek R1 demonstra uma história de dois mundos: os mercados financeiros projetaram turbulência, enquanto os especialistas em IA estavam empolgados com o avanço tecnológico e como ele poderia informar modelos mais eficientes e poderosos.
O R1 apenas reforçou o que muitos sabiam, e o resto do mundo está atualizando. Obviamente, o DeepSeek depende de todos os que contribuem para o ambiente de código aberto, incluindo IBM, Meta e muito mais. Os modelos de código aberto continuarão a liderar a inovação. Embora R1 tenha sido um choque inicial para o sistema, todos se beneficiarão de sua existência. Especialmente considerando que o DeepSeek acabou de anunciar uma semana de código aberto, na qual estava compartilhando um repositório de código aberto por dia.
DeepSeek R1 usa a abordagem de aprendizado de máquina Mixture of Experts (MoE) que divide um modelo de inteligência artificial (IA) em sub-redes separadas (ou "especialistas"), cada uma especializada em um subconjunto dos dados de entrada, para realizar uma tarefa em conjunto.
Portanto, quando você usa a abordagem de MoE, nem todos os parâmetros do modelo devem ser ativados ao mesmo tempo. Por exemplo, existem cerca de 671 bilhões de parâmetros no modelo v3 ou R1 do DeepSeek, mas apenas 37 bilhões de parâmetros estão ativos por vez. Então, a pequena parte de todo o modelo que realmente responde à pergunta o torna muito mais eficiente.
Historicamente, os pesquisadores têm encontrado dificuldades de treinamento com modelos de MoE. A DeepSeek criou algumas técnicas novas para corrigir esses problemas e, ao mesmo tempo, manter a carga de trabalho geral, o que tornou sua combinação de especialistas moderada e eficiente.
Por exemplo, os modelos V3 e R1 usaram o aprendizado por reforço em vez de depender dos dados rotulados. Essa técnica pensa em várias rotas para chegar à resposta. Cada rota que percorre, ele reavalia ao longo do caminho. Portanto, determina mais rapidamente se está indo no caminho errado. Em seguida, ele pode voltar rapidamente e determinar uma rota potencialmente mais vantajosa.
Esse raciocínio de "cadeia de pensamentos" o ajuda a encontrar o caminho para o destino final, que é preciso, e receber a recompensa por isso. Essa metodologia de aprendizado por reforço os ajudou a treinar o modelo para executar no mesmo nível ou acima do OpenAI e de outros modelos.
Às vezes, as limitações geram inovação. O DeepSeek é limitado no que diz respeito aos chips NVIDIA que pode adquirir devido aos controles de exportação dos EUA sobre vendas de chips para a China. A empresa matriz obviamente tinha um número significativo de chips NVIDIA em mãos —2.000 chips H800 da NVIDIA— mas ainda precisava ser ágil na forma como os implementava. Ele realizou um trabalho incrível até o nível de hardware para poder promover algumas otimizações.
Todos na comunidade de código aberto usam a plataforma Cuda da NVIDIA, que disponibiliza um bom conjunto de bibliotecas que podem ajudar você a conectar todas as diferentes GPUs para que se comuniquem de forma mais eficiente, distribuam suas cargas de trabalho e assim por diante. Mas o DeepSeek foi um passo mais fundo, abaixo da biblioteca, e otimizou ainda mais o hardware também.
A realidade é que o ritmo em que os modelos abertos melhoraram e continuarão a melhorar é fenomenal.
A IA não acontece sem chips. As notícias iniciais de que pode ser necessário menos chips no futuro para produzir modelos excelentes criaram, em alguns observadores do setor, uma falácia lógica de que a demanda por chips diminuiria. De acordo com a Jevons Paradox, o oposto é verdadeiro: o aumento da eficiência geralmente leva ao aumento do consumo. Desde o uso de combustível e energia ao longo do tempo e o aumento da eficiência do ar condicionado, levando as pessoas a construir casas maiores, nunca há nada bom.
Veja, por exemplo, o negócio global de uísque. Nos últimos anos, a ascensão de pequenas destilarias independentes só aumentou a demanda por grãos. O mesmo ocorre em qualquer setor, pois a economia melhora as oportunidades para as pequenas empresas. Pode haver menos chips usados por qualquer empresa, mas a DeepSeek demonstrou que muito mais players podem entrar no mercado e usar técnicas de código aberto para criar modelos impressionantes por menos.
Isso, para mim, é o maior aprendizado. O que isso viabiliza é que não será apenas a elite que tem acesso a uma computação incrível que será capaz de construir a próxima série de modelos. Talvez existam rotas alternativas onde laboratórios menores também possam começar a investir na construção de mais modelos. Isso é ótimo para quem está empolgado com os agentes de IA e com o futuro agêntico que todos imaginamos.
A competição entre todos os principais participantes fluirá e será diminuída, portanto, é melhor não pensar em vencedores e perdedores em termos imediatos. Todos os dias, empresas, pesquisadores e cientistas de IA estão inovando para produzir modelos melhores baseados em raciocínios mais científicos.
É por isso que estamos tão entusiasmados com as recentes atualizações de raciocínio da nossa família Granite de LLMs, que superaram o desempenho do R-1 em benchmarks como ArenaHard e AlpacaEva. Nossos modelos de raciocínio combinam o melhor dos dois mundos: alto desempenho com características de segurança, permitindo que os usuários escolham se desejam usar os recursos de raciocínio ou não, dependendo da situação. Quanto mais Compartilhe o que sabemos e abrirmos o código aberto, maior será o benefício para todos, especialmente para os consumidores.
Embora a OpenAI e outras possam sentir algum calor inicial com o aumento de uma concorrência menor, mas potente, essa é uma grande vitória para a comunidade e se alinha com a perspectiva da IBM para o futuro da IA. É uma grande vitória para a comunidade de código aberto e demonstra que modelos menores podem superar alguns dos outros. Obviamente, isso de forma alguma exclui os participantes maiores; se forem inteligentes, usarão o que o DeepSeek lhes ensinou para continuar a construir modelos maiores a custos mais baixos.
Mas, em última análise, a concorrência é ótima para empresas e consumidores. Todos ganham quando temos esses eventos sísmicos como o DeepSeek R1.
