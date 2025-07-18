Quando o DeepSeek-R1 foi lançado em 20 de janeiro, o poderoso, mas econômico modelo de raciocínio de IA eletrificou tanto o Vale do Silício quanto Wall Street. Por quê? Ele poderia raciocinar tão bem quanto os principais modelos de empresas como OpenAI e Anthropic, mas supostamente usou muito menos computação e custou uma fração do mesmo para treinar e usar. Somente no mês passado, o modelo foi baixado mais de 800 mil vezes no Hugging Face.
"Foi um alerta", lembrou Larry Li, fundador e sócio-gerente da AMINO Capital, empresa de investimentos sediada em Palo Alto, em entrevista recente ao IBM Think. As novas tecnologias passam frequentemente por "engenharia reversa", disse ele. "Mas ninguém esperava que pudesse ser feito tão bem."
“Tratava-se apenas de mudar a narrativa de que os EUA são o único lugar no mundo onde se pode inovar”, disse Matthieu Soulé, o diretor do C.Lab da Cathay Innovation, um fundo que investe em inovação de IA na UE e na Ásia, incluindo a China.
Muitos previram que o sucesso do DeepSeek revolucionaria os setores e a corrida global de IA de forma mais ampla. Seis meses depois, queríamos verificar e ver: isso realmente aconteceu?
Conversamos com alguns dos mesmos especialistas que entrevistamos nas horas após o lançamento do DeepSeek-R1, assim como com vários outros especialistas, para obter uma visão mais completa.
Nos dias seguintes ao lançamento do DeepSeek-R1, muitos levantaram preocupações sobre se a empresa havia contabilizado e relatado com precisão os custos totais (não apenas o treinamento do modelo quase final) e quais componentes eles usaram e de quais empresas. Em outras palavras, eles realmente fizeram algo revolucionário ou foi mais um progresso incremental?
Alguns, como Kaoutar El Maghraoui, Cientista de Pesquisa Principal da IBM, sentem que a verdadeira inovação pode ter sido o que ela chama de "eficiência arquitetônica" ou a combinação de técnicas como "a combinação de especialistas, uma estratégia de aprendizado por reforço, codesign de hardware-software e vários outros truques de otimização." Trata-se, principalmente, de uma implementação inteligente e eficaz de técnicas já existentes", disse ela em uma entrevista recente ao IBM Think.
Ainda assim, especialistas concordam que o DeepSeek-R1 mudou o cenário global da IA de algumas maneiras importantes. Por um lado, muitos tomaram como certo que as empresas americanas de IA tinham um “fosso” ou liderança que seria quase impossível de cobrir. O DeepSeek derrubou essa suposição, pois reduziu a barreira para desenvolvedores e empresas menores acessarem as ferramentas para desenvolver seus próprios LLMs.
"Desenvolvedores e usuários agora têm acesso ao mesmo tipo de recursos que o o1 da OpenAI por uma fração do custo", disse Abraham Daniels, Gerente Sênior de Produtos Técnicos da IBM, em entrevista.
O fato de o DeepSeek ter disponibilizado seus modelos de código aberto desempenhou um papel importante no aumento da acessibilidade. "Observamos um aumento de interesse em código aberto desde o DeepSeek e da contribuição para a Aliança de IA", disse Anthony Annunziata, diretor de estratégia aberta de IA na IBM e na Aliança de IA. A Aliança de IA é uma rede internacional de organizações que trabalham para criar uma IA aberta e segura, fundada pela IBM e pela Meta.
"Em toda a Europa, no Vietnã, na Índia e no Japão, há todas essas empresas regionais de IA que querem garantir que mantenham o controle soberano de sua inteligência artificial, que possam moldá-la da maneira que quiserem para atender às suas necessidades culturais, sociais e econômicas , que são diferentes dos EUA e de outros lugares", disse Annunziata.
Proteger a pesquisa interna de IA é uma prioridade. "Há um verdadeiro impulso de soberania digital onde os governos estão tentando descobrir como podem evitar a influência estrangeira de IA", disse El Maghroui.
A criação de LLMs com base em idiomas locais motiva muitos empreendedores. "A IA está indo nessa direção em que, como utilitário, cada país ou região quer ter seu próprio modelo de linguagem para pelo menos ter uma palavra em termos de influenciar o comportamento", disse Li.
O Japão, por exemplo, promulgou recentemente a Lei de Promoção da IA para apoiar de forma notável a promoção da tecnologia. No final de junho, a AI Alliance lançou um novo capítulo no Japão para se concentrar em duas áreas de grande interesse dos empreendedores locais: soberania na IA e IA na manufatura. A linguagem desempenha um papel importante no controle dos sistemas de IA, por isso, no final de 2024, por exemplo, um grupo de mais de 1.500 pesquisadores da academia e dos setores se uniram para desenvolver modelos de linguagem japonesa robustos e abertos.
Muitos modelos de IA desenvolvidos internamente e empreendedores também priorizam interesses econômicos locais. No caso do Japão, muitas das empresas que ingressaram na AI Alliance, incluindo a Mitsubishi Electric e a Panasonic, estão desenvolvendo modelos de IA direcionados para aplicações de manufatura e industriais, um segmento particularmente grande da economia japonesa.
Por outro lado, também existe um interesse crescente por modelos locais, afirmou Daisuke Okanohara, CTO e cofundador da Preferred Networks, uma empresa japonesa de hardware e software que desenvolve software avançado utilizando aprendizado profundo e IA. Em maio, a Preferred Networks lançou sua segunda versão do PLaMo, um modelo compacto que pode ser executado no local e é treinado em japonês e inglês.
“Seu desempenho não é tão competitivo quanto o dos modelos de fronteira em geral, mas se destaca em certas tarefas específicas”, disse Okanohara durante uma entrevista ao IBM Think. "Em casos de uso de modelos pequenos, como modelos com 8 a 30 bilhões de parâmetros, ele supera o CLANG, o GPT-4o mini e modelos semelhantes em várias tarefas em japonês."
O Vietnã também experimentou uma enxurrada de atividade empresarial de LLM, e a AI Alliance lançou um capítulo lá em junho deste ano. Além de desenvolver um modelo de idioma vietnamita, os empreendedores estão focados no uso de modelos de IA para desenvolver novos tipos de chips para impulsionar a IA, disse Annunziata.
Outra razão pela qual o DeepSeek inspirou tantos empreendedores locais foi o fato de vários países terem proibido ou restrito o uso do DeepSeek-R1, citando preocupações com segurança e privacidade. Itália, Austrália, Coreia do Sul e Canadá proibiram o DeepSeek, que também foi restrito em vários estados dos EUA, particularmente em sites governamentais. Isso teve um efeito cascata interessante de motivar os empreendedores locais a usar ferramentas de código aberto para criar modelos mais seguros que pudessem ser usados em suas regiões geográficas específicas.
A 01.AI, a mais recente empresa de tecnologia do empreendedor e investidor de capital de risco Kai-Fu Lee, pretende explorar o mercado B2B de IA empresarial — um setor notoriamente difícil na China, onde metade das empresas são estatais e as grandes empresas privadas podem ficar sob influência do governo à medida que crescem. Lee lançou anteriormente a Rhymes IA, uma empresa que lançou vários produtos no ano passado, incluindo um mecanismo de busca e o Allegro, um modelo de geração de vídeo de código aberto.
"Olhamos para isso com uma abordagem pragmática: os modelos são realmente, realmente bons o suficiente. No entanto, ainda não é fácil de usar para muitas empresas e negócios, e esse é o problema que estamos tentando resolver", disse Anita Huang, cofundadora da 01.AI, em entrevista ao IBM Think. "Achamos que a peça que falta, especialmente para o mercado empresarial chinês, é a camada de middleware que se torna as janelas ou o grande modelo de linguagem." Atualmente, sua plataforma empresarial utiliza modelos como o DeepSeek e o Qwen da Alibaba.
Logo após o DeepSeek, muitos previram que ele havia aberto o caminho para o raciocínio sobre a cadeia de pensamentos dominar. Desde então, no entanto, o setor mudou. Nova pesquisa mostrou que os modelos de raciocínio são intensivos em custo e Recursos e não são necessários para muitas tarefas ao procurar utilidade desses modelos.
Talvez a maior área de exagero tenha sido a adoção corporativa do DeepSeek, considerando seus baixos custos de licenciamento (foi licenciado por meio da licença permissiva MIT).
"Na realidade, a adoção empresarial permanece muito limitada, principalmente devido à falta de garantias de privacidade de dados, falta de conformidade, governança e segurança", disse El Maghraoui.
A maioria das empresas, pelo menos nos EUA, ficou com fornecedores que ofereciam soluções gerenciadas ou auditáveis.
Portanto, embora seja bom que "as pessoas vejam que as inovações vêm de lugares surpreendentes", disse Annunziata, o setor de IA no geral e o mercado em geral não mudaram como alguns previram. Em vez disso, "as empresas de código aberto dobraram a aposta em código aberto, e os grandes players de software proprietário estão focados em adquirir talentos, mais focados ainda em adquirir concorrentes ou embotar concorrentes, e estão investindo cada vez mais dólares em seus modelos".
Em última análise, o maior legado do DeepSeek pode ser defender modelos pequenos e adequados à finalidade, disse Daniels.
"O DeepSeek abriu a corrida para a IA e fez dos pequenos modelos de linguagem o novo campo de batalha", disse ele. "Modelos de linguagem pequenos e altamente capazes podem ser treinados com mais eficiência do que seus modelos maiores e podem lidar melhor com os casos de uso corporativos."
Os agentes de IA— sistemas de IA autônomos que podem raciocinar, planejar e executar tarefas — explodiram nas empresas em 2025 e são um desses casos de uso. Modelos menores geralmente são mais adequados para sistemas de IA agêntica porque são mais eficientes, exigem menos recursos e podem ser adaptados para tarefas específicas.
Como Chris Hay, Distinguished Engineer da IBM, colocou em um episódio recente da Mixture of Experts: "Quando você quer executar agentes, você quer que seus modelos sejam pequenos, rápidos e enxutos."
