Na corrida pelo domínio da IA, quanto maior geralmente é melhor. Mais dados e mais parâmetros criam sistemas de IA maiores, que não são apenas mais poderosos, mas também mais eficientes e mais rápidos, e geralmente criam menos erros do que sistemas menores.
As empresas de tecnologia que aproveitam as manchetes reforçam essa tendência. “O sistema que acabamos de implementar é, em escala, do tamanho de uma baleia”, disse o CTO da Microsoft, Kevin Scott, sobre o supercomputador que alimenta o Chat GPT-5. Scott estava discutindo a última versão do chatbot IA da Open AI no recente evento Build da empresa no final de maio. “E acontece que você pode construir um monte de IA com um supercomputador do tamanho de uma baleia.”
Enquanto isso, a capitalização de mercado da Nvidia atingiu a marca de USD 3 trilhões em junho. O fabricante de chips vem crescendo em um ritmo vertiginoso à medida que seus chips impulsionam modelos de linguagem cada vez maiores, supercomputadores e os data centers que se expandem rapidamente em todo o mundo.
Mas será que maior é sempre melhor? Isso depende da sua perspectiva. Para empresas que desenvolvem grandes modelos de linguagem, a escala é uma vantagem na maioria dos casos. Mas enquanto as empresas procuram separar o hype de onde a IA pode agregar valor real, não é claro que modelos de linguagem cada vez maiores sempre levarão a soluções melhores para os negócios.
No futuro, “não precisaremos de modelos 100 vezes mais complexos do que os atuais para extrair a maior parte do valor”, afirmou Kate Soule, diretora de programas de pesquisa em IA generativa da IBM, em um episódio recente do podcast Mixture of Experts da IBM. Muitas empresas que já estão obtendo retorno sobre seus investimentos em IA o estão utilizando para tarefas como classificação e sumarização, que nem sequer utilizam a capacidade total dos modelos de linguagem atuais.
"Quanto maior, melhor" deriva das leis de escalabilidade de dados que entraram na conversa com um artigo de 2012 por Prasanth Kolachina aplicando leis de escalabilidade ao aprendizado de máquina. Kolachina e seus colegas mostraram que, à medida que os modelos ficavam maiores, eles geralmente se tornavam mais precisos e tinham melhor desempenho. Em 2017, Hestness et al. exibiram que o ajuste de escala do deep learning também é previsível empiricamente. Então, em 2020, Kaplan et al. mostraram que as leis de escala de dados também eram verdadeiras para modelos de linguagem.
Embora essas leis sejam úteis para provedores de modelos de linguagem que se esforçam para criar inteligência geral artificial, está longe de ser claro que as empresas precisam dessa escala de investimento ou IA para obter a maior parte do valor.
“Só porque você conhece a maneira mais econômica de treinar um modelo do enésimo tamanho, os benefícios reais que você obtém desse modelo justificarão os custos?” disse Soule da IBM. "Essa é uma pergunta completamente diferente à qual as leis de escala não respondem."
O custo dos dados está aumentando à medida que os dados de alta qualidade usados para treinar modelos de IA estão se tornando cada vez mais escassos. Um artigo da Epoch IA, uma Organização de pesquisa em IA, descobriu que os modelos de IA poderiam esgotar todos os atuais dados de linguagem de alta qualidade disponíveis na internet até 2026.
Por isso, as empresas estão usando a criatividade no acesso a novos dados para treinar modelos e gerenciar custos. A versão mais recente do Chat GPT da Open AI, por exemplo, é oferecida gratuitamente aos usuários em troca de alguns dados do usuário e de terceiros. Os principais participantes também estão analisando os dados sintéticos, que são compostos de imagens 2D, dados 3D, texto e outros, que são usados com dados do mundo real para treinar a IA.
Enquanto as empresas que desenvolvem LLMs suportam os custos de dados, os custos climáticos de modelos de linguagem cada vez maiores têm sido amplamente negligenciados. Conforme esses modelos crescem em complexidade e uso, eles consomem vastos recursos computacionais. Os data centers que abrigam os supercomputadores que alimentam esses modelos consomem uma quantidade significativa de energia, criando emissões de carbono correspondentes.
“Não se trata apenas dos grandes impactos energéticos envolvidos, mas também dos impactos de carbono que, em primeiro lugar, acarretarão custos para as pessoas que não se beneficiam dessa Tecnologia”, disse Emily Bender, professora de Linguística da Universidade de Washington, que publicou um artigo intitulado Sobre os Perigos dos Papagaios Estocásticos: Os Modelos de Linguagem Podem Ser Grandes Demais?”.
"Quando fazemos a análise de custo-benefício, é importante pensar em quem está recebendo o benefício e quem está pagando o custo, porque não são as mesmas pessoas", disse Bender em um comunicado à imprensa da Universidade de Washington comunicado à imprensa.
Uma maneira pela qual as empresas estão equilibrando custos e benefícios é usando modelos maiores primeiro para lidar com os problemas de negócios mais desafiadores. Em seguida, quando recebem a resposta, mudam para modelos menores que replicam as descobertas dos modelos grandes, mas a um custo menor e com menor latência.
O uso de modelos de linguagem menores também está crescendo como alternativa aos grandes modelos de linguagem.
"LLMs menores oferecem aos usuários mais controle em comparação com modelos de linguagem maiores, como ChatGPT ou Claude, tornando-os mais desejáveis em muitas instâncias", disse Brian Peterson, cofundador e diretor de tecnologia da Dialpad, uma plataforma baseada na nuvem e impulsionada por IA, que disse à PYMNTS.
"Eles são capazes de filtrar um subconjunto menor de dados, tornando-os mais rápidos, mais acessíveis e, se você tiver seus próprios dados, muito mais personalizáveis e ainda mais precisos." É improvável que a corrida para construir LLMs maiores e mais poderosos desacelere tão cedo. No entanto, no futuro, a maioria dos especialistas concorda que veremos também uma onda de modelos de IA compactos, mas poderosos, que se destacam em campos específicos e oferecem uma alternativa às empresas que buscam equilibrar melhor o valor e os custos da IA.
