Maior nem sempre é melhor: como o padrão híbrido de IA permite modelos de linguagem menores

Vários cubos azuis, rosa e roxos

Como os grandes modelos de linguagem (LLMs) entraram no vernáculo comum, as pessoas descobriram como usar aplicativos que os acessam. As ferramentas modernas de IA podem gerar, criar, resumir, traduzir, classificar e até conversar. Ferramentas no domínio de IA generativa nos permitem gerar respostas para prompts depois de aprender com os artefatos existentes.

Uma área que não tem visto muita inovação é na edge e nos dispositivos restritos. Vemos algumas versões de aplicativos de IA sendo executados localmente em dispositivos móveis com funcionalidades de tradução de idiomas integradas, mas ainda não chegamos ao ponto em que os LLMs geram valor fora dos provedores de nuvem.

No entanto, existem modelos menores que têm o potencial de inovar os recursos de IA generativa em dispositivos móveis. Vamos examinar essas soluções da perspectiva de um modelo de IA híbrido.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Noções básicas de LLMs

Os LLMs são uma classe especial de modelos de IA que dão poder a esse novo paradigma. O processamento de linguagem natural (NLP) possibilita esse recurso. Para treinar LLMs, os desenvolvedores usam grandes quantidades de dados de várias fontes, incluindo a internet. Os bilhões de parâmetros processados os tornam tão grandes.

Embora os LLMs tenham conhecimento sobre uma ampla variedade de tópicos, eles estão limitados exclusivamente aos dados nos quais foram treinados. Isso significa que nem sempre são "atuais" ou exatos. Devido ao seu tamanho, os LLMs são normalmente hospedados na nuvem, o que exige implementações de hardware robustas com muitas GPUs.

Isso significa que as empresas que buscam extrair informações de seus dados comerciais privados ou proprietários não podem usar LLMs imediatamente. Para responder a perguntas específicas, gerar resumos ou criar sínteses, eles devem incluir seus dados com LLMs públicos ou criar seus próprios modelos. A maneira de acrescentar os próprios dados ao LLM é conhecida como geração aumentada de recuperação, ou padrão de RAG. É um padrão de projeto de IA generativa que adiciona dados externos ao LLM.

AI Academy

Escolha o modelo de IA certo para seu caso de uso

Tamanho nem sempre é documento quando falamos de modelos de IA. Aprenda a encontrar a solução correta para suas necessidades de negócios. E, em seguida, use o guia como um auxílio para entrar em ação.

Menor é melhor?

Empresas que operam em domínios especializados, como empresas de telecomunicações, saúde ou petróleo e gás, têm um foco direcionado. Embora possam se beneficiar de cenários e casos de uso típicos de IA generativa, seriam mais bem atendidos com modelos menores.

No caso das empresas de telecomunicações, por exemplo, alguns dos casos de uso comuns são assistentes de IA em centrais de contato, ofertas personalizadas na prestação de serviços e chatbots impulsionados por IA para melhorar a experiência do cliente. Os casos de uso que ajudam as empresas de telecomunicações a melhorar o desempenho de sua rede, aumentar a eficiência espectral em redes 5G ou ajudá-las a determinar gargalos específicos em sua rede são mais bem atendidos pelos dados da própria empresa (em oposição a um LLM público).

Isso nos leva à noção de que menor é melhor. Agora, existem pequenos modelos de linguagem (SLMs) que são "menores" em tamanho em comparação com os LLMs. Os SLMs são treinados com dezenas de bilhões de parâmetros, enquanto os LLMs são treinados com centenas de bilhões de parâmetros. Mais importante, os SLMs são treinados com dados relativos a um domínio específico. Eles podem não ter informações contextuais amplas, mas têm um desempenho muito bom no domínio escolhido. 

Devido ao seu tamanho menor, esses modelos podem ser hospedados no data center de uma empresa em vez de na nuvem. Os SLMs podem até ser executados em um único chip de GPU em escala, economizando milhares de dólares em custos anuais de computação. No entanto, a distinção entre o que só pode ser executado em uma nuvem ou em um data center corporativo se torna menos clara com os avanços no projeto de chips.

Seja por custo, privacidade de dados ou soberania de dados, as empresas podem querer executar esses SLMs em seus data centers. A maioria das empresas não gosta de enviar seus dados para a nuvem. Outro motivo importante é o desempenho. A IA generativa na edge realiza a computação e a inferência o mais próximo possível dos dados, tornando-a mais rápida e segura do que através de um provedor de nuvem.

Vale a pena observar que os SLMs exigem menos poder computacional e são ideais para implementação em ambientes com recursos limitados e até mesmo em dispositivos móveis.

Um exemplo no local pode ser uma localização do IBM Cloud Satellite , que possui uma conexão segura de alta velocidade com o IBM Cloud que hospeda os LLMs. As empresas de telecomunicações podem hospedar esses SLMs em suas estações base e oferecer essa opção aos seus clientes também. É tudo uma questão de otimizar o uso de GPUs, pois a distância que os dados devem percorrer é diminuída, resultando em largura de banda melhorada.

O quanto você pode ser pequeno?

Voltando à questão original de poder executar esses modelos em um dispositivo móvel. O dispositivo móvel pode ser um telefone de última geração, um automóvel ou até mesmo um robô. Os fabricantes de dispositivos descobriram que é necessária uma largura de banda significativa para executar LLMs. Os Minúsculos LLMs são modelos de tamanho menor que podem ser executados localmente em telefones móveis e dispositivos médicos.

Os desenvolvedores usam técnicas como adaptação de baixa classificação para criar esses modelos. Eles permitem que os usuários façam um ajuste fino dos modelos de acordo com os requisitos únicos, mantendo o número de parâmetros treináveis relativamente baixo. Na verdade, existe até um projeto MinyLlama no GitHub.

Os fabricantes de chips estão desenvolvendo chips que podem executar uma versão reduzida dos LLMs por meio da difusão de imagens e da destilação de conhecimento. As unidades de sistema em chip (SOC) e de neuroprocessamento (NPUs) ajudam os edge dispositivos a executar tarefas de IA generativa.

Embora alguns desses conceitos ainda não estejam em produção, os arquitetos de soluções devem considerar o que é possível hoje. SLMs trabalhando e colaborando com LLMs podem ser uma solução viável. As empresas podem optar por usar modelos de IA especializados menores e existentes para seu setor ou criar seus próprios modelos para proporcionar uma experiência do cliente personalizada.

A IA híbrida é a resposta?

Embora a execução de SLMs no local pareça prática, e pequenos LLMs em dispositivos móveis de edge sejam atraentes, e se o modelo exigir um corpus de dados maior para responder a alguns prompts? 

A computação em nuvem híbrida oferece o melhor dos dois mundos. O mesmo pode ser aplicado aos modelos de IA?

Quando os modelos menores não funcionam, o modelo de IA híbrida pode oferecer a opção de acessar o LLM na nuvem pública. Faz sentido habilitar essa tecnologia. Isso permitiria que as empresas mantivessem seus dados seguros em suas instalações usando SLMs específicos de domínio e pudessem acessar LLMs na nuvem pública quando necessário. À medida que os dispositivos móveis com SOC se tornam mais capazes, essa parece ser uma maneira mais eficiente de distribuir cargas de trabalho de IA generativa.

A IBM anunciou recentemente a disponibilidade do modelo de IA Mistral de código aberto em sua plataforma Watson. Esse LLM compacto exige menos recursos para ser executado, mas é tão eficaz e tem melhor desempenho em comparação com os LLMs tradicionais. A IBM também lançou um modelo Granite 7B como parte de sua família de modelos de base selecionada e confiável.

Acreditamos que as empresas devem se concentrar na criação de modelos pequenos e específicos de um domínio com dados internos da empresa para diferenciar sua competência principal e usar insights de seus dados (em vez de se aventurar a criar seus próprios LLMs genéricos, que podem acessar facilmente de vários provedores ).

Maior nem sempre é melhor

As empresas de telecomunicações são um exemplo primordial de uma empresa que se beneficiaria com a adoção desse modelo de IA. Eles têm um papel único, pois podem ser consumidores e provedores. Cenários semelhantes podem ser aplicáveis aos setores de saúde, plataformas de petróleo, empresas de logística e outros setores. As empresas de telecomunicações estão preparadas para fazer bom uso da IA generativa? Sabemos que eles têm muitos dados, mas eles têm um modelo de séries temporais que se ajusta aos dados?

Quando se trata de modelos de IA, a IBM tem uma estratégia multimodelo para acomodar cada caso de uso único. Maior nem sempre é melhor, pois os modelos especializados superam os modelos de uso geral com requisitos de infraestrutura mais baixos.

 

Autora

Ashok Iyengar

Executive Cloud Architect

Praneet Adusumilli

Distributed Infrastructure and Network Management Research

Master Inventor

Soluções relacionadas
Modelos de base

Explore a biblioteca de modelos de base da IBM no portfólio do watsonx para escalar a IA generativa em sua empresa com confiança.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Explore a biblioteca da IBM de modelos de base no portfólio do IBM® watsonx para escalar a IA generativa para os seus negócios com confiança.

Conheça o watsonx.ai Conheça os modelos de IA do IBM® Granite