O que são pequenos modelos de linguagem?

Autores

Rina Diane Caballar

Staff Writer

IBM Think

O que são modelos de idiomas pequenos?

Pequenos modelos de linguagem (SLMs) são modelos de inteligência artificial (IA) capazes de processar, entender e gerar conteúdo em linguagem natural. Como o próprio nome indica, os SLMs são menores em escala e escopo do que os grandes modelos de linguagem (LLMs).

Em termos de tamanho, os parâmetros do SLM variam de alguns milhões a alguns bilhões, ao contrário dos LLMs com centenas de bilhões ou até trilhões de parâmetros. Parâmetros são variáveis internas, como pesos e vieses, que um modelo aprende durante o treinamento. Esses parâmetros influenciam o comportamento e o desempenho de um modelo de aprendizado de máquina.

Os pequenos odelos de linguagem são mais compactos e eficientes do que os modelos grandes. Dessa forma, os SLMs exigem menos memória e poder computacional, o que os torna ideais para ambientes com recursos limitados, como dispositivos de edge e aplicativos móveis, ou mesmo para cenários em que a inferência de IA,quando um modelo gera uma resposta à consulta de um usuário, deve ser feita offline sem rede de dados.

As mais recentes tendências em IA, trazidas a você por especialistas

Receba insights selecionados sobre as notícias mais importantes (e intrigantes) sobre IA. Inscreva-se no nosso boletim informativo semanal Think. Consulte a Declaração de privacidade da IBM.

Agradecemos a você! Você se inscreveu.

Sua assinatura será entregue em inglês. Você encontrará um link para cancelar a assinatura em cada boletim informativo. Você pode gerenciar suas assinaturas ou cancelar a assinatura aqui. Consulte nossa Declaração de privacidade da IBM para obter mais informações.

Como funcionam os modelos de linguagem pequenos

Os LLMs servem como base dos SLMs. Assim como os grandes modelos de linguagem, os pequenos modelos de linguagem empregam arquitetura baseada em redes neurais conhecidas como modelo transformadores. Os transformadores tornaram-se fundamentais no processamento de linguagem natural (PLN) e atuam como blocos fundamentais de modelos como o transformador pré-treinado generativo (GPT).

Veja a seguir uma breve visão geral da arquitetura de transformação:

  • Codificadores transformam sequências de entrada em representações numéricas chamadas embeddings, que capturam a semântica e a posição dos tokens na sequência de entrada.
  • Um mecanismo de autoatenção permite que os transformadores "concentrem sua atenção" nos tokens mais importantes na sequência de entrada, independentemente de sua posição.

  • Os decodificadores utilizam esse mecanismo de autoatenção e as incorporações dos codificadores para gerar a sequência de saída estatisticamente mais provável.

Compactação de modelo

As técnicas de compressão de modelos são aplicadas para criar um modelo mais enxuto a partir de um modelo maior. A compactação de um modelo implica na redução do seu tamanho e, ao mesmo tempo, na manutenção o máximo possível de sua precisão. Veja a seguir alguns métodos comuns de compactação de modelos:

  • Pruning

  • Quantização

  • Fatoração de baixa classificação

  • Destilação de conhecimento

Pruning

Pruning, ou poda, remove parâmetros menos cruciais, redundantes ou desnecessários de uma rede neural. Os parâmetros geralmente podados são pesos numéricos correspondentes às conexões entre os neurônios (nesse caso, os pesos serão definidos como 0), os próprios neurônios ou as camadas de uma rede neural.

Os modelos podados muitas vezes precisam passar por ajuste fino após a poda para compensar qualquer perda de precisão. É vital saber quando parâmetros suficientes foram podados, pois a poda excessiva pode degradar o desempenho de um modelo.

Quantização

A quantização converte dados de alta precisão em dados de baixa precisão. Por exemplo, os pesos do modelo e os valores de ativação (um número entre 0 e 1 atribuído aos neurônios em uma rede neural) podem ser representados como inteiros de 8 bits em vez de números de ponto flutuante de 32 bits. A quantização pode aliviar a carga computacional e acelerar a inferência.

A quantização pode ser incorporada ao treinamento do modelo (conhecido como treinamento consciente de quantização ou QAT) ou feito após o treinamento (chamado de quantização pós-treinamento ou PTQ). O PTQ não exige tanto poder computacional e dados de treinamento quanto o QAT, mas o QAT pode produzir um modelo mais preciso.

Fatoração de baixa classificação

A fatoração de baixa classificação decompõe uma matriz grande de pesos em uma matriz menor e de classificação reduzida. Essa aproximação mais compacta pode levar a menos parâmetros, reduzir o número de cálculos e simplificar operações matriciais complexas.

No entanto, a fatoração de baixa ordem pode ser computacionalmente intensa e mais difícil de implementar. Assim como a poda, a rede fatorada precisará de ajustes para recuperar qualquer perda de precisão.

Destilação de conhecimento

A extração de conhecimento envolve a transferência dos aprendizados de um "modelo professor" treinado previamente para um "modelo aluno". O modelo aluno é treinado não somente para corresponder às previsões do modelo do professor, como também para imitar seu processo subjacente de raciocínio. Dessa forma, o conhecimento de um modelo maior é essencialmente "destilado" em um menor.

A técnica de destilação de conhecimento é comumente aplicada em diversos SLMs. Geralmente, utiliza-se o método de destilação offline, no qual os pesos do modelo professor são congelados e não sofrem alterações durante o processo.

AI Academy

Escolha o modelo de IA certo para seu caso de uso

Tamanho nem sempre é documento quando falamos de modelos de IA. Aprenda a encontrar a solução correta para suas necessidades de negócios. E, em seguida, use o guia como um auxílio para entrar em ação.

Exemplos de pequenos modelos de linguagem

Enquanto os modelos maiores permanecem como a tecnologia preferida por muitas empresas, os modelos menores estão ganhando terreno com rapidez. Veja a seguir alguns exemplos de SLMs populares:

  • DistilBERT

  • Gemma

  • GPT-4o mini

  • Granite

  • Llama

  • Ministral

  • Phi

DistilBERT

O DistilBERT é uma versão mais leve do modelo de base do BERT pioneiro do Google. Utiliza extração de conhecimento para torná-lo 40% menor e 60% mais rápido do que seu antecessor, enquanto ainda retém 97% dos recursos de entendimento de linguagem natural do BERT.1

Outras versões reduzidas do BERT incluem o minúsculo com 4,4 milhões de parâmetros, o mini com 11,3 milhões de parâmetros, pequeno com 29,1 milhões de parâmetros e o médio com 41,7 milhões de parâmetros.2 Enquanto isso, o MobileBERT é adaptado para dispositivos móveis.3

Gemma

O Gemma é criado e extraído a partir da mesma tecnologia do LLM Gemini do Google e está disponível em tamanhos de 2, 7 e 9 bilhões de parâmetros.4 O Gemma está disponível no Google IA Studio e nas plataformas Kaggle e Hugging Face.

O Gemini também tem variantes mais leves, na forma de Gemini 1.5 Flash-8B e Gemini 1.0 Nano, projetadas para operar em dispositivos móveis.5

GPT-4o mini

O GPT-4o mini faz parte da família de modelos de IA GPT-4 da OpenAI que mantém o chatbot de IA generativa ChatGPT. O GPT-4o mini é uma variante menor e econômica do GPT-4o. Conta com recursos multimodais aceitando entradas de texto e imagem e produzindo saídas de texto.

Os usuários do ChatGPT Free, Plus, Team e Enterprise podem acessar o GPT-4o mini, que substitui o GPT-3.5. Os desenvolvedores podem acessar o GPT-4o mini por meio de várias interfaces de programação de aplicativos (APIs).

Granite

GraniteTM é a principal série de modelos de base LLM da IBM. A coleção Granite 3.0 conta com modelos de base treinados previamente e ajustados por instruções com 2 e 8 bilhões de parâmetros. O Granite 3.0 também conta com SLMs de combinação de especialistas (MoE) para latência mínima e uma variante otimizada para acelerar a velocidade de inferência de modelo.

Esses modelos de código aberto se destacam não somente em tarefas específicas de linguagem, mas também em domínios empresariais, como cibersegurança, onde agentes de IA utilizam chamadas de ferramentas ou funções para executar tarefas de forma autônoma. Também se destacam em tarefas de geração aumentada por recuperação (RAG), que envolvem a busca de fatos em uma base de conhecimento externa para fundamentar os modelos nas informações mais precisas e atualizadas.

Os modelos Granite 3.0 estão disponíveis para uso comercial em produtos do portfólio IBM watsonx e por meio de Google Vertex AI, Hugging Face, NVIDIA (como microsserviços NIM), Ollama e Replicate.

Llama

Llama é a linha de modelos de linguagem de código aberto da Meta. O Llama 3.2 vem em 1 e 3 bilhões de tamanhos de parâmetros,6 ainda menores do que a versão anterior de 7 bilhões de parâmetros do Llama 2.7

As versões quantizadas desses modelos multilíngues somente de texto foram reduzidas para mais da metade de seu tamanho e são duas a três vezes mais rápidas.6 Esses SLMs podem ser acessados por meio do Meta, Hugging Face e Kaggle.

Ministral

Les Ministraux é um grupo de SLMs da Mistral AI. O Ministral 3B é o menor modelo da empresa, com 3 bilhões de parâmetros, enquanto o Ministral 8B, com 8 bilhões de parâmetros, é o sucessor do Mistral 7B, um dos primeiros modelos de IA lançados pela Mistral AI. Ambos os modelos podem ser acessados através do Mistral.8

O Ministral 8B supera o Mistral 7B em benchmarks que avaliam conhecimento, senso comum, matemática e habilidades multilíngues. Para uma inferência rápida, o Ministral 8B utiliza a atenção de janela deslizante, um mecanismo dinâmico para se concentrar em determinadas "janelas" de tamanho fixo de input, possibilitando que os modelos se concentrem em apenas algumas palavras por vez.8

Phi

Phi é um pacote de pequenos modelos de linguagem da Microsoft. O Phi-2 tem 2,7 bilhões de parâmetros, enquanto o Phi-3-mini tem 3,8 bilhões de parâmetros.9

O Phi-3-mini pode analisar e raciocinar sobre um grande conteúdo de texto devido à sua longa janela de contexto, a quantidade máxima de texto que um modelo pode considerar. De acordo com a Microsoft, o Phi-3-small, seu SLM de 7 bilhões de parâmetros, estará disponível no futuro. O Phi-3-mini pode ser acessado no Microsoft Azure IA Studio, no Hugging Face e no Ollama.9

Combinando LLMs e SLMs

Os avanços no desenvolvimento da IA levaram a abordagens de otimização que maximizam o poder conjunto de LLMs e SLMs:

Padrão de IA híbrida: um modelo de IA híbrida pode ter modelos menores em execução no local e acessando LLMs na nuvem pública quando um corpus de dados maior é necessário para responder a um prompt.

Roteamento inteligente: o roteamento inteligente pode ser aplicado para distribuir de forma mais eficiente as cargas de trabalho de IA. Um módulo de roteamento pode ser criado para aceitar consultas, avaliá-las e escolher o modelo mais adequado para direcionar as consultas. Modelos de linguagem pequenos podem lidar com solicitações básicas, enquanto modelos de linguagem grandes podem lidar com solicitações mais complicadas.

Vantagens de pequenos modelos de linguagem

Nem sempre maior é melhor, e o que os SLMs não têm em tamanho, compensam com estas vantagens:

Acessibilidade: pesquisadores, desenvolvedores de IA e outras pessoas podem explorar e experimentar modelos de linguagem sem precisar investir em várias GPUs (unidades de processamento gráfico) ou outros equipamentos especializados.

Eficiência: A redução dos SLMs faz com que exijam menos recursos, possibilitando treinamento e implementação rápidos.

Desempenho eficaz: essa eficiência não prejudica o desempenho. Modelos pequenos podem ter desempenho comparável ou até melhor do que seus equivalentes de modelos grandes. Por exemplo, o GPT-4o mini supera o GPT-3.5 Turbo em compreensão de linguagem, resposta a perguntas, raciocínio, raciocínio matemático e benchmarks de LLM de geração de código.10 O desempenho do GPT-4o mini também está próximo do de seu irmão maior GPT-4o.10

Maior privacidade e controle de segurança: Devido ao seu menor tamanho, os SLMs podem ser implementados em ambientes de computação em nuvem privada ou locais, possibilitando maior proteção de dados e melhor gerenciamento e mitigação de ameaças à cibersegurança. Isso pode ser especialmente valioso para setores como o financeiro ou o de saúde, em que tanto a privacidade quanto a segurança são fundamentais.

Menor latência: menos parâmetros significam menos tempos de processamento, possibilitando que os SLMs respondam com rapidez. Por exemplo, Granite 3.0 1B-A400M e Granite 3.0 3B-A800M têm contagens totais de parâmetros de 1 bilhão e 3 bilhões, respectivamente, enquanto suas contagens de parâmetros ativos na inferência são de 400 milhões para o modelo 1B e 800 milhões para o modelo 3B. Isso permite que ambos os SLMs minimizem a latência e ofereçam alto desempenho de inferência.

Mais ambientalmente sustentáveis: como exigem menos recursos computacionais, os modelos de linguagem pequenos consomem menos energia, diminuindo, assim, sua pegada de carbono.

Custo reduzido: as organizações podem economizar com despesas de desenvolvimento, infraestrutura e operações, como a aquisição de grandes volumes de dados de treinamento de alta qualidade e o uso de hardware avançado que, de outra forma, seria necessário para rodar modelos gigantescos.

Limitações dos modelos de linguagem pequena

Assim como os LLMs, os SLMs ainda precisam lidar com os riscos da IA. Essa é uma consideração importante para empresas que buscam integrar modelos de linguagem pequenos em seus fluxos de trabalho internos ou implementá-los comercialmente para aplicações específicas.

Viés: modelos menores podem aprender com o viés presente em suas contrapartes maiores, e esse efeito cascata pode se manifestar em suas saídas.

Diminuição do desempenho em tarefas complexas: como os SLMs normalmente são ajustados para tarefas específicas, podem ser menos proficientes em tarefas complexas que exigem conhecimento em um espectro abrangente de tópicos. Por exemplo, a Microsoft observa que seus “modelos Phi-3 não têm um desempenho tão bom em benchmark de conhecimento factual, pois o tamanho menor do modelo resulta em menos capacidade de reter fatos”.9

Generalização limitada: os pequenos modelos de linguagem não têm a ampla base de conhecimento de seus equivalentes expansivos, portanto podem ser mais adequados para tarefas de linguagem direcionadas.

Alucinações: a validação dos resultados dos SLMs é vital para garantir que o que produzem seja factualmente correto.

Casos de uso de pequenos modelos de linguagem

As empresas podem fazer ajustes finos dos SLMs em conjuntos de dados específicos de domínio para personalizá-los para suas necessidades específicas. Essa adaptabilidade significa que pequenos modelos de linguagem podem ser empregados em uma variedade de aplicações do mundo real:

Chatbots: devido à sua baixa latência e recursos de IA conversacional, os SLMs podem alimentar chatbots para atendimento ao cliente, respondendo rapidamente a consultas em tempo real. Eles também podem servir como a espinha dorsal para os chatbots de IA, que vão além de fornecer respostas para a conclusão de tarefas em nome de um usuário.

Resumo de conteúdo: os modelos Llama 3.2 1B e 3B, por exemplo, podem ser utilizados para resumir discussões em um smartphone e criar itens de ação, como eventos de agendas.6 Da mesma forma, o Gemini Nano pode resumir gravações de áudio e transcrições de conversas.11

IA generativa: modelos compactos podem ser implementados para completar e gerar texto e código de software. Por exemplo, os modelos granite-3b-code-instruct e granite-8b-code-instruct podem ser utilizados para gerar, explicar e traduzir código a partir de um prompt de linguagem natural.

Tradução de idiomas: muitos pequenos modelos de linguagem são multilíngues e foram treinados em idiomas diferentes do inglês, para que possam traduzir entre idiomas rapidamente. Devido à sua capacidade de entender o contexto, eles podem produzir traduções quase precisas, que mantêm a nuance e o significado do texto original.

Manutenção preditiva: os modelos enxutos são pequenos o suficiente para serem implementados diretamente em dispositivos de edge locais, como sensores ou dispositivos de Internet das coisas (IoT). Isso significa que os fabricantes podem utilizar SLMs como ferramentas que coletam dados de sensores instalados em máquinas e equipamentos e analisar esses dados em tempo real para prever necessidades de manutenção.

Análise de sentimento: além de processar e entender a linguagem, os SLMs também são hábeis na filtragem e classificação de grandes volumes de texto de maneira objetiva. Isso os torna adequados para analisar texto e avaliar o sentimento por trás dele, ajudando a entender os comentários dos clientes.

Assistência à navegação no veículo: um modelo tão rápido e compacto como um SLM pode ser executado nos computadores de bordo de veículos. Devido a seus recursos multimodais, pequenos modelos de linguagem podem combinar comandos de voz com classificação de imagens, por exemplo, para identificar obstáculos ao redor de um veículo. Eles podem até mesmo aproveitar seus recursos de RAG, recuperando detalhes de códigos de trânsito ou regras de trânsito para ajudar os motoristas a tomar decisões de direção mais seguras e informadas.

Soluções relacionadas
Modelos de base

Explore a biblioteca de modelos de base da IBM no portfólio do watsonx para escalar a IA generativa em sua empresa com confiança.

Conheça o watsonx.ai
Soluções de inteligência artificial

Use a IA a serviço de sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.

Explore as soluções de IA
Consultoria e serviços em IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Explore a biblioteca da IBM de modelos de base no portfólio do IBM® watsonx para escalar a IA generativa para os seus negócios com confiança.

Conheça o watsonx.ai Conheça os modelos de IA do IBM® Granite
Notas de rodapé

Todos os links levam para fora do site ibm.com

1 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter, arXiv, 1 de março de 2020

2 Well-Read Students Learn Better: On the Importance of Pre-training Compact Models, arXiv, 25 de setembro de 2019

3 MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices, arXiv, 14 de abril de 2020

4 Gemma explained: An overview of Gemma model family architectures, Google for Developers, 15 de agosto de 2024

5 Gemini Models, Google DeepMind, Acessado em 17 de outubro de 2024

6 Introducing Llama 3.2, Meta, Acessado em 17 de outubro de 2024

7 Meta and Microsoft Introduce the Next Generation of Llama, Meta, 18 de julho de 2023

8 Un Ministral, des Ministraux, Mistral AI, 16 de outubro de 2024

9 Introducing Phi-3: Redefining what’s possible with SLMs, Microsoft, 23 de abril de 2024

10 GPT-4o mini: advancing cost-efficient intelligence, OpenAI, 18 de julho de 2024

11 Gemini Nano, Google DeepMind, Acessado em 21 de outubro de 2024