IBM Granite 4.0 Tiny Preview: uma prévia da próxima geração de modelos Granite

Quadrados ilustrando os modelos Granite

Autor

Kate Soule

Director, Technical Product Management, Granite

IBM

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Temos o prazer de apresentar o IBM Granite 4.0 Tiny Preview, uma versão preliminar do menor modelo da futura família de modelos de linguagem Granite 4.0, para a comunidade de código aberto.

O Granite 4.0 Tiny Preview é extremamente compacto e eficiente em termos de computação: com precisão de FP8, várias sessões simultâneas que executam tarefas de contexto longo (128 k) podem ser executadas em hardware de nível de consumidor, incluindo GPUs normalmente disponíveis por menos de USD 350.1

Embora o modelo esteja apenas parcialmente treinado (ele viu apenas 2,5 T de 15 T ou mais tokens de treinamento planejados), ele já oferece desempenho que rivaliza com o do IBM Granite 3.3 2B Instruct, apesar de menos parâmetros ativos e uma redução de aproximadamente 72% nos requisitos de memória.2 Prevemos que o desempenho do Granite 4.0 Tiny esteja no mesmo nível do Granite 3.3 8B Instruct quando o treinamento e pós-treinamento forem concluídos.

Gráfico comparando o desempenho de modelos de linguagem

Como o próprio nome sugere, o Granite 4.0 Tiny estará entre as menores ofertas da família de modelos Granite 4.0. Ele será lançado oficialmente neste verão como parte de uma linha de modelos que também inclui o Granite 4.0 Small e o Granite 4.0 Medium. O Granite 4.0 continua o firme compromisso da IBM de tornar a eficiência e a praticidade a base do desenvolvimento de LLMs empresariais.

Esta versão preliminar do Granite 4.0 Tiny agora está disponível no Hugging Face (embora ainda não recomendemos a versão prévia para uso empresarial) sob uma licença padrão do Apache 2.0. Nossa intenção é permitir que até mesmo desenvolvedores com poucos recursos em GPU experimentem e ajustem o modelo em GPUs de nível de consumidor. A nova arquitetura do modelo tem compatibilidade pendente com transformadores Hugging Face e vLLM, que prevemos que será concluída em breve para ambos os projetos. A compatibilidade oficial para executar esse modelo localmente por meio de parceiros de plataforma, incluindo Ollama e LMStudio, é esperada a tempo para o lançamento completo do modelo no final deste verão.

Desempenho empresarial em hardware de consumo

Os requisitos de memória de LLMs são frequentemente fornecidos, literal e figurativamente, sem o contexto adequado. Não basta saber que um modelo pode ser carregado com sucesso em sua(s) GPU(s): você precisa saber que seu hardware pode lidar com o modelo nos comprimentos de contexto exigidos pelo seu caso de uso.

Além disso, muitos casos de uso empresarial não envolvem uma implementação de modelo único, mas a inferência em lote de várias instâncias simultâneas. Por isso, a IBM trabalha para medir e relatar os requisitos de memória levando em consideração um contexto longo e sessões simultâneas.

Comparação de requisitos de RAM para modelos de linguagem

O Granite 4.0 Tiny é um dos modelos de linguagem mais eficientes em termos de memória disponíveis atualmente. Mesmo em contextos muito longos, várias instâncias simultâneas do Granite 4.0 Tiny podem ser facilmente executadas em uma GPU modesta de consumo.

Uma arquitetura híbrida MoE completamente nova

Enquanto as gerações anteriores de LLMs Granite utilizavam uma arquitetura de transformação convencional, todos os modelos da família Granite 4.0 utilizam uma nova arquitetura híbrida Mamba-2/Transformer, combinando a velocidade e a eficiência do Mamba com a precisão da autoatenção baseada em transformador. Especificamente, o Granite 4.0 Tiny-Preview é um modelo híbrido de combinação de especialistas (MoE), com 7 B de parâmetros no total e apenas 1 B de parâmetros ativos no momento da inferência.

Muitas das inovações que informam a arquitetura do Granite 4 surgiram da colaboração da IBM Research com os criadores originais do Mamba no Bamba, um modelo híbrido de código aberto experimental cujo sucessor (Bam v2) foi lançado no início desta semana.

Uma breve história dos modelos Mamba

O Mamba (PDF) é um tipo de modelo de espaço de estado (SSM), lançado em 2023, cerca de seis anos após a estreia dos transformadores, em 2017.

Os SSMs são conceitualmente semelhantes às redes neurais recorrentes (RNNs), que dominaram o processamento de linguagem natural (NLP) na era pré-transformadores. Eles foram originalmente projetados para prever o próximo estado de uma sequência contínua (como um sinal elétrico) usando apenas informações do estado atual, estado anterior e gama de possibilidades (o espaço de estado). Embora tenham sido usados em vários domínios há décadas, os SSMs compartilham certas limitações com as RNNs que, até recentemente, limitavam seu potencial para modelagem de linguagem.

Ao contrário do mecanismo de autoatenção dos transformadores, os SSMs convencionais não têm capacidade inerente de focar seletivamente ou ignorar partes específicas de informações contextuais. Assim, em 2023, Albert Gu, de Carnegie Mellon, e Tri Dao, de Princeton, introduziram um tipo de rede neural de sequência espacial de estado estruturado ("S4") (PDF) que adiciona um mecanismo de seleção e um método de varredura (para eficiência computacional), abreviado como modelo "S6", que alcançou resultados de modelagem de linguagem competitivos com transformadores. Eles apelidaram seu modelo de "Manba" porque, entre outras razões, todos esses S soam como o silvo de uma cobra.

Em 2024, Gu e Dao lançaram o Mamba-2, uma implementação simplificada e otimizada da arquitetura Mamba. Igualmente importante, seu artigo técnico (PDF) detalhou a compatibilidade entre SSMs e autoatenção.

Mamba-2 versus transformadores

As principais vantagens do Mamba em relação aos modelos baseados em transformadores se concentram na eficiência e na velocidade.

Os transformadores têm um ponto fraco crucial: os requisitos computacionais de autoatenção escalam quadraticamente com o contexto. Em outras palavras, cada vez que o comprimento do contexto dobra, o mecanismo de atenção não usa apenas o dobro dos recursos, ele usa o quádruplo dos recursos. Esse "gargalo quadrático" acelera cada vez mais a velocidade e o desempenho à medida que a janela de contexto (e o cache KV correspondente) cresce.

Por outro lado, as necessidades computacionais do Mamba escalam linearmente: se você dobrar o tamanho de uma sequência de entrada, o Mamba usará apenas o dobro de recursos. Enquanto a autoatenção deve calcular repetidamente a relevância de cada token anterior para cada novo token, o Mamba simplesmente mantém um "resumo" condensado e de tamanho fixo do contexto anterior de tokens anteriores. Conforme o modelo "lê" cada novo token, ele determina a relevância desse token e, em seguida, atualiza (ou não atualiza) o resumo de acordo. Essencialmente, enquanto a autoatenção retém cada bit de informação e depois pondera a influência de cada uma com base em sua relevância, o Manba retém seletivamente apenas as informações relevantes.

Dito isso, o método com uso mais intenso de memória e computacionalmente redundante dos transformadores tem suas próprias vantagens. Por exemplo, a pesquisa mostrou (PDF) que os transformadores ainda superam o Mamba e o Mamba-2 em tarefas que exigem aprendizado no contexto (como prompt few-shot), cópia (PDF) ou raciocínio de contexto longo.

O melhor dos dois mundos

Felizmente, as respectivas forças dos transformadores e do Manba não são mutuamente exclusivas. No próprio artigo original do Mamba-2, os autores Dao e Gu sugerem que um modelo híbrido poderia exceder o desempenho de um transformador puro ou SSM – uma noção validada pela pesquisa da NVIDIA do ano passado (PDF) . Para explorar isso ainda mais, a IBM Research colaborou com os próprios Dao e Gu, juntamente com Minjia Zhang, da University of Illinois em Urbana-Champaign (UIUC), no Bambas e Bamba V2. Por sua vez, o Bamba forneceu informações para muitos dos elementos arquitetônicos do Granite 4.0.

A arquitetura Granite 4.0 MoE emprega nove blocos Mamba para cada bloco de transformador. Basicamente, os mecanismos de seletividade dos blocos Mamba capturam com eficiência o contexto global, que é então passado para blocos de transformação, que permitem uma análise mais matizada do contexto local. O resultado é uma redução drástica no uso de memória e latência sem nenhuma perda aparente no desempenho.

O Granite 4.0 Tiny duplica esses ganhos de eficiência ao implementá-los em um framework compacto e granular de combinação de especialistas (MoE), composto por 7 B de parâmetros no total e 64 especialistas, resultando em 1 B de parâmetros ativos no tempo de inferência. Há mais detalhes disponíveis no cartão do modelo Hugging Face do Granite 4.0 Tiny Preview .

Comprimento de contexto sem restrições

Um dos aspectos mais tentadores dos modelos de linguagem baseados em SSM é a capacidade teórica de lidar com sequências infinitamente longas. Porém, devido a restrições práticas, a palavra "teoria" normalmente faz um trabalho pesado.

Uma dessas restrições, especialmente para modelos SSM híbridos, vem da codificação posicional (PE) usada para representar informações sobre a ordem das palavras. A PE adiciona etapas computacionais, e pesquisas mostraram que modelos que usam técnicas de PE, como codificação de posição rotativa (RoPE), têm dificuldade em generalizar para sequências mais longas do que o que viram no treinamento.3

A arquitetura do Granite 4.0 não usa codificação posicional (NoPE). Nossos testes demonstram de forma convincente que isso não teve efeito adverso no desempenho de contexto longo. Atualmente, já validamos o desempenho de contexto longo do Tiny Preview para pelo menos 128 k tokens, e esperamos validar um desempenho semelhante em comprimentos de contexto significativamente mais longos até que o modelo tenha concluído o treinamento e pós-treinamento. Vale a pena observar que um dos principais desafios na validação definitiva do desempenho em tarefas no contexto do contexto de um milhão de tokens é a escassez de conjuntos de dados adequados.

A outra restrição prática ao comprimento do contexto do Manba é a computação. O escalonamento linear é melhor do que o escalonamento quadrático, mas ainda assim eventualmente cresce. Aqui também, o Granite 4.0 Tiny tem duas vantagens principais:

  • Ao contrário da PE, a NoPE não adiciona nenhum fardo computacional adicional ao mecanismo de atenção nas camadas do transformador do modelo.
  • O Granite 4.0 Tiny é extremamente compacto e eficiente, deixando muito espaço de hardware para escalonamento linear. 

Simplificando, a própria arquitetura MoE do Granite 4.0 não impõe restrições ao comprimento do contexto. Ele pode ir até onde seu hardware permitir.

O que vai acontecer em seguida

Estamos entusiasmados em continuar o pré-treinamento do Granite 4.0 Tiny, vendo resultados tão promissores tão cedo no processo. Também estamos animados em aplicar nossos aprendizados do pós-treinamento do Granite 3.3, especialmente no que diz respeito aos recursos de raciocínio e acompanhamento de instruções complexas, aos novos modelos. Assim como seus antecessores no Granite 3.2 e Granite 3.3, o Granite 4.0 Tiny Preview oferece a funcionalidade depensando ativado epensando desativado alternável (embora seu pós-treinamento focado em raciocínio esteja muito incompleto).

Mais informações sobre novos desenvolvimentos da Granite Series serão apresentadas no IBM Think 2025, bem como nas semanas e meses seguintes.

Confira o Granite 4.0 Tiny Preview no Hugging Face →

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

Soluções relacionadas
IBM Granite

Obtenha mais de 90% de economia de custos com os modelos menores e abertos do Granite, projetados para a eficiência do desenvolvedor. Esses modelos prontos para uso corporativo oferecem um desempenho excepcional em relação aos benchmarks de segurança e em uma ampla variedade de tarefas corporativas, da cibersegurança a RAG.

Explore Granite
Soluções de inteligência artificial

Coloque a IA em ação na sua empresa com a experiência em IA líder do setor e com o portfólio de soluções da IBM.

Explore as soluções de IA
Consultoria e serviços de IA

Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.

Explore os serviços de IA
Dê o próximo passo

Explore a biblioteca da IBM de modelos de base no portfólio do IBM® watsonx para escalar a IA generativa para os seus negócios com confiança.

Conheça o watsonx.ai Conheça os modelos de IA do IBM® Granite
Notas de rodapé

1. Por exemplo, o consumo teórico de RAM para cinco sessões simultâneas com até 128 k de comprimento de contexto é adequado para uma GPU NVIDIA GeForce RTX 3060 com 12 GB de RAM, que, em 29 de abril de 2025, custa a partir de USD 329. (Fonte: NVIDIA).
2. Redução de memória calculada com base no comprimento de contexto de 128 k e 16 sessões simultâneas.
3. "The Impact of Positional Encoding on Length Generalization in Transformers" (PDF), arXiv, 6 de novembro de 2023