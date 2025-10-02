O lançamento do Granite 4.0 inicia uma nova era para a família de grandes modelos de linguagem prontos para empresas da IBM, aproveitando novos avanços arquitetônicos para duplicar os modelos de linguagem pequenos e eficientes que proporcionam desempenho competitivo com custos e latência reduzidos. Os modelos Granite 4.0 foram desenvolvidos com ênfase particular em tarefas essenciais para fluxos de trabalho agênticos, tanto em implementações independentes quanto como blocos de construção econômicos em sistemas complexos, juntamente com modelos de raciocínio maiores.

A coleção Granite 4.0 abrange vários tamanhos de modelos e estilos de arquitetura para fornecer a produção ideal em uma ampla variedade de restrições de hardware, incluindo:

Granite-4.0-H-Small , uma combinação híbrida de modelos de especialistas (MoE) com um total de 32 bilhões de parâmetros (9 bilhões ativos)

Granite-4.0-H-Tiny, uma MoE híbrida com um total de 7 bilhões de parâmetros (1 bilhão de parâmetros ativos)

Granite-4.0-H-Micro, um modelo híbrido denso com 3 bilhões de parâmetros.

Essa versão também inclui o Granite-4.0-Micro, um modelo denso de 3 bilhões de parâmetros com uma arquitetura de transformação convencional orientada por atenção, para acomodar plataformas e comunidades que ainda não são compatíveis com arquiteturas híbridas.

O Granite 4.0-H Small é um modelo robusto para desempenho econômico em fluxos de trabalho empresariais como agentes multiferramentas e automação do suporte ao cliente. Os modelos Tiny e Micro são projetados para aplicação de baixa latência, de edge e locais, e também podem servir como um bloco de construção dentro de fluxos de trabalho maiores para execução rápida de tarefas importantes, como chamadas de funções.

O desempenho do benchmark Granite 4.0 mostra melhorias substanciais em relação às gerações anteriores (até mesmo os menores modelos Granite 4.0 superam significativamente o Granite 3.3 8B, apesar de terem menos da metade do seu tamanho), mas seu ponto forte mais notável é um aumento considerável na eficiência de inferência. Em relação aos LLMs convencionais, nossos modelos híbridos de Granite 4.0 exigem significativamente menos RAM para serem executados, especialmente para tarefas que envolvem longos comprimentos de contexto (como a ingestão de uma grande base de código ou documentação extensa) e múltiplas sessões ao mesmo tempo (como um agente de atendimento ao cliente lidando com muitos consultas de usuários simultaneamente).

E o mais importante, essa redução drástica nos requisitos de memória do Granite 4.0 implica uma redução igualmente drástica no custo do hardware necessário para executar cargas de trabalho pesadas em altas velocidades de inferência. Nosso objetivo é reduzir barreiras à entrada, fornecendo às empresas e aos desenvolvedores de código aberto acesso econômico a LLMs altamente competitivos.