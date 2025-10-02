Informações principais resumidas:
O lançamento do Granite 4.0 inicia uma nova era para a família de grandes modelos de linguagem prontos para empresas da IBM, aproveitando novos avanços arquitetônicos para duplicar os modelos de linguagem pequenos e eficientes que proporcionam desempenho competitivo com custos e latência reduzidos. Os modelos Granite 4.0 foram desenvolvidos com ênfase particular em tarefas essenciais para fluxos de trabalho agênticos, tanto em implementações independentes quanto como blocos de construção econômicos em sistemas complexos, juntamente com modelos de raciocínio maiores.
A coleção Granite 4.0 abrange vários tamanhos de modelos e estilos de arquitetura para fornecer a produção ideal em uma ampla variedade de restrições de hardware, incluindo:
O Granite 4.0-H Small é um modelo robusto para desempenho econômico em fluxos de trabalho empresariais como agentes multiferramentas e automação do suporte ao cliente. Os modelos Tiny e Micro são projetados para aplicação de baixa latência, de edge e locais, e também podem servir como um bloco de construção dentro de fluxos de trabalho maiores para execução rápida de tarefas importantes, como chamadas de funções.
O desempenho do benchmark Granite 4.0 mostra melhorias substanciais em relação às gerações anteriores (até mesmo os menores modelos Granite 4.0 superam significativamente o Granite 3.3 8B, apesar de terem menos da metade do seu tamanho), mas seu ponto forte mais notável é um aumento considerável na eficiência de inferência. Em relação aos LLMs convencionais, nossos modelos híbridos de Granite 4.0 exigem significativamente menos RAM para serem executados, especialmente para tarefas que envolvem longos comprimentos de contexto (como a ingestão de uma grande base de código ou documentação extensa) e múltiplas sessões ao mesmo tempo (como um agente de atendimento ao cliente lidando com muitos consultas de usuários simultaneamente).
E o mais importante, essa redução drástica nos requisitos de memória do Granite 4.0 implica uma redução igualmente drástica no custo do hardware necessário para executar cargas de trabalho pesadas em altas velocidades de inferência. Nosso objetivo é reduzir barreiras à entrada, fornecendo às empresas e aos desenvolvedores de código aberto acesso econômico a LLMs altamente competitivos.
A priorização da eficiência de inferência prática da IBM em qualquer hardware é acompanhada por nossa ênfase na segurança, na proteção e na transparência de nosso ecossistema de modelos. Após uma extensa auditoria externa de meses de duração do processo de desenvolvimento de IA da IBM, o IBM Granite tornou-se recentemente a única família de modelos de linguagem aberta a obter a certificação ISO 42001,, cumprindo a primeira norma internacional do mundo em termos de responsabilidade, explicabilidade, privacidade de dados e confiabilidade em sistemas de gerenciamento de IA. (AIMS). Essa confiabilidade fundamental é ainda mais reforçada pela nossa recente parceria com a HackerOne em um programa de recompensa de bugs para o Granite, bem como pela nossa nova prática de assinatura criptográfica de todos os pontos de verificação do modelo 4.0 disponíveis no Hugging Face (permitindo que desenvolvedores e empresas garantam a procedência e autenticidade dos modelos).
Parceiros empresariais selecionados, incluindo a EY e Lockheed Martin, receberam acesso antecipado para testar os recursos do Granite 4.0 em escala em casos de uso. O feedback desses parceiros de lançamento antecipado, juntamente com o feedback da comunidade de código aberto, será usado para melhorar e otimizar os modelos para atualizações futuras.
A versão de hoje inclui as variantes Base e Instruct do Micro, Tiny e Small. Tamanhos de modelo adicionais (tanto maiores quanto menores), bem como variantes com compatibilidade com raciocínio explícito, estão planejados para serem lançados até o final de 2025.
Os modelos híbridos Granite 4.0 são significativamente mais rápidos e mais eficientes em termos de memória do que os modelos de tamanho comparável construídos com arquiteturas de transformação padrão. A arquitetura híbrida do Granite 4 combina uma pequena quantidade de camadas de atenção no estilo de transformação padrão com a maioria das camadas do Mamba — mais especificamente, Mamba-2. O Mamba processa as nuances da linguagem de uma maneira totalmente distinta e significativamente mais eficiente do que os modelos de linguagem convencionais.
Os requisitos de memória de GPU dos LLMs são frequentemente relatados em termos de quantidade de RAM necessária apenas para carregar os pesos do modelo. Porém, muitos casos de uso corporativos (especialmente aqueles que envolvem implementação em grande escala, IA agêntica em ambientes complexos ou sistemas RAG) envolvem contexto demorado, inferência em lote de várias instâncias de modelos simultâneas de uma só vez, ou ambos. Em linha com a ênfase da IBM na praticidade empresarial, avaliamos e otimizamos o Granite 4 com foco em contexto longo e sessões simultâneas.
Comparado aos modelos convencionais baseados em transformação, o Granite 4.0-H pode oferecer uma redução de mais de 70% na RAM necessária para lidar com entradas longas e vários lotes simultâneos.
Os modelos híbridos Granite 4.0 são compatíveis com as GPUs AMD Instinct MI-300X, permitindo uma redução ainda maior de sua necessidade de memória.
Os LLMs convencionais enfrentam dificuldades para manter o rendimento à medida que o comprimento do contexto ou o tamanho do lote aumenta. Nossos modelos híbridos continuam acelerando sua saída mesmo com cargas de trabalho em que a maioria dos modelos fica lenta ou excede completamente a capacidade do hardware. Quanto mais você lança sobre eles, mais suas vantagens são aparentes.
A IBM trabalhou com a Qualcomm Technologies, Inc. e a Nexa AI para garantir a compatibilidade dos modelos Granite 4.0 com as NPUs Hexagon 1 para otimizar ainda mais a velocidade de inferência para implementação no dispositivo em smartphones e PCs.
Obviamente, a utilidade real dessas vantagens de eficiência é impulsionada pelo fato de que a qualidade da saída dos modelos Granite 4.0 é competitiva em relação aos modelos em suas respectivas classes de peso ou acima, especialmente em benchmarks que avaliam o desempenho em tarefas-chave da IA agêntica, como seguimento de instruções e chamadas de funções.
Todos os modelos Granite 4.0 oferecem grandes melhorias gerais de desempenho em relação à geração anterior de modelos Granite. Embora a nova arquitetura híbrida do Granite contribua para a eficiência e a eficácia do treinamento de modelos, a maioria das melhorias na precisão do modelo é derivada dos avanços em nossas metodologias de treinamento (e pós-treinamento) e da expansão e refinamento contínuos do corpus de dados de treinamento do Granite. É assim que até o Granite 4.0-Micro, construído sobre uma arquitetura de transformação convencional semelhante à dos modelos Granite anteriores, supera significativamente o Granite 3.3 8B.
Ele se destaca particularmente em tarefas essenciais para casos de uso empresariais e fluxos de trabalho de IA agêntica. Conforme avaliado pelo Stanford HELM, o Granite-4.0-H-Small excede todos os modelos de peso aberto (com a única exceção do Llama 4 Maverick, um modelo de 402 bilhões de parâmetros, mais de 12 vezes seu tamanho) no IFEval, um benchmark amplamente utilizado para avaliar a capacidade de um modelo de seguir instruções explícitas.
Em muitos fluxos de trabalho agênticos, é crucial que as instruções não apenas sejam seguidas de forma confiável, mas também traduzidas com precisão em chamadas de ferramentas eficazes. Para isso, o Granite-4.0-H-Small acompanha modelos muito maiores, abertos e fechados, no benchmark Berkeley Function Calling Leaderboard v3 (BFCLv3). Além disso, consegue isso por um preço incomparável dentro desse conjunto de concorrentes.
O Granite 4.0 também se destaca no MTRAG, um benchmark que mede o desempenho e a confiabilidade em tarefas complexas de geração aumentada de recuperação (RAG) que envolvem múltiplas voltas, perguntas sem resposta, perguntas não independentes e informações que abrangem vários domínios.
Métricas de avaliação adicionais estão disponíveis nos cartões de modelo Hugging Face do Granite 4.0.
Todos os modelos Granite são construídos com base em segurança, proteção e governança responsável em seu núcleo.
No início deste mês, o IBM Granite tornou-se a primeira família de modelos de linguagem aberta a receber credenciamento pela norma ISO/IEC 42001:2023, certificando que o Granite está alinhado com as melhores práticas reconhecidas internacionalmente para uma IA segura e responsável e que o sistema de gerenciamento de IA da IBM (AIMS) atende aos níveis mais altos de escrutínio. Com os modelos Granite 4.0, as organizações podem construir com confiança, mesmo em contextos de alto risco, como setores altamente regulamentados e ambientes de implementação de missão crítica.
Como todos os modelos Granite, os modelos Granite 4.0 foram treinados inteiramente com dados selecionados, adquiridos de forma ética e limpos pela empresa. Refletindo nossa total confiança na confiabilidade de nossos modelos, a IBM oferece uma indenização ilimitada para reivindicações de propriedade intelectual de terceiros em relação ao conteúdo gerado pelos modelos Granite quando usados no IBM watsonx.ai.
Indo além dos nossos extensos testes internos e red teaming, a IBM também fez uma parceria recente com a HackerOne para lançar um programa de recompensa de bugs para o Granite, oferecendo até US$ 100 mil para a identificação de quaisquer falhas imprevistas, modos de falha ou vulnerabilidades a jailbreaking e outros ataques adversários. Quaisquer informações inestimáveis descobertas pelos pesquisadores que participam do programa de recompensa de bugs informarão melhorias e atualizações contínuas sobre a segurança de nossos modelos, especialmente por meio da geração de dados sintéticos para melhorar o alinhamento dos modelos.
A IBM está focada na segurança não somente de nossos modelos, mas também da cadeia de distribuição de modelos. Para isso, a IBM iniciou a prática de assinar criptograficamente todos os checkpoints do modelo Granite 4 antes do lançamento: todos os checkpoints do modelo Granite agora são enviados com um arquivo model.sig para permitir a verificação fácil e pública da procedência do modelo Granite para garantir sua integridade e autenticidade .
Apesar de suas muitas vantagens, os modelos de transformação têm uma desvantagem crítica: suas necessidades computacionais escalam quadraticamente com o comprimento da sequência. Se o comprimento do contexto dobrar, o número de cálculos que um modelo de transformação deve executar (e armazenar na memória) quadruplica. Esse "gargalo quadrático" inevitavelmente diminui a velocidade e aumenta o custo à medida que o comprimento do contexto aumenta. Em longos comprimentos de contexto, ele pode esgotar rapidamente a capacidade da RAM até mesmo das GPUs de consumo mais avançadas.
Enquanto os transformadores dependem da autoatenção, oMamba usa um mecanismo de seletividade totalmente distinto que é inerentemente mais eficiente. Os requisitos computacionais do Mamba são escalados linearmente com o comprimento da sequência: quando o contexto dobra, o Mamba executa apenas o dobro (não o quádruplo) dos cálculos. Melhor ainda, os requisitos de memória do Mamba permanecem constantes, independentemente do comprimento da sequência. Quanto mais trabalho você lança em um modelo Mamba, maiores são suas vantagens em relação aos transformadores.
No entanto, os transformadores e a autoatenção ainda têm algumas vantagens em relação ao Manba e ao Mamba-2, especialmente para o desempenho em tarefas que envolvem aprendizado em contexto (como o prompt few-shot). Felizmente, combinar ambos em um modelo híbrido oferece o melhor dos dois mundos. Para mais insights, reveja nossa prévia do Granite-4.0-Tiny-Preview.
A arquitetura que alimenta o Granite 4.0-H-Micro, o Granite 4.0-H-Tiny e o Granite 4.0-H-Small combina camadas do Mamba-2 e blocos de transformação convencionais sequencialmente em uma proporção de 9:1. Essencialmente, os blocos do Mamba-2 processam eficientemente o contexto global e passam periodicamente essas informações contextuais por meio de um bloco de transformação que fornece uma análise mais matizada do contexto local por meio da autoatenção antes de passá-las para o próximo agrupamento de camadas do Mamba-2.
Vale a pena observar que a maior parte da infraestrutura de serviço de LLMs do mundo foi historicamente adaptada a modelos apenas de transformação. Após nosso lançamento experimental do Granite 4.0-Tiny-Preview no início deste ano, colaboramos extensamente com parceiros do ecossistema para estabelecer a compatibilidade com a arquitetura híbrida Granite 4 em frameworks de inferência, incluindo vLLM, llama.cpp, NexaML e MLX, em preparação para o lançamento de hoje.
O Granite-4.0-H-Tiny e Granite-4.0-H-Small passam a produção de cada bloco do Mamba-2 e de transformação para um bloco de mistura de especialistas (MoE) refinada (cujas especificações mudaram ligeiramente desde Granite 4.0-Tiny-Preview). Embora as MoEs detalhadas tenham sido uma área de pesquisa ativa da IBM desde o lançamento do Granite 3.0 em 2024, o Tiny e o Small são nossas primeiras MoEs a utilizar especialistas compartilhados que estão sempre ativados, o que melhora sua eficiência de parâmetros e permite que outros "especialistas" desenvolvam melhor um conhecimento claramente especializado.
O Granite 4.0-H-Micro utiliza camadas feedforward densas convencionais em vez de blocos de MoE, mas, por outro lado, espelha a arquitetura compartilhada pelo Tiny e Small.
Um dos aspectos mais tentadores dos modelos de linguagem baseados no modelo de espaço de estado (SSM),, como o Mamba, é seu potencial teórico para lidar com sequências infinitamente longas. Todos os modelos Granite 4.0 foram treinados com amostras de dados de até 512 mil tokens de comprimento de contexto. O desempenho foi validado em tarefas que envolvem um comprimento de contexto de até 128 mil tokens, mas, teoricamente, o comprimento do contexto pode se estender ainda mais.
Nos modelos de transformação padrão, a janela de contexto máxima é fundamentalmente restringida pelas limitações da codificação posicional. Como o mecanismo de atenção de um transformador processa todos os tokens de uma só vez, ele não preserva nenhuma informação sobre a ordem dos tokens. A codificação posicional (PE) adiciona essas informações novamente. Algumas pesquisas sugerem que modelos que utilizam técnicas comuns de PE, como codificação de posição rotativa (RoPE), têm dificuldades em sequências mais longas do que aquelas que viram no treinamento.2
A arquitetura do Granite 4.0-H usa nenhuma codificação posicional (NoPE). Simplificando, descobrimos que ele não precisa disso: o Mamba preserva informações sobre a ordem dos tokens de forma inerente, porque os "lê" sequencialmente.
Em suas variadas implementações de arquitetura, todos os modelos Granite 4.0 são treinados com amostras extraídas do mesmo corpus de 22 T tokens cuidadosamente compilado de dados de treinamento voltados para empresas, bem como as mesmas metodologias de pré-treinamento, regime pós-treinamento e modelo de chat.
Granite 4.0 foi pré-treinado em um amplo espectro de amostras selecionadas do DataComp-LM (DCLM), GneissWeb, subconjuntos do TxT360, Wikipedia e outras fontes relevantes para empresas. Ele ainda foi pós-treinado para se destacar em tarefas empresariais, aproveitando conjuntos de dados sintéticos e abertos em domínios como linguagem, código, matemática e raciocínio, multilinguagem, segurança, chamadas de ferramentas, RAG e cibersegurança. Todos os conjuntos de dados de treinamento foram preparados com o framework de código aberto do Data Prep Kit .
Uma mudança notável em relação às gerações anteriores de modelos Granite é a decisão de dividir nossos modelos Granite 4.0 pós-treinados em variantes ajustadas por instrução (lançadas hoje) e de raciocínio separadas (a serem lançadas ainda este ano). Ecoando as descobertas de pesquisas recentes do setor, descobrimos no treinamento que a divisão dos dois resultou em um melhor desempenho na sequência de instruções para os modelos Instruct e melhor desempenho de raciocínio complexo para os modelos Thinking . Isso tem o benefício adicional de simplificar os modelos de chat para ambas as variantes.
No final deste ano, as variantes Base e Instruct dos modelos Granite 4.0 receberão a companhia de seus equivalentes “Thinking”, cujo pós-treinamento para desempenho aprimorado em tarefas complexas orientadas pela lógica está em andamento.
Até o final do ano, planejamos lançar também tamanhos de modelos adicionais, incluindo não apenas o Granite 4.0 Medium, mas também o Granite 4.0 Nano, uma gama de modelos significativamente menores projetados para (entre outras coisas) inferência em edge.
Os modelos Granite 4.0 agora estão disponíveis em um amplo espectro de provedores de plataformas e frameworks de inferência para nós como modelos autônomos rápidos e eficientes de equipamentos de trabalho autônomos e blocos de construção essenciais de fluxos de trabalho conjuntos, juntamente com os principais modelos de grandes fronteiras. Você também pode experimentá-los no Granite Playground.
A nova arquitetura híbrida Granite tem compatibilidade completa e otimizada com o vLLM 0.10.2 e o Hugging Face Transformers. A arquitetura híbrida Granite também é compatível com o llama.cpp e MLX, embora o trabalho para otimizar totalmente a taxa de transferência nesses tempos de execução ainda esteja em andamento. Agradecemos a nossos parceiros do ecossistema pela colaboração e esperamos que nosso trabalho ajude a facilitar novas experimentações com modelos híbridos.
Os modelos Granite 4.0 Instruct já estão disponíveis no IBM watsonx.ai, o estúdio integrado de desenvolvimento de IA da IBM para tornar a implementação de IA simples e escalável. Os modelos Granite 4.0 Instruct também estão disponíveis por meio de parceiros de plataforma, incluindo—alfabeticamente—Dell Technologies (no Dell Pro AI Studio e Dell Enterprise Hub), Docker Hub, Hugging Face, Kaggle, LM Studio, NVIDIA NIM, Ollama, OPAQUE e Replicate. Os modelos de base do Granite 4.0 estão disponíveis por meio do Hugging Face.
Os modelos Granite 4.0 também são compatíveis com o Unsloth para um ajuste fino rápido e eficiente em termos de memória, e podem ser aproveitados no Continue para alimentar assistentes de programação de IA personalizados.
Guias e receitas no Granite Docs podem ajudar você a começar, incluindo tutoriais úteis, tais como:
Acesse tutoriais, insights e recursos do Granite, tudo em um só lugar.
Comece a usar o watsonx.ai e explore os tutoriais práticos e os insights de especialistas do IBM Developer.
Descubra o evento de aprendizado para desenvolvedores e tecnólogos em uma missão.
Acesse uma coleção abrangente de conteúdo relacionado a agentes de IA, como explicações educacionais, tutoriais práticos, episódios de podcasts e muito mais.
Saiba por que a IBM foi reconhecida como líder no Gartner Magic Quadrant de 2025 para plataformas de ciência de dados e aprendizado de máquina.
Explore receitas facilmente consumíveis (notebooks do Python) que mostram os recursos dos modelos Granite.
Modelos de linguagem de código aberto de pequeno porte que oferecem desempenho e transparência de nível empresarial por um preço competitivo.
Coloque a IA em ação na sua empresa com a experiência em IA líder do setor e com o portfólio de soluções da IBM.
Reinvente os fluxos de trabalho e operações críticos adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor de negócios.
Conheça o Granite, nossa família de modelos de IA criados para empresas, projetados a partir do zero para garantir confiança e escalabilidade em aplicações orientadas por IA.
1. Os produtos com a marca Qualcomm são produtos da Qualcomm Technologies, Inc. e/ou de suas subsidiárias. Qualcomm Hexagon é uma marca comercial ou marca registrada da Qualcomm Incorporated.
2. “The Impact of Positional Encoding on Length Generalization in Transformers,” arXiv, 6 de novembro de 2023