Retângulos tridimensionais abstratos

Uma lista de grandes modelos de linguagem (LLMs)

Uma lista de LLMs

Os grandes modelos de linguagem (LLMs) se tornaram a base do desenvolvimento da inteligência artificial moderna. Eles começaram e agora definem a era da IA generativa, desde aplicações simples de chatbot até engenharia agêntica e outros fluxos de trabalho automatizados complexos impulsionados por agentes de IA. Seu advento marcou um ponto de inflexão fundamental na história do aprendizado de máquina.

À medida que a tecnologia amadurece, novos LLMs continuam surgindo. Os principais desenvolvedores de IA, novas startups e grandes empresas consolidadas estão constantemente lançando e aprimorando novos modelos. Enquanto isso, a comunidade de código aberto está constantemente ajustando os LLMs de código aberto, mesclando e modificando modelos existentes em conjuntos de dados personalizados para criar infinitas variantes. Dessa forma, nenhuma lista de LLMs poderia razoavelmente ser exaustiva e mesmo a lista mais "exaustiva" não permaneceria assim por muito tempo.

A seguir, apresentamos uma lista de alguns dos LLMs mais importantes e de melhor desempenho disponíveis atualmente. Veja a seguir alguns pontos a serem observados:

  • A lista prioriza modelos que estão sendo ativamente suportados e atualizados por seus desenvolvedores e mantêm um desempenho pelo menos nominalmente competitivo. Isso exclui uma série de modelos de base historicamente influentes, como o T5 do Google, o GPT-3 da OpenAI ou o Llama 2 da Meta, alguns dos quais continuam a ser usados para fins de pesquisa.

Para fins práticos, os LLMs geralmente podem ser divididos em duas categories: LLMs de código fechado , disponíveis exclusivamente como ofertas comerciais pelo desenvolvedor do modelo, e modelos abertos, que são disponibilizados sem custo.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA 


Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think. 

LLMs de código fechado

Um modelo de código fechado, ou proprietário, só pode ser acessado diretamente na plataforma do desenvolvedor do modelo, em outras plataformas para as quais ele tenha licença ou por meio da API proprietária do provedor do modelo.

Como os desenvolvedores de modelos fechados geralmente tratam seus detalhes técnicos como segredos comerciais bem guardados, normalmente é impossível saber com certeza as especificidades do tamanho, da arquitetura das redes neurais ou do processo de treinamento de um modelo fechado. Alguns detalhes podem ser inferidos, por exemplo, comparando a velocidade de inferência, o uso de memória da GPU e o desempenho em benchmark de um modelo fechado com os modelos abertos cujos detalhes são divulgados publicamente, mas raramente, ou nunca, são confirmados.

Aproximadamente desde 2022, a maioria dos modelos de ponta em um dado momento tem sido de código fechado, mas isso reflete, em grande parte, circunstâncias históricas reais do setor, e não alguma superioridade inerente dos modelos fechados em relação aos modelos abertos. A seguir, apresentamos algumas das séries de modelos fechados mais notáveis, em ordem alfabética.

Claude (Anthropic)

Os modelos de linguagem Claude da Anthropic estão entre os de melhor desempenho do mundo. Originalmente fundada como um laboratório de pesquisa de segurança de IA em 2021 por ex-funcionários da OpenAI, a abordagem da Anthropic para o desenvolvimento de modelos é construída em torno do conceito único de IA constitucional. A “Constituição” do Claude é um documento que serve não apenas para orientar a conduta dos funcionários da Anthropic, mas também a conduta (e a criação de dados de treinamento sintéticos) dos próprios modelos do Claude.

Desde o Claude 3, gerações sucessivas do Claude apresentam modelos multimodais em três tamanhos diferentes:

  • Os Claude Haiku são os menores modelos da Anthropic, otimizados para velocidade e economia. Ao contrário do Sonnet e do Opus, os modelos Haiku não são modelos de raciocínio: a menos que sejam explicitamente solicitados a fazê-lo, os modelos Haiku não produzem rastros de raciocínio do tipo chain-of-thought (CoT).
  • Os Claude Sonnet são modelos de médio porte da Anthropic, voltados para o que a Anthropic considera ser o equilíbrio ideal entre desempenho e eficiência para a maioria dos casos de uso. Tanto o Sonnet quanto o Opus são modelos de raciocínio híbrido, o que significa que podem ser configurados para realizar inferência padrão ou raciocínio adaptativo CoT para resolução complexa de problemas em múltiplas etapas.
  • Os Claude Opus são os maiores e mais poderosos modelos da Anthropic, projetados para alcançar desempenho de ponta em tarefas desafiadoras.

O Claude Haiku, o Sonnet e o Opus podem processar entradas de texto, áudio e imagem, além de produzir texto ou áudio (como conversão de texto em fala). Historicamente, ao contrário da maioria de seus concorrentes de modelo fechado, eles (e a plataforma Claude que eles impulsionam) não eram capazes de gerar imagens, mas a partir de 12 de março de 2026, o Claude agora pode gerar imagens. Ao acessar os modelos por meio da API do Claude, os usuários podem definir o “nível de esforço” do processo de raciocínio do Sonnet ou Opus para “máximo”, “alto”, “médio”, “baixo” ou “adaptativo”.

Gemini (Google)

O Gemini é a série de modelo de linguagem fechado do Google, desenvolvida por sua subsidiária Google DeepMind e lançada pela primeira vez em dezembro de 2023. Vale a pena notar que o Google Brain (que se fundiu com o DeepMind para formar o Google DeepMind em 2023) é responsável pela criação da arquitetura do modelo transformer que permitiu os primeiros LLMs e publicou o artigo de pesquisa "Attention is All You Need" em 2017 .

Desde o início de 2025, o Google lançou toda a geração de modelos Gemini com três tamanhos diferentes, todos modelos de raciocínio. Quando acessados por meio da API do Gemini, os usuários podem selecionar um dos vários "níveis de pensamento" para personalizar a quantidade de tokens e o tempo que o modelo gastará antes de gerar uma saída final.

  • Os modelos Gemini Pro são os maiores e mais modernos LLMs do Google.

  • Os modelos Gemini Flash, em comparação com o Gemini Pro, são otimizados para velocidade.

  • Os modelos Gemini Flash-Lite são rápidos, econômicos e otimizados para tarefas de alto volume, como tradução e uso de ferramentas agênticas.

Os modelos Gemini Pro, Flash e Flash-Lite são multimodais por natureza: podem processar entradas de texto, áudio, imagem ou vídeo e gerar saídas de texto. Quando acessadas por meio da plataforma Gemini, as saídas multimodais podem ser geradas por meio dos modelos especializados e separados do Gemini para geração de imagens, geração de vídeo ou geração de música.

Desde o lançamento do Gemini 2.5 Pro em março de 2025, que alcançou o melhor desempenho do setor na maioria dos benchmarks acadêmicos, os modelos Gemini têm competido com Claude e a série GPT da OpenAI como os LLMs de melhor desempenho do mundo. De modo geral, o status de modelo "top" muda de mãos cada vez que um novo modelo de ponta em uma dessas três séries é lançado.

Grok (xAI)

Grok é uma família de LLMs proprietários produzidos pela xAI, lançados inicialmente em versão beta como um chatbot no X (antigo Twitter) em novembro de 2023. Em abril de 2025, a xAI lançou o acesso à API para o Grok 3, que na época era seu modelo mais recente e principal.

A linha de modelos Grok continuou mudando ao longo de sucessivas gerações de lançamentos de modelos.

  • O Grok 2 foi acompanhado pelo Grok 2 Mini, a primeira variante da família de modelos baseada em tamanho. Essa mesma convenção foi repetida para o Grok 3 em fevereiro de 2025.

  • A quarta geração de modelos Grok foi lançada com o Grok 4 e o Grok 4 Heavy em julho de 2025. No outono de 2025, eles foram seguidos pelo Grok 4 Fast e, em seguida, pelo Grok 4.1 (disponível nas configurações Thinking e Non-thinking).

  • Em agosto de 2025, a xAI lançou o Grok Code Fast 1, modelo focado em eficiência otimizado para programação agêntica.

A partir do Grok 4, os modelos Grok podem processar inputs de texto, imagem e fala. Embora os LLMs Grok não possam fornecer saídas multimodais, as saídas de imagem e vídeo podem ser geradas pelo modelo Aurora da xAI por meio de sua plataforma Grok Imagine.

Independentemente do seu desempenho bruto, grande parte da história do Grok (e particularmente a do chatbot Grok) tem sido marcada por controvérsias, como acusações de disseminação de desinformação eleitoral, inserção de pontos de vista polarizados em conversas não relacionadas e perpetuação de estereótipos prejudiciais.

Versões de código aberto

Em declarações públicas, o CEO da xAI, Elon Musk, afirmou: "nossa abordagem geral é disponibilizar em código aberto a versão anterior quando a próxima versão estiver totalmente lançada".1

A xAI disponibilizou o código aberto do Grok 1 sob licença Apache 2.0 em março de 2024. Embora o Grok 3 tenha sido lançado em fevereiro de 2025, o próximo lançamento de código aberto de um modelo Grok não ocorreu até agosto de 2025. De forma confusa, a xAI (e Musk) anunciou que tinham o "Grok 2.5" de código aberto, 2 embora nenhum modelo tivesse sido nomeado nem anunciado como tal antes dessa declaração. O próprio cartão do modelo Hugging Face se refere ao modelo como "Grok-2".

Naquele anúncio de agosto de 2025, Musk indicou que o Grok 3 também seria disponibilizado como código aberto em "cerca de 6 meses". 8 meses depois, a data de lançamento da versão de código aberto ainda não foi anunciada.

GPT (OpenAI)

A série GPT da OpenAI – abreviação de Generative Pretrained Transformer – é amplamente reconhecida por dar início a era atual da IA generativa, particularmente após o lançamento do ChatGPT em 2022 com seu modelo GPT-3.5.

As convenções da OpenAI para nomenclatura de modelos e variantes mudaram significativamente desde 2022, muitas vezes de forma confusa. Por exemplo, o GPT-4.1 foi lançado após o GPT-4.5, e o modelo de raciocínio o4 estava disponível ao mesmo tempo que o modelo multimodal sem capacidade de raciocínio GPT-4o, que era totalmente distinto do modelo de raciocínio "o4", cujo desempenho era inferior ao do "o3". No início de 2025, o CEO da OpenAI, Sam Altman, reconheceu: “Percebemos o quão complicadas nossas ofertas de modelos e produtos se tornaram”.

Desde o lançamento do GPT-5 em agosto de 2025, as ofertas consolidadas de LLMs da empresa agora incluem:

  • O GPT-5.x é a principal oferta de uso geral da OpenAI. Em março de 2026, a versão mais recente do modelo é o GPT-5.4. Embora todos os modelos GPT-5 sejam modelos de raciocínio, o GPT-5.4 também está disponível em uma variante GPT-5.4 Pro , que “usa mais poder computacional para pensar de forma mais complexa e fornecer respostas consistentemente melhores.”3 A OpenAI também oferece o GPT-5 Codex, uma versão do GPT-5 ajustada para a geração de código agêntico ideal (que é atualizada periodicamente conforme as versões atualizadas do modelo central).
  • O GPT-5 mini oferece "inteligência quase de ponta para cargas de trabalho sensíveis aos custos, de baixa latência e alto volume", de acordo com as visões gerais do modelo da OpenAI.
  • O GPT-5 nano é a "versão mais rápida e econômica do GPT-5".

A OpenAI também lançou dois modelos GPT de pesos abertos, que são detalhados na seção "Modelos abertos" deste artigo.

IA Mistral

A Mistral AI, empresa sediada na França e fundada por ex-funcionários da Meta AI e do Google DeepMind, dedicou-se inicialmente apenas a modelos de código aberto após o lançamento de seu primeiro modelo (Mistral 7B) em setembro de 2023. Desde então, a Mistral fez a transição para um modelo misto, no qual muitas de suas ofertas têm lançamentos abertos, mas os modelos de ponta mais selecionados permanecem de código fechado.

Em março de 2026, os principais LLMs proprietários da Mistral IA incluem:

  • Mistral Medium 3.1, um modelo multimodal de uso geral lançado em agosto de 2025.

  • Codestral, um modelo focado em programação "desenvolvido especificamente para preenchimento de lacunas no meio do código (fill-in-the-middle, FIM) com alta precisão."4

  • Magistral Medium 1.2, um modelo de raciocínio complementar ao Mistral Medium.

As ofertas de modelos de pesos abertos da Mistral são detalhadas posteriormente neste artigo.

AI Academy

Por que os modelos de base são uma mudança de paradigma para a IA

Aprenda sobre uma nova classe de modelos de IA flexíveis e reutilizáveis que podem liberar novas receitas, reduzir custos e aumentar a produtividade, e utilize o nosso guia para se aprofundar.

LLMs de código aberto

No aprendizado de máquina, código aberto é usado coloquialmente para se referir a ferramentas de IA cujo código-fonte é disponibilizado gratuitamente, mas o termo é, na verdade, uma designação formal administrada pela Open Source Initiative (OSI). A OSI só certifica uma determinada licença de software como "aprovada pela Open Source Initiative" se considerar que essa licença atende aos dez requisitos listados na Open Source Definition (OSD).

A maioria dos modelos de "código aberto" não atende a todos esses requisitos. Sendo assim, o termo modelo aberto (ou modelo de peso aberto) refere-se mais precisamente a qualquer LLM distribuído livremente. Dentro do espectro dos modelos abertos, há uma grande variabilidade. Um modelo de peso aberto (mas não de código aberto) pode ser usado para executar inferência e pode até ser ajustado com precisão – porém, se o seu código-fonte completo não for fornecido, ele não poderá ser modificado além de alterações nos valores de seus pesos por meio de ajuste fino. A licença pode proibir o uso do modelo em alguns cenários (como em ambientes comerciais) ou impor outras estipulações específicas à sua aplicação.

Um modelo verdadeiro de código aberto lançado com código de treinamento e uma descrição de seus procedimentos de treinamento, por outro lado, pode ser totalmente modificado e usado sem restrições. As licenças de código aberto mais comuns e padronizadas são a licença Apache 2.0 e a licença MIT. No entanto, vale a pena observar que, a menos que o desenvolvedor de um modelo de código aberto forneça os detalhes de seus dados de treinamento, o modelo em si não é totalmente reproduzível.

As versões de código aberto são essenciais para o desenvolvimento e a melhoria contínuas dos LLMs e são em grande parte responsáveis por viabilizar sua invenção. Os modelos abertos normalmente podem ser acessados por meio de seu desenvolvedor de modelos ou por meio de plataformas de código aberto populares, como GitHub ou Hugging Face. Confira a seguir uma lista de séries relevantes de modelos abertos, organizadas em ordem alfabética.

Cohere

A Cohere, uma empresa sediada no Canadá cujos fundadores incluem um dos autores de "Attention is All You Need", foi lançada em 2019. Embora a empresa divulgue relatórios técnicos detalhados para cada LLM e os libere ostensivamente como modelos de pesos abertos, a Cohere licencia seus lançamentos abertos sob uma versão modificada da licença Creative Commons 4.0 que proíbe o uso comercial.

Command

O Command é a principal série de modelos de base da Cohere, projetado para casos de uso corporativo.

  • O Command R foi a primeira geração de modelos empresariais da Cohere, lançada em março de 2024 com um modelo de 35 bilhões de parâmetros com ênfase em RAG e uso de ferramentas. Seu lançamento foi logo seguido pelo Command R+, uma variante de 104B, no mês seguinte. Em dezembro, juntou-se a eles o modelo menor Command R7B.

  • O Command A, a segunda geração de modelos empresariais da Cohere, foi lançado em março de 2025 com foco em tarefas de negócios, STEM (Ciência, Tecnologia, Engenharia e Matemática) e programação. O modelo original de 111B foi eventualmente lançado em variantes, incluindo Command A Reasoning, Command A Translate (ajustado para otimizar o desempenho da tradução em 23 idiomas) e Command A Vision, um modelo de linguagem de visão (VLM) que combinou o LLM com um codificador de visão.

Em um comentário no Reddit em março de 2026, o CEO da Cohere, Aidan Gomez, indicou que a empresa estava desenvolvendo ativamente a última geração do Command e que esses seriam os primeiros modelos de mixture of experts (MoE) da organização.

Aya

O Aya é a série de modelos com foco multilíngue da Cohere, lançada pela primeira vez em fevereiro de 2024 com o Aya 101, que, como o próprio nome sugere, era "capaz de seguir instruções em 101 idiomas".

  • O Aya Vision é um VLM multimodal e multilíngue, oferecido em variantes de 8B e 32B, com recursos em 23 idiomas diferentes.

  • O Tiny Aya, lançado em fevereiro de 2026, é uma série de modelos multilíngues leves com 3,35B de parâmetros. O Tiny Aya-Base é um modelo pré-treinado compatível com mais de 70 idiomas. Já, o TinyAya-Global é seu equivalente ajustado para instruções, compatível com 67 idiomas.

  • A versão do Tiny Aya também continha variantes regionais especializadas. O TinyAya-Earth é otimizado para línguas africanas e da Ásia Ocidental; o TinyAya-Fire é otimizado para línguas do sul da Ásia e o TinyAya-Water é otimizado para línguas europeias e da Ásia-Pacífico.

DeepSeek

A DeepSeek é um player fundamental no ecossistema de código aberto, contribuindo com diversas inovações para arquiteturas de LLM e processos de treinamento. Em alguns momentos, o desempenho de seus modelos rivalizou com os melhores modelos fechados. Seus LLMs — tanto os pesos quanto o código — são de código aberto sob uma licença MIT padrão. A DeepSeek também publica frequentemente artigos técnicos detalhando suas descobertas e técnicas.

  • O DeepSeek-V3 é um modelo MoE de grande porte, com 671B de parâmetros no total (e 37B de parâmetros ativos durante a inferência), lançado no final de 2024. O modelo é frequentemente creditado por trazer a arquitetura de mixture of experts de volta ao centro das atenções.

  • O DeepSeek-R1 é um modelo de raciocínio, construído através do ajuste fino do DeepSeek-V3 usando técnicas de aprendizado por reforço inovadoras. O DeepSeek-R1 foi um marco na história dos LLMs de código aberto. Ele não apenas rivalizou com o desempenho do modelo o1 da OpenAI, até então incomparável, mas forneceu um artigo técnico com todos os detalhes da metodologia de treinamento da DeepSeek. Seu lançamento inspirou diretamente a primeira geração de modelos de raciocínio aberto.

  • O DeepSeek-V3.1, lançado em agosto de 2025, é um modelo de raciocínio híbrido, configurável para executar tanto inferência padrão quanto raciocínio CoT. Em essência, ele combinou o DeepSeek-V3 e o DeepSeek-R1 em um único modelo. Foi atualizado mais recentemente como DeepSeek-V3.2 em outubro de 2025. Tanto o DeepSeek-V3.1 quanto o DeepSeek-V3.2 mantêm a arquitetura MoE 671B-37B do modelo original.

  • A DeepSeek também lançou vários modelos “DeepSeek-R1-Distill,” criados através do ajuste fino de modelos menores do Qwen e do Llama para emular o DeepSeek-R1 por meio da destilação de conhecimento.

Apesar dos rumores periódicos de um DeepSeek-V4 (ou "DeepSeek-R2") iminente, seus lançamentos ainda não se concretizaram.

Falcon (TII)

A série Falcon de LLMs é desenvolvida pelo Technology Innovation Institute (TII) dos Emirados Árabes Unidos. Embora a primeira geração de modelos do TII em 2023 tenha sido talvez mais notável para o Falcon-180B, que na época era um dos maiores modelos de código aberto disponíveis, o TII desde então se concentrou em modelos menores. O Falcon2 tinha 11B de parâmetros e o Falcon3, os primeiros modelos multimodais da TII (lançados em dezembro de 2024), variavam de 1B a 10B.

As gerações mais recentes de modelos Falcon têm se concentrado em modelos híbridos Mamba-Transformer.

  • O Falcon-H1, lançado em maio de 2025, inclui modelos híbridos pré-treinados e ajustados por instruções nas variantes 0,5B, 1,5B, 3B, 7B e 34B. O Falcon-H1R, lançado em janeiro de 2026, é uma variante de raciocínio do Falcon-H1-7B.

  • O Falcon-H1-Tiny é, como o próprio nome sugere, uma variante extremamente pequena do Falcon-H1, com parâmetros de 90M, 100M e 0,6B. Cada tamanho é oferecido como modelos básicos e como variantes especializadas ajustadas para casos de uso específicos.

  • Os modelos Falcon-Edge são uma família de LLMs experimentais de 1 bit ("BitNet") nos tamanhos de 1B e 3B.

Os modelos Falcon são lançados sob uma licença proprietária Falcon que se inspira no framework Apache 2.0, mas inclui outras estipulações e restrições.

Gemma (Google)

O Gemma é a família de modelos abertos do Google. Segundo o Google, os modelos Gemma são “construídos com a mesma tecnologia que alimenta os modelos Gemini”.7

  • O Gemma 3, lançado em março de 2025, é a última geração do LLM principal da família Gemma. A versão inicial do Gemma continha variantes pré-treinadas e ajustadas por instruções nos tamanhos de 1B, 4B, 12B e 27B. Em agosto de 2025, o Google adicionou uma variante menor com 270M de parâmetros. Os modelos Gemma 3 podem processar inputs de texto ou imagem e oferecer suporte multilíngue para mais de 140 idiomas.
  • O Gemma 3n, lançado em julho de 2025, apresenta uma arquitetura experimental do MatFormer que, essencialmente, permite que qualquer número de modelos menores e de tamanho personalizado sejam "aninhados" dentro de um único modelo maior. A arquitetura recebeu o nome em homenagem às bonecas russas aninhadas, também chamadas de "Matryoshka" — daí o nome MatFormer. O Gemma 3n é oferecido em tamanhos nominais de parâmetros de 2B e 4B e suporta inputs de texto, imagem, vídeo ou áudio (mas saídas somente de texto).

  • O FunctionGemma é uma variante do Gemma 3 270M otimizada para uso com ferramentas (ou "chamada de função", daí o nome).

Os modelos Gemma são distribuídos sob a licença Gemma, cujos termos de uso são semelhantes aos da licença Apache 2.0, mas são regidos pelas Políticas de uso proibido do Gemma.

GLM (Z.ai)

O GLM é uma família de LLMs da Z.ai (também chamada de Zhipu AI) sediada em Pequim, que busca um desempenho de última geração. A empresa obteve um avanço com o GLM-4.5, que, após seu lançamento inicial no final de julho de 2025, rivalizava ostensivamente com os principais modelos abertos do mundo, incluindo os principais modelos do DeepSeek e do Qwen, em benchmarks acadêmicos.

  • O GLM-4.5 foi disponibilizado em dois tamanhos de modelo: o LLM principal, um modelo MoE de grande escala com 355B de parâmetros totais (32B ativos), e o menor GLM-4.5-Air (com 106B de parâmetros totais, 12B ativos). O GLM-4.5V é um VLM, baseado no modelo de base GLM-4.5-Air, que adiciona recursos de visão computacional e compreensão de vídeo.

  • O GLM-4.6, uma versão atualizada do GLM-4.5 lançada em 30 de setembro de 2025, não incluiu uma variante menor somente de texto. No entanto, no início de dezembro, a empresa lançou o GLM-4.6V (uma atualização do GLM-4.5V) e o GLM-4.6V-Flash, um modelo denso de 9B.

  • O GLM-4.7, uma atualização do modelo principal somente de texto lançado no final de dezembro de 2025, adicionou o GLM-4.7-Flash, um LLM significativamente menor, com apenas 30B de parâmetros totais (e 3B de parâmetros ativos).

  • O GLM-5, lançado em fevereiro de 2026, é significativamente maior do que seus antecessores, com 744B de parâmetros totais (40B) ativos.

Granite (IBM)

O IBM Granite é uma série de LLMs de código aberto otimizados para casos de uso corporativo, com foco principalmente em modelos pequenos, práticos e eficientes. Lançado pela primeira vez em setembro de 2023, o Granite ganhou destaque com o lançamento do Granite 3.0 em outubro de 2024, que fez com que a série Granite alcançasse um desempenho que rivalizava com os principais modelos abertos de tamanho comparável.

O Granite 4, lançado em outubro de 2025, introduziu uma nova arquitetura híbrida Mamba2-Transformer para velocidade e eficiência de memória superiores, especialmente sob grandes cargas de trabalho, em comparação com os modelos de transformação convencionais.

  • O Granite 4-H Small é um modelo MoE híbrido com 32B de parâmetros totais (9B ativos). O Granite 4 também inclui outro MoE híbrido, o Granite 4-H Tiny, com parâmetros totais de 7B (1B ativo), e um modelo híbrido denso, o Granite 4-H Micro, com parâmetros ativos de 3B.

  • O Granite 4 Micro é um modelo denso de 3B de parâmetros construído em uma arquitetura de modelo de transformação convencional, ao contrário dos modelos 4-H.

  • O Granite 4 Nano é uma série de modelos híbridos Mamba-transformer convencional em tamanhos que variam de 350M de parâmetros a 1B de parâmetros.

  • O Granite 4 1B-Speech é um modelo de speech to text projetado para reconhecimento automático de fala (ASR) e tradução automática de fala bidirecional (AST).

Todos os modelos Granite são de código aberto sob uma licença Apache 2.0 padrão e treinados com dados seguros para empresas. Em outubro de 2025, a série Granite se tornou a primeira grande família de modelos abertos a receber a certificação ISO-42001.

GPT-OSS (OpenAI)

Os GPT-OSS são modelos de linguagem de pesos abertos da OpenAI, lançados em agosto de 2025 sob uma licença Apache 2.0 padrão. São os primeiros LLMs abertos da empresa desde o lançamento do GPT-2 em 2019.

  • O GPT-OSS-120B é um modelo MoE com 117B de parâmetros no total (5,1B ativos), projetado para uso geral e tarefas que se beneficiam de um raciocínio de alto nível.

  • O GPT-OSS-20B é um modelo MoE com 21B de parâmetros (3,6B ativos) destinado ao uso de baixa latência e à implementação local.

Ambos os modelos GPT-OSS foram treinados com quantização de 4 bits de seus pesos, aumentando significativamente a velocidade e reduzindo os requisitos de memória em relação aos modelos convencionais de tamanho semelhante.

Kimi (Moonshot AI)

O Kimi é uma série de modelos abertos desenvolvidos pela Moonshot AI, sediada em Pequim.

  • O Kimi-K2 é um modelo MoE massivo, somente de texto, com 1 trilhão de parâmetros totais (32B ativos). Ele alcançou notoriedade significativa após seu lançamento em julho de 2025 por rivalizar e (às vezes superar) os modelos GPT-4.1 e Claude Opus 4 nos principais benchmarks de programação.

  • O Kimi-K2 Thinking, a variante do modelo de raciocínio do Kimi-K2, também causou alvoroço por mais uma vez rivalizar com os principais modelos fechados em benchmarks desafiadores de IA agêntica.

  • Kimi-K2.5 é uma atualização do Kimi-K2 que adiciona recursos de visão multimodal. Ele pode ser operado em vários "modos", cada um otimizado para casos de uso específicos.

Os modelos Kimi são lançados sob uma licença MIT modificada, que exige que os usuários "exibam em destaque 'Kimi K2' na interface do usuário" de qualquer produto com mais de 100 milhões de usuários ativos mensais ou mais de US$ 20 milhões em receita mensal.

Llama (Meta)

Os modelos Llama da Meta (originalmente escritos como LLaMA, abreviação de “Large Language model Meta AI”) têm sido parte integrante da história dos LLMs abertos. Os primeiros lançamentos do Llama ajudaram a democratizar as metodologias do LLM, informando e influenciando fortemente muitas convenções padrão do desenvolvimento do LLM, desde o treinamento até as variações de arquitetura e dimensionamento.

  • O Llama 2, lançado em julho de 2023, foi lançado nos tamanhos de 7B, 13B e 70B.

  • O Llama 3, lançado em abril de 2024 nos tamanhos 8B e 70B, competiu com muitos dos principais modelos fechados em benchmarks acadêmicos. O Llama 3.1 expandiu significativamente o comprimento do contexto dos modelos e adicionou uma variante de 405B, sem precedentes na época. O Llama 3.2 adicionou variantes menores e recursos de visão, enquanto o Llama 3.3 apresentava um único modelo de 70B cujo desempenho rivalizava com o do Llama 3.1 405B.

  • O Llama 4 apresentava 2 grandes modelos multimodais MoE: Llama 4 Maverick, com 400B de parâmetros totais (17B ativos) e Llama 4 Scout, com 109B de parâmetros totais (19B ativos). Embora seu desempenho tenha excedido significativamente o das gerações anteriores do Llama na maioria dos benchmarks, os modelos Llama 3 continuam sendo os LLMs mais populares da Meta (conforme demonstrado pela quantidade de downloads no Hugging Face).10

Embora a Meta use frequentemente o termo "código aberto", os modelos Llama são lançados sob uma licença Llama personalizada que impõe restrições de uso, atribuição e acesso. A Open Source Initiative, portanto,criticou o uso dos termos pela Meta.

Minimax

O MiniMax Group, sediado em Xangai, lançou seu primeiro LLM homônimo, o MiniMax-Text-01, e um VLM complementar, o MiniMax-VL-01, em janeiro de 2025. Desde então, a empresa ganhou destaque como uma das principais desenvolvedoras de LLM na China, priorizando modelos de grande escala e janelas de contexto longas.

  • O MiniMax-M1, lançado em junho de 2025, é um modelo de raciocínio somente de texto criado a partir do ajuste fino do MiniMax-Text-01. Como seu antecessor, é um modelo MoE grande com 456B de parâmetros totais e 45,9B de parâmetros ativados por token.
  • O MiniMax-M2 oferece desempenho e eficiência superiores em comparação ao M1. Conta com um total de 230B de parâmetros e uma arquitetura MoE mais refinada que ativa apenas 10B de parâmetros por token. Lançado em outubro de 2025, foi atualizado para o MiniMax-M2.1 dois meses depois. A MiniMax também oferece o MiniMax-M2-her, uma versão ajustada para interpretação de personagens.

  • O MiniMax-M2.5 e o MiniMax-M2.5-Lightning, lançados em fevereiro de 2026, alcançam uma otimização de desempenho adicional, rivalizando com o Claude Opus 4.5 em benchmarks de programação selecionados. São idênticos em todos os aspectos, exceto na velocidade e na capacidade de processamento: a variante “Lightning” gera saídas duas vezes mais rápido.

  • O MiniMax-M2.7, lançado em março de 2026, é uma atualização do MiniMax-M2.5 que, segundo a empresa, foi usado para se autoaperfeiçoar.11

Os modelos MiniMax são oferecidos sob uma licença modificada do MIT.

IA Mistral

Além de suas ofertas de código fechado, a Mistral AI oferece uma variedade de modelos abertos bem conceituados. A maioria dos modelos abertos da Mistral (não todos) é lançada sob a licença Apache 2.0 padrão.

  • O Mistral Large 3 utiliza uma arquitetura MoE inspirada no DeepSeek-V3, com um total de 675B de parâmetros (41B ativos). Seu desempenho de benchmark é praticamente equivalente ao do DeepSeek-V3.1 e do Kimi-K2.1.12 Lançado em dezembro de 2025, é multilíngue e multimodal, capaz de processar entradas de texto e imagem.

  • O Ministral 3 é a série de modelos pequenos da Mistral, oferecido nos tamanhos de 3B, 8B e 14B, com variantes base, ajustadas por instruções e voltadas a raciocínio.

  • O Mistral Small 3.2 é um LLM de 24B lançado em junho de 2025. Seu desempenho é comparável ao do Ministral 3 14B mais recente.

  • O Devstral é a série de modelos focados em engenharia agêntica da Mistral. O Devstral 2, lançado em dezembro de 2025, é composto por dois modelos. O Devstral 2 123B foi lançado sob uma licença MIT modificada, exigindo que as organizações com mais de US$ 20 milhões em receita mensal solicitem uma licença comercial da Mistral. O Devstral Small 2 24B foi lançado sob a licença Apache 2.0 padrão.

  • O Mixtral, lançado em dezembro de 2023, é um LLM que originalmente popularizou a combinação de arquitetura especializada para modelos de linguagem. Desde o início de 2026, sua variante 8x7B continua extremamente popular no Hugging Face, com mais de 700.000 downloads mensais.13

Nemotron (NVIDIA)

As séries de LLMs abertas da NVIDIA, um dos principais fabricantes de hardware, são bem vistas por seu desempenho, literatura de pesquisa e inovações arquitetônicas.

  • O NVIDIA-Nemotron-Nano v2 é uma família de modelos híbridos Mamba-2-LLM em tamanhos de 9B e 12B, capazes de raciocínio e inferência padrão. Eles foram lançados em agosto de 2025 sob um Contrato de licença modelo aberto da NVIDIA personalizado, com condições notáveis relativas a responsabilidades legais, uso e o direitos da NVIDIA de fazer modificações futuras ao contrato.

  • O Nemotron 3 Nano, lançado em dezembro de 2025, é composto por dois modelos: Nemotron-3-Nano-4B e Nemotron-3-Nano-30B-A3B, um MoE com 30B de parâmetros totais (3B ativos). Eles foram lançados sob a Licença de modelo aberto NVIDIA Nemotron, que omite o direito da NVIDIA de fazer atualizações futuras unilaterais dos termos.

  • O Nemotron 3 Super é um MoE maior, com 120B de parâmetros totais (12B ativos), lançado em março de 2026.

Olmo (AllenAI)

O Olmo, desenvolvido pelo Allen Institute for AI ("Ai2"), está entre os modelos de código aberto mais verdadeiramente "abertos": o Ai2 normalmente lança todo o código, pesos, pontos de verificação de treinamento e conjuntos de dados associados, juntamente com uma versão padrão do Apache 2.0.

  • O Olmo 3, lançado em novembro de 2025, é composto por modelos transformer densos nos tamanhos de 7B e 32B. Os modelos são lançados nas variantes base, instrução e "pensamento". Em dezembro de 2025, o 32B recebeu uma atualização para a versão Olmo 3.1.
  • Olmo Hybrid, lançado em março de 2026, é um modelo 7B com uma arquitetura híbrida experimental que combina RNNs transformer e linear (baseado na arquitetura Gated DeltaNet popularizada pelo Qwen).

Phi (Microsoft)

Phi é a linha de modelo aberto da Microsoft, historicamente focada em modelos pequenos. Eles são lançados sob a licença MIT padrão.

  • O Phi 4 é um LLM somente de texto de 14B de parâmetros, originalmente lançado em dezembro de 2024.

  • O Phi 4-mini, lançado em fevereiro de 2025, é um modelo menor, de 3,8B.

  • O Phi 4-multimodal, lançado junto com o Phi 4-mini, é compatível com inputs de texto, imagem e fala.

  • O Phi 4-Reasoning-Vision, lançado em março de 2026, é um modelo de 15B que adiciona raciocínio holístico e multimodal em imagens, textos e documentos.

Qwen (Alibaba)

A série Qwen de LLMs, desenvolvida pela Alibaba, tornou-se um dos modelos abertos mais populares do setor. A família de modelos oferece uma ampla variedade de tamanhos, arquitetura e recursos de modelos destinados a atender a uma variedade de necessidades dos desenvolvedores.

  • O Qwen3 inclui modelos transformer densos somente de texto em tamanhos de 0,6B, 1,7B, 4B, 8B, 14B e 32B, bem como MoEs em tamanhos de 30B-A3B e o modelo principal Qwen3-235B-A22B. Todos os modelos Qwen3 são oferecidos em variantes básicas, de pensamento e de instrução.

  • O Qwen3-Next é um MoE experimental somente de texto com 80B de parâmetros (3B ativos) que substitui a atenção padrão por Gated Delta Networks (inspirado no Mamba-2) e Gated Attention.

  • O Qwen3-Omni é um modelo nativamente multimodal construído sobre o Qwen3-30B-A3B, que suporta entradas de texto, imagem, áudio ou vídeo e saídas de texto ou voz.

  • O Qwen3-Coder-Next é uma versão do Qwen3-Next otimizada para geração de código.

  • O Qwen3.5, lançado em fevereiro de 2026, é uma família de modelos multimodais que utiliza a arquitetura introduzida pela primeira vez no Qwen3-Next. Ele compreende modelos de raciocínio básico e híbrido nos tamanhos de 0,8B, 2B, 4B, 9B e 27B, bem como modelos MoE nos tamanhos 35B-A3B, 122B-A10B e o modelo principal 397B-A17B. O Qwen3.5-397B-A17B tem como objetivo competir com os principais modelos Gemini, GPT e Claude em termos de desempenho de ponta.

Autoria

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Soluções relacionadas
IBM Bob

Acelere a entrega de software com o Bob, seu parceiro de IA para desenvolvimento seguro e com reconhecimento de intenção.

Explore o IBM Bob
IBM watsonx Orchestrate

Projete assistentes e agentes de IA escaláveis com facilidade, automatize tarefas repetitivas e simplifique processos complexos com o IBM® watsonx Orchestrate.

Explore o watsonx Orchestrate
Soluções de inteligência artificial

Coloque a IA em ação na sua empresa com a experiência em IA líder do setor e com o portfólio de soluções da IBM.

Explore as soluções de IA
Dê o próximo passo

Onde quer que você esteja no ciclo de vida de desenvolvimento, o Bob tem tudo o que você precisa, apresentando avaliações agênticas com reconhecimento de intenção alinhadas à segurança que aceleram a entrega de software de alta qualidade.

  1. Descubra o IBM Bob
  2. Explore o watsonx Orchestrate
Notas de rodapé

1. “Elon Musk reins in Grok AI bot to stop election misinformation,” The Register, 28 de agosto de 2024
2. “Musk’s xAI chatbot Grok keeps randomly responding about ‘white genocide’ in South Africa,” CNBC, 14 de maio de 2025
3. “Elon Musk’s AI chatbot, Grok, started calling itself ‘MechaHitler’,” NPR, 9 de julho de 2025
4. @MarioNawfal tweet, X (antigo Twitter), 18 de fevereiro 2025
5. “GPT-5.4 pro”, OpenAI, API docs acessado em 12 de março de 2026
6. “Announcing Codestral 25.08 and the Complete Mistral Coding Stack for Enterprise,” Mistral AI, 30 de julho de 2025
7. Gemma, Google DeepMind, acessado em 12 de março 2026
8. “Alibaba-backed Moonshot releases new Kimi AI model that beats ChatGPT, Claude in coding — and it costs less,” CNBC, 14 de julho de 2025
9. “5 Thoughts on Kimi K2 Thinking,” Interconnects, 6 de novembro de 2025
10. Meta Llama: models page (sorted by “Most Downloads”), Hugging Face, acessado em 11 de março 2026
11. “MiniMax M2.7: Early Echoes of Self-Evolution,” MiniMax, 18 de março de 2026
12. “Introducing Mistral 3,” Mistral AI, 2 de dezembro de 2025
13. Mistral AI: models page (sorted by “Most Downloads”), Hugging Face, acessado em 11 de março de 2026