Uma Lista de Modelos de Linguagem Grandes

Autores

Staff Writer

IBM Think

Staff Editor, AI Models

IBM Think

Uma lista de grandes modelos de linguagem

O boom da IA generativa (gen AI) destacou a força motriz por trás dela: os grandes modelos de linguagem (LLMs). Atualmente, já existem dezenas de LLMs, e com o avanço acelerado da tecnologia, surgem cada vez mais modelos de inteligência artificial (IA).

Pense nisso sob a perspectiva do setor automobilístico. Centenas de montadoras ao redor do mundo têm seus próprios modelos voltados para diferentes necessidades dos consumidores. Com o tempo, os carros também evoluíram, passando de automóveis movidos a gasolina para veículos elétricos com diversas funcionalidades inteligentes.

O mesmo se aplica aos LLMs. Esses sistemas de IA surgiram como modelos de base compostos por múltiplas camadas de redes neurais treinadas com enormes volumes de conjuntos de dados.

Esses sistemas aplicam técnicas de deep learning para realizar tarefas de processamento de linguagem natural (NLP) e de compreensão de linguagem natural (NLU). No entanto, seus recursos melhoraram para incluir funções e raciocínio de IA agêntica.

Essa rápida evolução faz com que o cenário dos LLMs esteja em constante transformação. Desenvolvedores de IA precisam atualizar seus modelos continuamente ou até mesmo criar novos para acompanhar o ritmo acelerado.

Embora tarefas de NLP e NLU como resumo de textos, tradução automática, análise de sentimentos e geração de textos continuem fundamentais, desenvolvedores de IA estão adaptando seus modelos para casos de uso específicos.

Por exemplo, alguns LLMs são criados para gerar códigos, enquanto outros são projetados para trabalhar com tarefas de visão e linguagem.

Embora seja impossível listar todos os LLMs existentes, aqui estão alguns dos modelos mais atuais e populares para ajudar as organizações a restringirem suas opções e escolherem o modelo que melhor atende às suas necessidades:

Claude

Desenvolvedora: Anthropic

Data de lançamento: fevereiro de 2025 para Claude 3.7 Sonnet

Número de parâmetros: não divulgado publicamente

Janela de contexto: 200.000 tokens

Licença: Proprietária

Acesso: API antrópica, Amazon Bedrock, Google Nuvem Vértice IA

Input: Multimodal (imagem, texto)

Saída: Texto

Claude é uma família de LLMs baseada em arquitetura de transformação. Esse é o grande modelo por trás do assistente de IA conversacional de mesmo nome. O design do Claude segue princípios de IA constitucional, voltados para a segurança da IA e a redução de comportamentos nocivos, como o viés de IA.

A família Claude consiste em 3 modelos de IA:

● Claude Haiku

● Soneto de Claude

● Claude Opus

Claude Haiku

Claude 3.5 Haiku é o modelo mais rápido. É ideal para casos de uso de baixa latência, como chatbots de atendimento ao cliente e preenchimento de código, para acelerar

os fluxos de trabalho de desenvolvimento de software.

Claude Sonnet

Claude 3.7 Sonnet é o que a Anthropic define como seu “modelo mais inteligente até hoje”. Esse modelo de raciocínio possui um modo de “pensamento estendido”, que permite auto-reflexão antes de responder. Usuários da API da Anthropic também podem definir quanto tempo o modelo pode dedicar ao pensamento.

O Claude 3.7 Sonnet pode ser implementado em tarefas mais específicas, como geração de código, uso de computador (permitindo que o LLM opere um computador como um humano), extração de informações de dados visuais e respostas a perguntas.

Claude Opus

Claude 3 Opus é o modelo mais poderoso entre os três. Ele consegue realizar análises aprofundadas e executar tarefas mais longas e complexas, com múltiplas etapas.

Command

Revelador: Cohere

Data de lançamento: Abril de 2024 para o Command R+ e dezembro de 2024 para o Command R7B

Número de parâmetros: até 104 bilhões

Janela de contexto: 128.000 tokens

Licença: Proprietária

Acesso: API Cohere, Amazon Bedrock, Microsoft Azure AI Studio, Oracle Cloud Infrastructure Generative AI

Input: Texto

Saída: Texto

Command é o principal modelo de linguagem da Cohere. Essa família de LLMs voltados para o ambiente corporativo inclui os seguintes modelos:

● Command R

● Comando R7B

Command R

Command R é um modelo multilíngue de geração de texto com 32 bilhões de parâmetros.¹ Ele foi treinado para fundamentar sua capacidade de geração aumentada por recuperação (RAG) fornecendo citações em suas respostas. O Command R também oferece recursos de uso de ferramentas em conversas.

Command R+

Command R+ é uma versão mais potente, com 104 bilhões de parâmetros.² Ele executa funções RAG complexas e uso de ferramentas em múltiplas etapas, permitindo que agentes de IA obtenham informações atualizadas e renovem sua base de conhecimento recorrendo a ferramentas externas.

Command R7B

O Command R7B é o menor e mais rápido modelo, com 7 bilhões de parâmetros. É ideal para implementações baseadas em CPU,GPUs de baixo custo e outros dispositivos de borda e pode ser implementado para inferência no dispositivo .

DeepSeek-R1

Desenvolvedor: DeepSeek

Data de lançamento: janeiro de 2025

Número de parâmetros: 671 bilhões

Janela de contexto: 128.000 tokens

Licença: Código aberto (Licença MIT)

Acesso: API DeepSeek, Hugging Face

Input: Texto

Saída: Texto

DeepSeek-R1 é um modelo de raciocínio open source da startup chinesa DeepSeek. Ele utiliza uma arquitetura de Mixture of Experts (MoE) baseada em aprendizado de máquina e foi treinado com aprendizado por reforço em larga escala para aprimorar suas capacidades de raciocínio.

O desempenho do DeepSeek-R1 é semelhante ou até superior ao da série o1 de modelos de raciocínio da OpenAI em alguns benchmarks de LLM. O DeepSeek-R1 também aplicou destilação de conhecimento para ajustar vários modelos Llama e Qwen menores, usando dados de raciocínio gerados pelo DeepSeek-R1 LLM original.

Os modelos resultantes melhoraram os recursos de raciocínio dos originais e superaram outros modelos maiores em desempenho.³

Falcon

Desenvolvedor: Technology Innovation Institute

Data de lançamento: dezembro de 2024 para Falcon 3

Número de parâmetros: até 180 bilhões

Janela de contexto: até 32.000 tokens

Licença: Código aberto

Acesso: Hugging Face

Input: Texto

Saída: Texto

Falcon é um conjunto de modelos de código aberto desenvolvido por pesquisadores do Technology Innovation Institute (TII) dos Emirados Árabes Unidos. Esses modelos foram treinados usando o RefinedWeb, um enorme conjunto de dados em inglês filtrado.

O Falcon consiste nestes LLMs:

● Falcon 2

● Falcon 3

● Falcon Mamba 7B

Outras versões anteriores e maiores do Falcon incluem o Falcon 40B, com 40 bilhões de parâmetros, e o Falcon 180B, com 180 bilhões de parâmetros.

Falcon 2

O Falcon 2 11B é um modelo de decodificação causal, com 11 bilhões de parâmetros. Ele oferece suporte multilíngue e em breve contará com recursos de visão para linguagem.

Falcon 3

Falcon 3 adota um design exclusivo de decodificação e está disponível em versões compactas de 1, 3, 7 e 10 bilhões de parâmetros. Ele aprimora seu antecessor, elevando suas capacidades de raciocínio.

Falcon Mamba 7B

Falcon Mamba 7B é um modelo de linguagem baseado em espaço de estados (SSLM), que se distancia da arquitetura típica de transformadores dos LLMs. Modelos de transformação utilizam mecanismos de atenção para "focar" nos tokens mais relevantes da sequência de entrada. No entanto, conforme a janela de contexto cresce, a necessidade de memória e poder de processamento dos transformers também aumenta.

Os modelos SSLMs atualizam continuamente um “estado” durante o processamento e utilizam um algoritmo de seleção para ajustar parâmetros dinamicamente de acordo com a entrada. Isso permite que o Falcon Mamba 7B processe sequências longas de texto sem precisar de mais memória e gere novos tokens no mesmo tempo, independentemente do tamanho do contexto.

Gemini

Desenvolvedor: Google DeepMind

Data de lançamento: dezembro de 2024

Número de parâmetros: não divulgado publicamente

Janela de contexto: 1 milhão de tokens

Licença: Proprietária

Acesso: API Gemini, Google IA Studio, Google nuvem Vertex IA

Input: Multimodal (áudio, imagem, texto, vídeo)

Saída: Texto

Gemini é o conjunto de modelos multimodais do Google. Ele também alimenta o chatbot de IA generativa (anteriormente conhecido como Bard) de mesmo nome.

Gemini emprega um modelo de transformador, uma arquitetura de Neural Networks que se originou do próprio Google e se baseia nos modelos de linguagem fundamentais anteriores da empresa, incluindo BERT (Bidirectional Encoder Representations from Transformers) e PaLM 2 (Pathways Language Model).

A versão mais recente, Gemini 2.0, foi "criada para a era dos agentes", de acordo com o Google. O Gemini 2.0 vem em várias variantes:

● Gemini 2.0 Flash

● Gemini 2.0 Flash-Luz

● Gemini 2.0 Pro

Gemini 2.0 Flash

O Gemini 2.0 Flash é um modelo leve que aceita o uso de ferramentas. Os recursos em breve incluem geração de imagens e conversão de texto em fala.

Gemini 2.0 Flash-Lite

O Gemini 2.0 Flash-Lite é uma versão aprimorada do Flash 1.5 anterior, leve e econômico. Ele mantém a mesma velocidade e custo e aumenta a qualidade.

Gemini 2.0 Pro

O Gemini 2.0 Pro é considerado pelo Google seu modelo mais potente para programação e resolução de prompts complexos, graças à sua capacidade de utilizar ferramentas e a uma janela de contexto de 2 milhões de tokens. Ele ainda está em fase experimental.

GPT

Desenvolvedor: OpenAI

Data de lançamento: maio de 2024 para o GPT-4o e julho de 2024 para o GPT-4o mini

Número de parâmetros: não divulgado publicamente

Janela de contexto: 128.000 tokens

Licença: Proprietária

Acesso: API OpenAI usando .NET, JavaScript, Python, TypeScript

Input: Multimodal (áudio, imagem, texto, vídeo)

Saída: multimodal (áudio, imagem, texto)

Os Transformadores Generativos Pré-treinados (GPTs) formam uma linha de grandes modelos de linguagem desenvolvidos pela OpenAI. A linha GPT inclui os seguintes LLMs:

● GPT-4o

● GPT-4o mini

GPT-4o

O GPT-4o é um modelo multilíngue e multimodal. Como um dos LLMs mais avançados, o GPT-4o é capaz de processar inputs de áudio, texto e visuais e produzir qualquer combinação de produções de áudio, imagem e texto.

Ele tem um desempenho melhorado em relação aos antecessores GPT-4 Turbo e GPT-4. O GPT-4o é o atual LLM que potencializa o chatbot IA da OpenAI.

GPT-4o mini

O GPT-4o mini é um modelo menor e mais acessível que aceita entradas de imagem e texto e gera saídas de texto. Ele ultrapassou o GPT-3.5 Turbo em termos de desempenho.

Projeto 3D de bolas rolando em uma pista

As últimas notícias e insights sobre IA  

Descubra insights selecionados por especialistas e notícias sobre IA, nuvem e outros assuntos no boletim informativo semanal Think.

Granite

Desenvolvedor: IBM

Data de lançamento: fevereiro de 2025

Número de parâmetros: até 34 bilhões

Janela de contexto: 128.000 tokens

Licença: Código aberto (Apache 2.0)

Acesso: IBM watsonx.ai, Hugging Face, LM Studio, Ollama, Replicate

Input: Multimodal (imagem, texto)

Saída: Texto

O IBM ® Granite é uma série de LLMs de código aberto, prontos para empresas. Inclui os seguintes modelos:

● Granite 3.2

Visão do Granite

Granite 3.2

O Granite 3.2 incorpora recursos de raciocínio aprimoradas e funcionalidades avançadas para tarefas de RAG. Ele vem em 2 e 8 bilhões de tamanhos de parâmetros.

Os dados de treinamento do Granite 3.2 são uma combinação de conjuntos de dados de código aberto com licença permissiva e conjuntos de dados sintéticos de alta qualidade coletados internamente, adaptados para resolver problemas de contexto longo.

Granite Vision

Granite Vision é um modelo de linguagem visual com 2 bilhões de parâmetros, desenvolvido para a compreensão de documentos visuais. Ele extrai conteúdos de gráficos, diagramas e tabelas de maneira eficiente, ideal para análise de dados estruturados.

Outros LLMs da série Granite consistem nestes modelos especializados:

● Granite Code

● Granite Guardian

● Granite Embedding

Granite Code

Esses modelos exclusivos de decodificação foram projetados para tarefas de geração de código, como edição, explicação e criação de códigos. Os modelos Granite Code foram treinados com códigos escritos em 116 linguagens de programação e estão disponíveis nos tamanhos de 3, 8, 20 e 34 bilhões de parâmetros.

Granite Guardian

Os modelos Granite Guardian atuam como guardrails baseados em LLMs, projetados para identificar riscos em prompts e respostas. O Granite Guardian está disponível em versões de 2, 3, 5 e 8 bilhões de parâmetros.

Granite Embedding

Os modelos Granite Embedding são transformadores de sentenças desenvolvidos para aplicações baseadas em recuperação, como busca semântica e RAG.

Grok

Desenvolvedor: xAI

Data de lançamento: fevereiro de 2025 para Grok 3

Número de parâmetros: 314 bilhões

Janela de contexto: 128.000 tokens

Licença: Proprietária

Acesse: API xAI

Input: Multimodal (imagem, texto)

Saída: Texto

Grok é um modelo de linguagem da xAI. Seu primeiro LLM, o Grok-1, é um modelo MoE com 314 bilhões de parâmetros. Devido ao seu tamanho imenso, apenas 25% dos pesos do Grok-1 são ativados para cada token de entrada.

Em março de 2024, a xAI lançou o Grok-1.5 com uma janela de contexto de 128.000 tokens e capacidades aprimoradas de resolução de problemas. Cinco meses depois, a xAI lançou as versões beta do Grok-2 e de sua versão menor, o Grok-2 mini. O Grok-2 aprimorou ainda mais habilidades de chat, programação e raciocínio, além de incluir suporte para tarefas baseadas em visão.

Os lançamentos mais recentes, Grok 3 e Grok 3 mini, trazem recursos avançados de raciocínio e funções de agente de IA.

Llama

Desenvolvedor: Meta

Data de lançamento: dezembro de 2024 para o Llama 3.3

Número de parâmetros: até 405 bilhões

Janela de contexto: 128.000 tokens

Licença: Código aberto

Acesso: Meta, Hugging Face, Kaggle

Input: Multimodal (imagem, texto)

Saída: Texto

Llama é a coleção de LLMs desenvolvida pela Meta AI. Esses modelos autoregressivos usam uma arquitetura de transformação otimizada, com versões ajustadas por ajuste fino supervisionado e aprendizado por reforço com feedback humano (RLHF).⁵

A coleção Llama 3 sucede os LLMs Llama 2 e apresenta os seguintes modelos:

● Llama 3.1

● Lhama 3.2

● Llama 3.3

Llama 3.1

O Llama 3.1 traz um modelo com 8 bilhões de parâmetros e um modelo principal de base com 405 bilhões de parâmetros. Ambos são modelos multilíngues focados apenas em texto.

Llama 3.2

O Llama 3.2 oferece versões com 1 e 3 bilhões de parâmetros, compactas o suficiente para dispositivos móveis e edge. Já as versões de 11 e 90 bilhões de parâmetros são LLMs multimodais otimizados para responder perguntas sobre imagens, criar legendas, realizar raciocínio visual e reconhecimento de imagens.⁶

Llama 3.3

O Llama 3.3 é um modelo multilíngue somente de texto com 70 bilhões de parâmetros. Seu desempenho é comparável ou até superior ao do Llama 3.1 405B, com maior eficiência de custo.

Mistral

Desenvolvedor: Mistral AI

Data de lançamento: julho de 2024 para o Mistral Large 2

Número de parâmetros: até 124 bilhões

Janela de contexto: Até 256.000 tokens

Licença: Licença de pesquisa Mistral, Licença comercial Mistral, Apache 2.0

Acesso: La Platformforme, Amazon Bedrock, Microsoft Azure AI Studio, Google Cloud Vertex AI, IBM watsonx.ai

Input: Multimodal (imagem, texto)

Saída: Texto

A empresa Mistral AI, com sede na França, tem um conjunto de LLMs que abrange esses modelos:

● Mistral Grande

● Mistral Small

● Codestral

● Pixtral Large

Mistral Large

O Mistral Large 2 é o modelo principal da Mistral AI. Com 123 bilhões de parâmetros e uma janela de contexto de 128.000 tokens, ele se destaca em geração de código, matemática e raciocínio, além de oferecer suporte multilíngue e chamadas de recursos.

Mistral Small

O Mistral Small 3 é uma versão mais compacta, com 24 bilhões de parâmetros. Ele é indicado para IA conversacional de resposta rápida, chamadas de função de baixa latência e inferência local em máquinas com poucos recursos. O Mistral Small 3 é código aberto e foi lançado sob a licença Apache 2.0.

Codestral

Codestral 25.01 representa a geração mais recente do modelo de codificação da Mistral AI. Ele trabalha com um contexto de 256.000 tokens e realiza tarefas como conclusão de código, correção de código, geração de código e criação de testes.

Pixtral Large

Pixtral Large é um modelo multimodal com 124 bilhões de parâmetros. Ele se baseia no Mistral Large 2 e amplia seus recursos para abranger a compreensão de imagens.

o1

Desenvolvedor: OpenAI

Data de lançamento: setembro de 2024 para o1, janeiro de 2025 para o3-mini

Número de parâmetros: não divulgado publicamente

Janela de contexto: até 200.000 tokens

Licença: Proprietária

Acesso: API OpenAI

Input: Multimodal (imagem, texto)

Saída: Texto

A série o1 de modelos de IA reúne o1 e o1-mini. Em comparação aos modelos GPT da OpenAI, os LLMs o1 possuem recursos de raciocínio mais avançadas. Tanto o o1 quanto o o1-mini passaram por treinamento com aprendizado por reforço em larga escala, o que lhes permite desenvolver um encadeamento de pensamento antes de responder.

O LLM o1 aceita input de imagem e texto, enquanto o o1-mini trabalha apenas com input de texto.⁷ Em comparação ao o1, o o1-mini é menor, mais rápido e mais econômico. Ele também se destaca em raciocínio STEM e codificação.

Enquanto isso, o o3-mini é o modelo de raciocínio mais recente. Assim como o o1-mini, ele se destaca em codificação, matemática e ciência. Ele aceita chamadas de função e oferece três níveis de esforço de raciocínio (baixo, médio e alto) para otimizar a resposta em diferentes cenários, como problemas complexos que exigem mais raciocínio ou situações simples que pedem respostas rápidas e menos esforço de raciocínio.

AI Academy

Por que os modelos de base são uma mudança de paradigma para a IA

Aprenda sobre uma nova classe de modelos de IA flexíveis e reutilizáveis que podem liberar novas receitas, reduzir custos e aumentar a produtividade, e utilize o nosso guia para se aprofundar.

Acessar o episódio

Qwen

Desenvolvedora: Alibaba Cloud

Data de lançamento: Setembro de 2024 para Qwen 2.5 e janeiro de 2025 para Qwen2.5-Max

Número de parâmetros: Até 72 bilhões

Janela de contexto: Até 1 milhão de tokens

Licença: código aberto (Apache 2.0), proprietária para modelos maiores

Acesso: Alibaba Cloud, Hugging Face

Input: Multimodal (áudio, imagem, texto, vídeo)

Saída: Texto

Qwen é uma série de LLMs da empresa chinesa de computação em nuvem Alibaba Cloud. A linha Qwen inclui modelos de linguagem e variantes otimizadas para tarefas de áudio, programação, matemática e visão computacional.

O Qwen oferece estes modelos:

● Qwen 2.5

● Áudio Qwen

● Codificador Qwen

● Qwen Matemática

● Qwen VL

Qwen 2.5

Os modelos Qwen2.5 são modelos apenas de decodificação voltados para tarefas de processamento de linguagem multilíngue. Eles estão disponíveis nos tamanhos de 0,5, 3, 7, 14, 32 e 72 bilhões de parâmetros. Os modelos maiores, como o de 72 bilhões, podem ser acessados apenas via API na plataforma de nuvem proprietária da Alibaba.

O Qwen2.5-Turbo apresenta um comprimento de contexto ampliado para 1 milhão de tokens e uma velocidade de inferência mais rápida. Enquanto isso, o Qwen2.5-Max surge como o mais novo modelo MoE de grande escala.

Qwen Audio

O Qwen 2 Audio foi criado especificamente para tarefas baseadas em áudio. Este modelo de 7 bilhões de parâmetros serve para transcrever, detectar e classificar sons, interpretar comandos de voz e identificar elementos musicais.

Qwen Coder

O Qwen2.5 Coder é um LLM especializado em código. Ele está disponível nas versões de 1,5, 7, 14 e 32 bilhões de parâmetros.

Qwen Math

O Qwen 2 Math é um conjunto de LLMs otimizados para matemática. Eles servem para raciocínio matemático avançado e para resolver problemas complexos. O Qwen 2 Math está disponível nos tamanhos de 1,5, 7 e 72 bilhões de parâmetros.

Qwen VL

O Qwen 2 VL é um modelo de visão e linguagem que une o processamento visual à interpretação de linguagem natural. Exemplos de uso incluem extrair informações de dados visuais e criar legendas e resumos para imagens e vídeos. O Qwen 2 VL está disponível nos tamanhos de 2, 7 e 72 bilhões de parâmetros.

Stable LM

Desenvolvedor: Stability IA

Data de lançamento: abril de 2024 para Stable LM 2 12B

Número de parâmetros: Até 12 bilhões

Janela de contexto: 4.096 tokens

Licença: Licença Comunitária ou Licença Corporativa do Stability AI

Acesso: IA de estabilidade, Hugging Face

Input: Texto

Saída: Texto

O Stable LM é um conjunto de modelos de linguagem de acesso aberto da Stability AI, criadora do modelo de texto para imagem Stable Diffusion. O Stable LM 2 12B conta com 12 bilhões de parâmetros, enquanto o Stable LM 2 1.6B oferece 1,6 bilhão de parâmetros. Ambos são LLMs apenas de decodificação, treinados com dados multilíngues e conjuntos de código, e permitem chamadas de função e uso de ferramentas.

O Stable Code 3B é outro LLM ajustado para conjuntos de dados voltados a código. Com 3 bilhões de parâmetros, ele é leve o suficiente para rodar em tempo real, mesmo em dispositivos sem GPU.

Notas de rodapé

Todos os links levam para fora do site ibm.com

¹ Model Card for C4AI Command R 08-2024, Hugging Face, acessado em 14 de fevereiro de 2025.

² Model Card for C4AI Command R+ 08-2024, Hugging Face, acessado em 14 de fevereiro de 2025.

³ DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, GitHub, 23 de janeiro de 2025.

⁴ Access the latest 2.0 experimental models in the Gemini app, Google, 5 de fevereiro de 2025.

⁵ Model Information, GitHub, 30 de setembro de 2024.

⁶ Model Information, GitHub, 30 de setembro de 2024.

⁷ o1 and o1-mini, OpenAI, acessado em 14 de fevereiro de 2025.

Como escolher o modelo de base certo

Aprenda como escolher a abordagem correta na preparação de conjuntos de dados e no emprego de modelos de base.

Uma lista de grandes modelos de linguagem

Autores

Uma lista de grandes modelos de linguagem

Claude

Claude Haiku

Claude Sonnet

Claude Opus

Command

Command R

Command R+

Command R7B

DeepSeek-R1

Falcon

Falcon 2

Falcon 3

Falcon Mamba 7B

Gemini

Gemini 2.0 Flash

Gemini 2.0 Flash-Lite

Gemini 2.0 Pro

GPT

GPT-4o

GPT-4o mini

As últimas notícias e insights sobre IA

Granite

Granite 3.2

Granite Vision

Granite Code

Granite Guardian

Granite Embedding

Grok

Llama

Llama 3.1

Llama 3.2

Llama 3.3

Mistral

Mistral Large

Mistral Small

Codestral

Pixtral Large

o1

Por que os modelos de base são uma mudança de paradigma para a IA

Qwen

Qwen 2.5

Qwen Audio

Qwen Coder

Qwen Math

Qwen VL

Stable LM

Notas de rodapé

Recursos

As últimas notícias e insights sobre IA