O boom da IA generativa (gen AI) destacou a força motriz por trás dela: os grandes modelos de linguagem (LLMs). Atualmente, já existem dezenas de LLMs, e com o avanço acelerado da tecnologia, surgem cada vez mais modelos de inteligência artificial (IA).
Pense nisso sob a perspectiva do setor automobilístico. Centenas de montadoras ao redor do mundo têm seus próprios modelos voltados para diferentes necessidades dos consumidores. Com o tempo, os carros também evoluíram, passando de automóveis movidos a gasolina para veículos elétricos com diversas funcionalidades inteligentes.
O mesmo se aplica aos LLMs. Esses sistemas de IA surgiram como modelos de base compostos por múltiplas camadas de redes neurais treinadas com enormes volumes de conjuntos de dados.Essa rápida evolução faz com que o cenário dos LLMs esteja em constante transformação. Desenvolvedores de IA precisam atualizar seus modelos continuamente ou até mesmo criar novos para acompanhar o ritmo acelerado.
Embora tarefas de NLP e NLU como resumo de textos, tradução automática, análise de sentimentos e geração de textos continuem fundamentais, desenvolvedores de IA estão adaptando seus modelos para casos de uso específicos.
Por exemplo, alguns LLMs são criados para gerar códigos, enquanto outros são projetados para trabalhar com tarefas de visão e linguagem.
Embora seja impossível listar todos os LLMs existentes, aqui estão alguns dos modelos mais atuais e populares para ajudar as organizações a restringirem suas opções e escolherem o modelo que melhor atende às suas necessidades:
Desenvolvedora: Anthropic
Data de lançamento: fevereiro de 2025 para Claude 3.7 Sonnet
Número de parâmetros: não divulgado publicamente
Janela de contexto: 200.000 tokens
Licença: Proprietária
Acesso: API antrópica, Amazon Bedrock, Google Nuvem Vértice IA
Input: Multimodal (imagem, texto)
Saída: Texto
Claude é uma família de LLMs baseada em arquitetura de transformação. Esse é o grande modelo por trás do assistente de IA conversacional de mesmo nome. O design do Claude segue princípios de IA constitucional, voltados para a segurança da IA e a redução de comportamentos nocivos, como o viés de IA.
A família Claude consiste em 3 modelos de IA:
● Claude Haiku
● Soneto de Claude
● Claude Opus
Claude 3.5 Haiku é o modelo mais rápido. É ideal para casos de uso de baixa latência, como chatbots de atendimento ao cliente e preenchimento de código, para acelerar
os fluxos de trabalho de desenvolvimento de software.Claude 3.7 Sonnet é o que a Anthropic define como seu “modelo mais inteligente até hoje”. Esse modelo de raciocínio possui um modo de “pensamento estendido”, que permite auto-reflexão antes de responder. Usuários da API da Anthropic também podem definir quanto tempo o modelo pode dedicar ao pensamento.
O Claude 3.7 Sonnet pode ser implementado em tarefas mais específicas, como geração de código, uso de computador (permitindo que o LLM opere um computador como um humano), extração de informações de dados visuais e respostas a perguntas.
Claude 3 Opus é o modelo mais poderoso entre os três. Ele consegue realizar análises aprofundadas e executar tarefas mais longas e complexas, com múltiplas etapas.
Revelador: Cohere
Data de lançamento: Abril de 2024 para o Command R+ e dezembro de 2024 para o Command R7B
Número de parâmetros: até 104 bilhões
Janela de contexto: 128.000 tokens
Licença: Proprietária
Acesso: API Cohere, Amazon Bedrock, Microsoft Azure AI Studio, Oracle Cloud Infrastructure Generative AI
Input: Texto
Saída: Texto
Command é o principal modelo de linguagem da Cohere. Essa família de LLMs voltados para o ambiente corporativo inclui os seguintes modelos:
● Command R
● Command R
● Comando R7B
Command R é um modelo multilíngue de geração de texto com 32 bilhões de parâmetros.1 Ele foi treinado para fundamentar sua capacidade de geração aumentada por recuperação (RAG) fornecendo citações em suas respostas. O Command R também oferece recursos de uso de ferramentas em conversas.
Command R+ é uma versão mais potente, com 104 bilhões de parâmetros.2 Ele executa funções RAG complexas e uso de ferramentas em múltiplas etapas, permitindo que agentes de IA obtenham informações atualizadas e renovem sua base de conhecimento recorrendo a ferramentas externas.
O Command R7B é o menor e mais rápido modelo, com 7 bilhões de parâmetros. É ideal para implementações baseadas em CPU,GPUs de baixo custo e outros dispositivos de borda e pode ser implementado para inferência no dispositivo .
Desenvolvedor: DeepSeek
Data de lançamento: janeiro de 2025
Número de parâmetros: 671 bilhões
Janela de contexto: 128.000 tokens
Licença: Código aberto (Licença MIT)
Acesso: API DeepSeek, Hugging Face
Input: Texto
Saída: Texto
DeepSeek-R1 é um modelo de raciocínio open source da startup chinesa DeepSeek. Ele utiliza uma arquitetura de Mixture of Experts (MoE) baseada em aprendizado de máquina e foi treinado com aprendizado por reforço em larga escala para aprimorar suas capacidades de raciocínio.
O desempenho do DeepSeek-R1 é semelhante ou até superior ao da série o1 de modelos de raciocínio da OpenAI em alguns benchmarks de LLM. O DeepSeek-R1 também aplicou destilação de conhecimento para ajustar vários modelos Llama e Qwen menores, usando dados de raciocínio gerados pelo DeepSeek-R1 LLM original.
Os modelos resultantes melhoraram os recursos de raciocínio dos originais e superaram outros modelos maiores em desempenho.3
Desenvolvedor: Technology Innovation Institute
Data de lançamento: dezembro de 2024 para Falcon 3
Número de parâmetros: até 180 bilhões
Janela de contexto: até 32.000 tokens
Licença: Código aberto
Acesso: Hugging Face
Input: Texto
Saída: Texto
Falcon é um conjunto de modelos de código aberto desenvolvido por pesquisadores do Technology Innovation Institute (TII) dos Emirados Árabes Unidos. Esses modelos foram treinados usando o RefinedWeb, um enorme conjunto de dados em inglês filtrado.
O Falcon consiste nestes LLMs:
● Falcon 2
● Falcon 3
● Falcon Mamba 7B
Outras versões anteriores e maiores do Falcon incluem o Falcon 40B, com 40 bilhões de parâmetros, e o Falcon 180B, com 180 bilhões de parâmetros.
O Falcon 2 11B é um modelo de decodificação causal, com 11 bilhões de parâmetros. Ele oferece suporte multilíngue e em breve contará com recursos de visão para linguagem.
Falcon 3 adota um design exclusivo de decodificação e está disponível em versões compactas de 1, 3, 7 e 10 bilhões de parâmetros. Ele aprimora seu antecessor, elevando suas capacidades de raciocínio.
Falcon Mamba 7B é um modelo de linguagem baseado em espaço de estados (SSLM), que se distancia da arquitetura típica de transformadores dos LLMs. Modelos de transformação utilizam mecanismos de atenção para "focar" nos tokens mais relevantes da sequência de entrada. No entanto, conforme a janela de contexto cresce, a necessidade de memória e poder de processamento dos transformers também aumenta.
Os modelos SSLMs atualizam continuamente um “estado” durante o processamento e utilizam um algoritmo de seleção para ajustar parâmetros dinamicamente de acordo com a entrada. Isso permite que o Falcon Mamba 7B processe sequências longas de texto sem precisar de mais memória e gere novos tokens no mesmo tempo, independentemente do tamanho do contexto.
Desenvolvedor: Google DeepMind
Data de lançamento: dezembro de 2024
Número de parâmetros: não divulgado publicamente
Janela de contexto: 1 milhão de tokens
Licença: Proprietária
Acesso: API Gemini, Google IA Studio, Google nuvem Vertex IA
Input: Multimodal (áudio, imagem, texto, vídeo)
Saída: Texto
Gemini é o conjunto de modelos multimodais do Google. Ele também alimenta o chatbot de IA generativa (anteriormente conhecido como Bard) de mesmo nome.
Gemini emprega um modelo de transformador, uma arquitetura de Neural Networks que se originou do próprio Google e se baseia nos modelos de linguagem fundamentais anteriores da empresa, incluindo BERT (Bidirectional Encoder Representations from Transformers) e PaLM 2 (Pathways Language Model).
A versão mais recente, Gemini 2.0, foi "criada para a era dos agentes", de acordo com o Google. O Gemini 2.0 vem em várias variantes:
● Gemini 2.0 Flash
● Gemini 2.0 Flash-Luz
● Gemini 2.0 Pro
O Gemini 2.0 Flash é um modelo leve que aceita o uso de ferramentas. Os recursos em breve incluem geração de imagens e conversão de texto em fala.
O Gemini 2.0 Flash-Lite é uma versão aprimorada do Flash 1.5 anterior, leve e econômico. Ele mantém a mesma velocidade e custo e aumenta a qualidade.
O Gemini 2.0 Pro é considerado pelo Google seu modelo mais potente para programação e resolução de prompts complexos, graças à sua capacidade de utilizar ferramentas e a uma janela de contexto de 2 milhões de tokens. Ele ainda está em fase experimental.
Desenvolvedor: OpenAI
Data de lançamento: maio de 2024 para o GPT-4o e julho de 2024 para o GPT-4o mini
Número de parâmetros: não divulgado publicamente
Janela de contexto: 128.000 tokens
Licença: Proprietária
Acesso: API OpenAI usando .NET, JavaScript, Python, TypeScript
Input: Multimodal (áudio, imagem, texto, vídeo)
Saída: multimodal (áudio, imagem, texto)
Os Transformadores Generativos Pré-treinados (GPTs) formam uma linha de grandes modelos de linguagem desenvolvidos pela OpenAI. A linha GPT inclui os seguintes LLMs:
● GPT-4o
● GPT-4o mini
O GPT-4o é um modelo multilíngue e multimodal. Como um dos LLMs mais avançados, o GPT-4o é capaz de processar inputs de áudio, texto e visuais e produzir qualquer combinação de produções de áudio, imagem e texto.
Ele tem um desempenho melhorado em relação aos antecessores GPT-4 Turbo e GPT-4. O GPT-4o é o atual LLM que potencializa o chatbot IA da OpenAI.
O GPT-4o mini é um modelo menor e mais acessível que aceita entradas de imagem e texto e gera saídas de texto. Ele ultrapassou o GPT-3.5 Turbo em termos de desempenho.
Desenvolvedor: IBM
Data de lançamento: fevereiro de 2025
Número de parâmetros: até 34 bilhões
Janela de contexto: 128.000 tokens
Licença: Código aberto (Apache 2.0)
Acesso: IBM watsonx.ai, Hugging Face, LM Studio, Ollama, Replicate
Input: Multimodal (imagem, texto)
Saída: Texto
O IBM ® Granite é uma série de LLMs de código aberto, prontos para empresas. Inclui os seguintes modelos:
● Granite 3.2
Visão do Granite
O Granite 3.2 incorpora recursos de raciocínio aprimoradas e funcionalidades avançadas para tarefas de RAG. Ele vem em 2 e 8 bilhões de tamanhos de parâmetros.
Os dados de treinamento do Granite 3.2 são uma combinação de conjuntos de dados de código aberto com licença permissiva e conjuntos de dados sintéticos de alta qualidade coletados internamente, adaptados para resolver problemas de contexto longo.
Granite Vision é um modelo de linguagem visual com 2 bilhões de parâmetros, desenvolvido para a compreensão de documentos visuais. Ele extrai conteúdos de gráficos, diagramas e tabelas de maneira eficiente, ideal para análise de dados estruturados.
Outros LLMs da série Granite consistem nestes modelos especializados:
● Granite Code
● Granite Guardian
● Granite Embedding
Esses modelos exclusivos de decodificação foram projetados para tarefas de geração de código, como edição, explicação e criação de códigos. Os modelos Granite Code foram treinados com códigos escritos em 116 linguagens de programação e estão disponíveis nos tamanhos de 3, 8, 20 e 34 bilhões de parâmetros.
Os modelos Granite Guardian atuam como guardrails baseados em LLMs, projetados para identificar riscos em prompts e respostas. O Granite Guardian está disponível em versões de 2, 3, 5 e 8 bilhões de parâmetros.
Os modelos Granite Embedding são transformadores de sentenças desenvolvidos para aplicações baseadas em recuperação, como busca semântica e RAG.
Desenvolvedor: xAI
Data de lançamento: fevereiro de 2025 para Grok 3
Número de parâmetros: 314 bilhões
Janela de contexto: 128.000 tokens
Licença: Proprietária
Acesse: API xAI
Input: Multimodal (imagem, texto)
Saída: Texto
Grok é um modelo de linguagem da xAI. Seu primeiro LLM, o Grok-1, é um modelo MoE com 314 bilhões de parâmetros. Devido ao seu tamanho imenso, apenas 25% dos pesos do Grok-1 são ativados para cada token de entrada.
Em março de 2024, a xAI lançou o Grok-1.5 com uma janela de contexto de 128.000 tokens e capacidades aprimoradas de resolução de problemas. Cinco meses depois, a xAI lançou as versões beta do Grok-2 e de sua versão menor, o Grok-2 mini. O Grok-2 aprimorou ainda mais habilidades de chat, programação e raciocínio, além de incluir suporte para tarefas baseadas em visão.
Os lançamentos mais recentes, Grok 3 e Grok 3 mini, trazem recursos avançados de raciocínio e funções de agente de IA.
Desenvolvedor: Meta
Data de lançamento: dezembro de 2024 para o Llama 3.3
Número de parâmetros: até 405 bilhões
Janela de contexto: 128.000 tokens
Licença: Código aberto
Acesso: Meta, Hugging Face, Kaggle
Input: Multimodal (imagem, texto)
Saída: Texto
Llama é a coleção de LLMs desenvolvida pela Meta AI. Esses modelos autoregressivos usam uma arquitetura de transformação otimizada, com versões ajustadas por ajuste fino supervisionado e aprendizado por reforço com feedback humano (RLHF).5
A coleção Llama 3 sucede os LLMs Llama 2 e apresenta os seguintes modelos:
● Llama 3.1
● Lhama 3.2
● Llama 3.3
O Llama 3.1 traz um modelo com 8 bilhões de parâmetros e um modelo principal de base com 405 bilhões de parâmetros. Ambos são modelos multilíngues focados apenas em texto.
O Llama 3.2 oferece versões com 1 e 3 bilhões de parâmetros, compactas o suficiente para dispositivos móveis e edge. Já as versões de 11 e 90 bilhões de parâmetros são LLMs multimodais otimizados para responder perguntas sobre imagens, criar legendas, realizar raciocínio visual e reconhecimento de imagens.6
O Llama 3.3 é um modelo multilíngue somente de texto com 70 bilhões de parâmetros. Seu desempenho é comparável ou até superior ao do Llama 3.1 405B, com maior eficiência de custo.
Desenvolvedor: Mistral AI
Data de lançamento: julho de 2024 para o Mistral Large 2
Número de parâmetros: até 124 bilhões
Janela de contexto: Até 256.000 tokens
Licença: Licença de pesquisa Mistral, Licença comercial Mistral, Apache 2.0
Acesso: La Platformforme, Amazon Bedrock, Microsoft Azure AI Studio, Google Cloud Vertex AI, IBM watsonx.ai
Input: Multimodal (imagem, texto)
Saída: Texto
A empresa Mistral AI, com sede na França, tem um conjunto de LLMs que abrange esses modelos:
● Mistral Grande
● Mistral Small
● Codestral
● Pixtral Large
O Mistral Large 2 é o modelo principal da Mistral AI. Com 123 bilhões de parâmetros e uma janela de contexto de 128.000 tokens, ele se destaca em geração de código, matemática e raciocínio, além de oferecer suporte multilíngue e chamadas de recursos.
O Mistral Small 3 é uma versão mais compacta, com 24 bilhões de parâmetros. Ele é indicado para IA conversacional de resposta rápida, chamadas de função de baixa latência e inferência local em máquinas com poucos recursos. O Mistral Small 3 é código aberto e foi lançado sob a licença Apache 2.0.
Codestral 25.01 representa a geração mais recente do modelo de codificação da Mistral AI. Ele trabalha com um contexto de 256.000 tokens e realiza tarefas como conclusão de código, correção de código, geração de código e criação de testes.
Pixtral Large é um modelo multimodal com 124 bilhões de parâmetros. Ele se baseia no Mistral Large 2 e amplia seus recursos para abranger a compreensão de imagens.
Desenvolvedor: OpenAI
Data de lançamento: setembro de 2024 para o1, janeiro de 2025 para o3-mini
Número de parâmetros: não divulgado publicamente
Janela de contexto: até 200.000 tokens
Licença: Proprietária
Acesso: API OpenAI
Input: Multimodal (imagem, texto)
Saída: Texto
A série o1 de modelos de IA reúne o1 e o1-mini. Em comparação aos modelos GPT da OpenAI, os LLMs o1 possuem recursos de raciocínio mais avançadas. Tanto o o1 quanto o o1-mini passaram por treinamento com aprendizado por reforço em larga escala, o que lhes permite desenvolver um encadeamento de pensamento antes de responder.
O LLM o1 aceita input de imagem e texto, enquanto o o1-mini trabalha apenas com input de texto.7 Em comparação ao o1, o o1-mini é menor, mais rápido e mais econômico. Ele também se destaca em raciocínio STEM e codificação.
Enquanto isso, o o3-mini é o modelo de raciocínio mais recente. Assim como o o1-mini, ele se destaca em codificação, matemática e ciência. Ele aceita chamadas de função e oferece três níveis de esforço de raciocínio (baixo, médio e alto) para otimizar a resposta em diferentes cenários, como problemas complexos que exigem mais raciocínio ou situações simples que pedem respostas rápidas e menos esforço de raciocínio.
Data de lançamento: Setembro de 2024 para Qwen 2.5 e janeiro de 2025 para Qwen2.5-Max
Número de parâmetros: Até 72 bilhões
Janela de contexto: Até 1 milhão de tokens
Licença: código aberto (Apache 2.0), proprietária para modelos maiores
Acesso: Alibaba Cloud, Hugging Face
Input: Multimodal (áudio, imagem, texto, vídeo)
Saída: Texto
Qwen é uma série de LLMs da empresa chinesa de computação em nuvem Alibaba Cloud. A linha Qwen inclui modelos de linguagem e variantes otimizadas para tarefas de áudio, programação, matemática e visão computacional.
O Qwen oferece estes modelos:
● Qwen 2.5
● Áudio Qwen
● Codificador Qwen
● Qwen Matemática
● Qwen VL
Os modelos Qwen2.5 são modelos apenas de decodificação voltados para tarefas de processamento de linguagem multilíngue. Eles estão disponíveis nos tamanhos de 0,5, 3, 7, 14, 32 e 72 bilhões de parâmetros. Os modelos maiores, como o de 72 bilhões, podem ser acessados apenas via API na plataforma de nuvem proprietária da Alibaba.
O Qwen2.5-Turbo apresenta um comprimento de contexto ampliado para 1 milhão de tokens e uma velocidade de inferência mais rápida. Enquanto isso, o Qwen2.5-Max surge como o mais novo modelo MoE de grande escala.
O Qwen 2 Audio foi criado especificamente para tarefas baseadas em áudio. Este modelo de 7 bilhões de parâmetros serve para transcrever, detectar e classificar sons, interpretar comandos de voz e identificar elementos musicais.
O Qwen2.5 Coder é um LLM especializado em código. Ele está disponível nas versões de 1,5, 7, 14 e 32 bilhões de parâmetros.
O Qwen 2 Math é um conjunto de LLMs otimizados para matemática. Eles servem para raciocínio matemático avançado e para resolver problemas complexos. O Qwen 2 Math está disponível nos tamanhos de 1,5, 7 e 72 bilhões de parâmetros.
O Qwen 2 VL é um modelo de visão e linguagem que une o processamento visual à interpretação de linguagem natural. Exemplos de uso incluem extrair informações de dados visuais e criar legendas e resumos para imagens e vídeos. O Qwen 2 VL está disponível nos tamanhos de 2, 7 e 72 bilhões de parâmetros.
Desenvolvedor: Stability IA
Data de lançamento: abril de 2024 para Stable LM 2 12B
Número de parâmetros: Até 12 bilhões
Janela de contexto: 4.096 tokens
Licença: Licença Comunitária ou Licença Corporativa do Stability AI
Acesso: IA de estabilidade, Hugging Face
Input: Texto
Saída: Texto
O Stable LM é um conjunto de modelos de linguagem de acesso aberto da Stability AI, criadora do modelo de texto para imagem Stable Diffusion. O Stable LM 2 12B conta com 12 bilhões de parâmetros, enquanto o Stable LM 2 1.6B oferece 1,6 bilhão de parâmetros. Ambos são LLMs apenas de decodificação, treinados com dados multilíngues e conjuntos de código, e permitem chamadas de função e uso de ferramentas.
O Stable Code 3B é outro LLM ajustado para conjuntos de dados voltados a código. Com 3 bilhões de parâmetros, ele é leve o suficiente para rodar em tempo real, mesmo em dispositivos sem GPU.
Todos os links levam para fora do site ibm.com
1 Model Card for C4AI Command R 08-2024, Hugging Face, acessado em 14 de fevereiro de 2025.
2 Model Card for C4AI Command R+ 08-2024, Hugging Face, acessado em 14 de fevereiro de 2025.
3 DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, GitHub, 23 de janeiro de 2025.
4 Access the latest 2.0 experimental models in the Gemini app, Google, 5 de fevereiro de 2025.
5 Model Information, GitHub, 30 de setembro de 2024.
6 Model Information, GitHub, 30 de setembro de 2024.
7 o1 and o1-mini, OpenAI, acessado em 14 de fevereiro de 2025.
Explore a biblioteca de modelos de base da IBM no portfólio do watsonx para escalar a IA generativa com confiança na sua empresa.
Use a IA a serviço da sua empresa com a experiência e o portfólio de soluções líder do setor da IBM à sua disposição.
Reinvente os fluxos de trabalho e as operações críticas adicionando IA para maximizar experiências, tomadas de decisão em tempo real e valor comercial.