A IBM tem o prazer de anunciar a adição da mais recente geração de modelos abertos da Meta, o Llama 4, ao watsonx.ai. O Llama 4 Scout e o Llama 4 Maverick, a primeira combinação de modelos de especialistas (MoE) lançados pela Meta, oferecem desempenho multimodal de fronteira, altas velocidades, baixo custo e comprimento de contexto líder do setor.
O lançamento do Llama 4 inicia uma nova era para a série Llama, introduzindo tanto uma evolução interessante da arquitetura do Llama quanto uma abordagem inovadora para integrar diferentes tipos de modalidades de dados, incluindo texto, imagem e vídeo, muito mais cedo no processo do que os modelos treinados convencionalmente. Ambos os novos modelos são compatíveis com uma ampla variedade de casos de uso de entrada de texto, saída de texto e entrada de imagem e saída de texto.
Com o lançamento dessas mais recentes ofertas da Meta, a IBM agora tem compatibilidade com um total de 13 modelos da Meta na extensa biblioteca de modelos de base disponíveis no watsonx.ai. Em linha com a estratégia aberta e multimodelo da IBM para IA generativa, continuamos a fornecer aos nossos clientes de plataformas os modelos abertos de melhor desempenho do mercado atualmente.
A arquitetura de combinação de especialistas (MoE) visa equilibrar a capacidade de conhecimento de modelos maiores com a eficiência de inferência de modelos menores, subdividindo as camadas da rede neural do modelo em vários "especialistas". Em vez de ativar todos os parâmetros do modelo para cada token, os modelos da MoE usam uma função de gating que ativa apenas os "especialistas" mais adequados para processar esse token.
O Llama 4 Scout, o menor dos dois novos modelos com um total de parâmetros de 109 bilhões, é dividido em 16 especialistas. Na inferência, ele tem uma contagem de parâmetros ativos de apenas 17 bilhões, o que permite atender a mais usuários em paralelo. Treinado com 40 trilhões de tokens de dados, o Llama 4 Scout oferece desempenho que rivaliza ou supera o de modelos com contagens de parâmetros ativos significativamente maiores, mantendo os custos e a latência baixos. Apesar desses requisitos computacionais enxutos, o Llama 4 Scout supera modelos comparáveis em benchmarks de programação, raciocínio, contexto longo e compreensão de imagens.
O Llama 4 Maverick é dividido em 128 especialistas, com base no conhecimento de seu total de 400 bilhões de parâmetros, mantendo a mesma contagem de parâmetros ativos de 17 bilhões do Llama 4 Maverick. De acordo com o anúncio oficial da Meta IA, o Llama 4 Maverick supera o GPT-4o da OpenAI e o Gemini 2.0 Flash do Google em uma ampla gama de benchmarks multimodais e rivaliza com o desempenho de raciocínio e programação do DeepSeek-V3 (muito maior) em tarefas de raciocínio e programação .
Além disso, o Llama 4 Scout oferece uma janela de contexto de 10 milhões de tokens, a melhor do setor, ao mesmo tempo em que preserva uma excelente precisão em benchmarks de contexto longo, como o Needle-in-a-haystack (NiH). Esse salto sem precedentes abre oportunidades interessantes para resumos de vários documentos, raciocínio sobre vastas bases de código e personalização graças a uma extensa memória de atividades do usuário.
Como explica o anúncio da Meta, essa enorme expansão no comprimento do contexto vem principalmente de duas inovações: o uso de camadas de atenção intercaladas sem embeddings posicionais e o dimensionamento de temperatura do tempo de inferência do mecanismo de atenção dos modelos. Essa nova arquitetura, que a Meta chama de "iRope", representa um passo importante em direção ao objetivo de longo prazo da Meta de compatibilidade com duração de contexto "infinita".
Enquanto os grandes modelos de linguagem (LLMs) são convencionalmente pré-treinados exclusivamente em dados de texto e, em seguida, adaptados a outras modalidades de dados (como dados de imagens) posteriormente durante o pós-treinamento, os modelos Llama 4 são projetados com "multimodalidade nativa". Isso permitiu à Meta pré-treinar em conjunto os modelos com grandes quantidades de dados de texto, imagens e vídeos não rotulados de uma só vez, enriquecendo eficientemente os modelos com conhecimento integrado de diversas fontes.
O treinamento dos modelos Llama 4 incorporou a "fusão" de diferentes tipos de dados no início do pipeline de processamento, integrando sem dificuldades tokens de texto e visão para permitir que sejam treinados como um único sistema unificado. Consequentemente, o Llama 4 Maverick e o Llama 4 Scout oferecem um excelente desempenho em uma série de tarefas de compreensão de imagens, capazes de lidar com prompts de texto relacionados a várias imagens de uma só vez ou ancorar respostas do modelo a regiões específicas com uma única imagem.
Desenvolvedores e empresas podem selecionar seu modelo Llama 4 preferido no extenso catálogo de modelos de base no IBM watsonx.ai, em seguida, realizar um ajuste fino nele, destilá-lo e implementá-lo em ambientes de nuvem, no local ou de edge de sua escolha. A IBM aprimora ainda mais essa flexibilidade com sua infraestrutura avançada de IA, integração sem dificuldades com frameworks de agentes e compatibilidade com bancos de dados de vetores.
O IBM watsonx simplifica o desenvolvimento com um pacote de ferramentas de código, pouco código e no-code em um estúdio de nível empresarial que oferece suporte a todo o ciclo de vida da IA e promove a colaboração entre as equipes. O IBM watsonx também oferece uma governança robusta de IA de ponta a ponta, garantindo fluxos de trabalho responsáveis e acelerados. Aproveitando sua profunda experiência em transformação tecnológica, a parceria da IBM com a Meta oferece estratégias personalizadas para lidar com as necessidades empresariais específicas de forma eficiente e eficaz.
Veja como construir um Personal Trainer de IA com o Meta Llama 4 no watsonx.ai.
Comece a usar os modelos Llama 4 no watsonx.ai hoje mesmo.