Em setembro de 2024, a Mistral IA lançou o Pixtral 12B, um grande modelo de linguagem (LLM) de código aberto sob a licença Apache 2.0.grandes modelos de linguagem (LLM).

Com 12 bilhões de parâmetros, o modelo multimodal é desenvolvido no Nemo 12B LLM da Mistral IA. O Pixtral 12B tem dois componentes: o codificador de visão para tokenizar imagens e um decodificador transformador multimodal para prever o seguinte token de texto dada uma sequência de texto e imagens. O codificador de visão tem 400 milhões de parâmetros e é compatível com tamanhos de imagem variáveis.

O modelo se destaca em vários casos de uso, incluindo a compreensão de gráficos, diagramas, gráficos e documentos em alta resolução, que podem ser usados para responder a perguntas sobre documentos, seguir instruções ou tarefas de geração aumentada de recuperação (RAG). Além disso, o Pixtral 12B possui uma janela de contexto de 128.000 token, que permite o consumo de várias imagens simultaneamente.

Em termos de benchmarks, o Pixtral 12B supera o desempenho de vários modelos, incluindo o Qwen2-VL, Gemini-1.5 Flash 8B e Claude-3 Haiku. Para determinados benchmarks, incluindo DocVQA (ANLS) e VQAv2 (VQA Match), o modelo supera o GPT-4o e o Claude-3.5 Sonnet da OpenAI.

Além de poder executar o Pixtral 12B no watsonx.ai, o modelo também está disponível via Hugging Face, no Le Chat, o chatbot conversacional da Mistral, ou via endpoint de API por meio do La Plateforme da Mistral.