Nel settembre 2024, Mistral AI ha lanciato Pixtral 12B, un modello linguistico di grandi dimensioni (LLM) open-source con licenza Apache 2.0.

Con 12 miliardi di parametri, il modello multimodale è costruito sul Nemo 12B LLM di Mistral AI. Pixtral 12B ha due componenti: il codificatore di visione per tokenizzare le immagini e un decodificatore a trasformatore multimodale per prevedere il seguente token di testo data una sequenza di testo e immagini. Il codificatore di visione ha 400 milioni di parametri e supporta dimensioni di immagine variabili.

Il modello eccelle in molteplici casi d'uso, inclusa la comprensione di grafici, diagrammi, grafici e documenti ad alta risoluzione, che possono essere utilizzati per compiti di risposta a domande documentali, seguito di istruzioni o retrieval-augmented generation (RAG) (RAG) compiti. Inoltre, Pixtral 12B ha una finestra contestuale da 128.000 token, che consente il consumo simultaneo di più immagini.

In termini di benchmark, Pixtral 12B supera vari modelli, tra cui Qwen2-VL, Gemini-1.5 Flash 8B e Claude-3 Haiku. Per alcuni benchmark, tra cui DocVQA (ANLS) e VQAv2 (VQA Match), il modello supera GPT-4o di OpenAI e Claude-3.5 Sonnet.

Oltre a poter eseguire Pixtral 12B su watsonx.ai, il modello è disponibile anche tramite Hugging Face, su Le Chat, il chatbot conversazionale di Mistral, o con endpoint API tramite La Plateforme di Mistral.