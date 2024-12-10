Im September 2024 brachte Mistral KI Pixtral 12B heraus, ein Open Source Large Language Models (LLM) unter der Apache 2.0 Lizenz.

Mit 12 Milliarden Parametern basiert das multimodale Modell auf dem Nemo 12B LLM von Mistral KI. Pixtral 12B hat zwei Komponenten: den Vision-Encoder zur Tokenisierung von Bildern und einen multimodalen Transformer-Decoder zur Vorhersage des folgenden Tokens anhand einer Sequenz von Text und Bildern. Der Bildcodierer verfügt über 400 Millionen Parameter und unterstützt variable Bildgrößen.

Das Modell glänzt in mehreren Anwendungsfällen, darunter das Verständnis von Grafiken, Diagrammen, Tabellen und Dokumenten in hoher Auflösung, die für Aufgaben zur Beantwortung von Dokumentenfragen, Anweisungsfolgen oder Retrieval-Augmented Generation (RAG)-Aufgaben eingesetzt werden können. Zusätzlich verfügt Pixtral 12B über ein Kontextfenster mit 128.000 Tokens, das die gleichzeitige Nutzung mehrerer Bilder ermöglicht.

In Bezug auf Benchmarks übertrifft Pixtral 12B verschiedene Modelle, darunter Qwen2-VL, Gemini-1.5 Flash 8B und Claude-3 Haiku. Bei bestimmten Benchmarks, darunter DocVQA (ANLS) und VQAv2 (VQA Match), übertrifft das Modell die OpenAI-Modelle GPT-4o und Claude-3.5 Sonett.

Neben der Möglichkeit, Pixtral 12B auf watsonx.ai zu betreiben, ist das Modell auch über Hugging Face, auf Le Chat, Mistrals Chatbot, oder über API-Endpunkt VIA La Plateforme verfügbar.