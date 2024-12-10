En septembre 2024, Mistral AI a lancé Pixtral 12B, un grand modèle de langage (LLM) open-source sous licence Apache 2.0.

Avec ses 12 milliards de paramètres, le modèle multimodal est construit sur le LLM Nemo 12B de Mistral AI. Pixtral 12B comporte deux composants : un encodeur de vision pour tokeniser les images, et un décodeur transformer multimodal pour prédire le token textuel suivant à partir d’une séquence de texte et d’images. L’encodeur de vision possède 400 millions de paramètres et prend en charge des tailles d’image variables.

Le modèle excelle dans de multiples cas d’utilisation, notamment la compréhension des graphes, des diagrammes, des graphiques et des documents en haute résolution, ce qui lui permet de répondre aux questions relatives aux documents, de suivre des instructions ou d’accomplir des tâches de génération augmentée par récupération (RAG). De plus, Pixtral 12B possède une fenêtre contextuelle de 128 000 tokens, qui permet de consommer plusieurs images simultanément.

En termes de benchmarks, Pixtral 12B surpasse divers modèles, notamment Qwen2-VL, Gemini-1.5 Flash 8B et Claude-3 Haiku. Pour certains benchmarks, notamment DocVQA (ANLS) et VQAv2 (VQA Match), le modèle surpasse GPT-4o et Claude-3.5 Sonnet d’OpenAI.

En plus de pouvoir s’exécuter sur watsonx.ai, le modèle est également disponible via Hugging Face, sur Le Chat, le chatbot de Mistral, ou via un point de terminaison d’API par le biais de La Plateforme de Mistral.