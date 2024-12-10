Pada bulan September 2024, Mistral AI meluncurkan Pixtral 12B, model bahasa besar (LLM) sumber terbuka di bawah lisensi Apache 2.0.

Dengan 12 miliar parameter, model multimodal dibangun di atas Nemo 12B LLM dari Mistral AI. Pixtral 12B memiliki dua komponen: enkoder visi untuk menandai gambar dan dekoder transformator multimodal untuk memprediksi token teks berikut yang diberikan urutan teks dan gambar. Enkoder visi memiliki 400 juta parameter dan mendukung ukuran gambar variabel.

Model ini unggul dalam berbagai contoh penggunaan, termasuk memahami grafik, diagram, bagan, dan dokumen dalam resolusi tinggi, yang dapat digunakan untuk menjawab pertanyaan dokumen, mengikuti instruksi atau Generasi dengan dukungan pengambilan data (RAG) tugas. Selain itu, Pixtral 12B memiliki jendela konteks 128.000 token, yang memungkinkan konsumsi beberapa gambar secara bersamaan.

Dalam hal tolok ukur, Pixtral 12B mengungguli berbagai model, termasuk Qwen2-VL, Gemini-1.5 Flash 8B, dan Claude-3 Haiku. Untuk tolok ukur tertentu, termasuk DocVQA (ANLS) dan vQAV2 (VQA Match), model ini mengungguli GPT-4o dan Claude-3.5 Soneta dari OpenAI.

Selain dapat menjalankan Pixtral 12B di watsonx.ai, model ini juga tersedia melalui Hugging Face, di Le Chat, chatbot percakapan Mistral, atau melalui titik akhir API melalui La Plateforme Mistral.