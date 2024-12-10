في سبتمبر 2024، طرحت Mistral AI نموذج Pixtral 12B، وهو نموذج لغوي كبير مفتوح المصدر بموجب ترخيص Apache 2.0.

مع 12 مليار معلمة، أُنشئ هذا النموذج متعدد الوسائط على النموذج اللغوي الكبير Nemo 12B من Mistral AI. يحتوي Pixtral 12B على عنصرين: مشفر الرؤية لترميز الصور، وأداة فك تشفير المحولات متعددة الوسائط للتنبؤ بالرمز المميز التالي للنص بناءً على تسلسل من النصوص والصور. يحتوي مشفر الرؤية على 400 مليون معلمة ويدعم أحجام الصور المختلفة.

يتميز النموذج في عدة حالات استخدام، بما في ذلك فهم الرسوم البيانية والرسوم التخطيطية والمخططات والمستندات بدقة عالية، والتي يمكن استخدامها في مهام الإجابة عن أسئلة المستندات، أو اتباع التعليمات، أو التوليد المعزز بالاسترجاع (RAG). وبالإضافة إلى ذلك، يحتوي Pixtral 12B على نافذة سياق مكونة من 128000 رمز مميز، ما يسمح باستقبال صور متعددة في وقت واحد.

فيما يتعلق بالمعايير، يتفوق Pixtral 12B على العديد من النماذج، بما في ذلك Qwen2-VL وGemini-1.5 وFlash 8B وClaude-3 Haiku. بالنسبة إلى بعض المعايير، بما في ذلك DocVQA (ANLS) وVQAv2 (VQA Match)، يتفوق النموذج على نموذج GPT-4o من OpenAI وClaude-3.5 Sonnet.

بالإضافة إلى إمكانية تشغيل Pixtral 12B على watsonx.ai، يتوفر النموذج أيضًا عبر Hugging Face، أو على Le Chat، وهو روبوت محادثة من Mistral، أو عبر نقطة نهاية واجهة برمجة التطبيقات من خلال La Plateforme من Mistral.