في هذا البرنامج التعليمي، ستكتشف كيفية استخدام نموذج Pixtral 12B متعدد الوسائط من Mistral AI والمتوفر الآن على watsonx.ai لتنفيذ المهام متعددة الوسائط مثل إنشاء التسميات التوضيحية للصور والإجابة عن الأسئلة المرئية.
في سبتمبر 2024، طرحت Mistral AI نموذج Pixtral 12B، وهو نموذج لغوي كبير مفتوح المصدر بموجب ترخيص Apache 2.0.
مع 12 مليار معلمة، أُنشئ هذا النموذج متعدد الوسائط على النموذج اللغوي الكبير Nemo 12B من Mistral AI. يحتوي Pixtral 12B على عنصرين: مشفر الرؤية لترميز الصور، وأداة فك تشفير المحولات متعددة الوسائط للتنبؤ بالرمز المميز التالي للنص بناءً على تسلسل من النصوص والصور. يحتوي مشفر الرؤية على 400 مليون معلمة ويدعم أحجام الصور المختلفة.
يتميز النموذج في عدة حالات استخدام، بما في ذلك فهم الرسوم البيانية والرسوم التخطيطية والمخططات والمستندات بدقة عالية، والتي يمكن استخدامها في مهام الإجابة عن أسئلة المستندات، أو اتباع التعليمات، أو التوليد المعزز بالاسترجاع (RAG). وبالإضافة إلى ذلك، يحتوي Pixtral 12B على نافذة سياق مكونة من 128000 رمز مميز، ما يسمح باستقبال صور متعددة في وقت واحد.
فيما يتعلق بالمعايير، يتفوق Pixtral 12B على العديد من النماذج، بما في ذلك Qwen2-VL وGemini-1.5 وFlash 8B وClaude-3 Haiku. بالنسبة إلى بعض المعايير، بما في ذلك DocVQA (ANLS) وVQAv2 (VQA Match)، يتفوق النموذج على نموذج GPT-4o من OpenAI وClaude-3.5 Sonnet.
بالإضافة إلى إمكانية تشغيل Pixtral 12B على watsonx.ai، يتوفر النموذج أيضًا عبر Hugging Face، أو على Le Chat، وهو روبوت محادثة من Mistral، أو عبر نقطة نهاية واجهة برمجة التطبيقات من خلال La Plateforme من Mistral.
راجع فيديو IBM Technology على YouTube الذي يشرح لك تعليمات الإعداد التالية في الخطوتين 1 و2.
بينما يمكنك الاختيار من بين عدة أدوات، يُعد هذا البرنامج التعليمي أكثر ما يناسب Jupyter Notebook. تُستخدم Jupyter Notebooks على نطاق واسع في علم البيانات لدمج التعليمات البرمجية مع مصادر بيانات متنوعة مثل النصوص والصور والعروض المصورة للبيانات.
هذا البرنامج التعليمي يرشدك حول كيفية إعداد حساب IBM لاستخدام Jupyter Notebook.
سجِّل الدخول إلى watsonx.ai باستخدام حسابك على IBM Cloud. برجاء العلم أن Pixtral 12B متوفر حاليًا فقط في مناطق عمل IBM في أوروبا بفرانكفورت ولندن.
أنشئ مشروع watsonx.ai.
يمكنك الحصول على معرِّف المشروع من داخل مشروعك. انقر فوق علامة التبويب الإدارة (Manage) ، ثم انسخ معرِّف المشروع من قسم التفاصيل (Details) في صفحة عام (General). ستحتاج إلى هذا المعرِّف في هذا البرنامج التعليمي.
أنشئ Jupyter Notebook.
هذه الخطوة ستفتح بيئة دفتر ملاحظات حيث يمكنك نسخ التعليمات البرمجية من هذا البرنامج التعليمي لضبط الموجِّهات بنفسك. أو يمكنك تنزيل هذا الدفتر على نظامك المحلي وتحميله إلى مشروع watsonx.ai كأصل. يمكن العثور على Jupyter Notebook هذا مع مجموعات البيانات المستخدمة على GitHub.
لتجنب تعارضات ارتباط حزم Python، نوصي بإعداد بيئة افتراضية.
سنحتاج إلى عدد قليل من المكتبات والوحدات لهذا البرنامج التعليمي. تأكَّد من استيراد الحزم التالية؛ وإذا لم تكن مثبَّتة، يمكنك تثبيتها بسرعة باستخدام أمر pip.
أدخل WATSONX_EU_APIKEY وWATSONX_EU_PROJECT_ID اللذين أنشأتهما في الخطوتين 1 و2 عند تشغيل الخلية التالية. سنعيّن أيضًا عنوان URL كنقطة نهاية لواجهة برمجة التطبيقات.
يمكننا استخدام فئة بيانات الاعتماد لتضمين بيانات الاعتماد المرسلة.
في هذا البرنامج التعليمي، سنعمل على عدة صور لتطبيقات الذكاء الاصطناعي متعددة الوسائط مثل إنشاء التسميات التوضيحية للصور واكتشاف الكائنات. يمكن الوصول إلى الصور التي سنستخدمها باستخدام عناوين URL التالية. يمكننا تخزين عناوين URL هذه في قائمة لتشفيرها بشكل متكرر.
للحصول على فهم أفضل للبيانات المدخلة، دعونا نعرض الصور.
المخرجات:
url_image_0
url_image_1
url_image_2
url_image_3
لتشفير صورنا بطريقة سهلة الفهم بالنسبة إلى النموذج اللغوي الكبير، سنشفرها بالتحويل إلى وحدات بايت ثم نفك تشفيرها بتحويلها إلى تمثيل UTF-8.
الآن بعد أن أصبح بإمكاننا تمرير صورنا إلى النموذج اللغوي الكبير، دعونا نضبط دالة لاستدعاءات واجهة برمجة تطبيق watsonx تأخذ دالة augment_api_request_body استعلام المستخدم والصورة كمعلمات وتثري نص طلب واجهة برمجة التطبيق. سوف نستخدم هذه الدالة في كل دورة تكرار.
دعونا نُنشئ نسخة من واجهة النموذج باستخدام فئة theModelInference. في هذا البرنامج التعليمي، سوف نستخدم نموذج mistralai/pixtral-12b.
والآن، يمكننا استعراض صورنا لرؤية الأوصاف النصية التي ينتجها النموذج استجابةً لاستعلام، "ماذا يحدث في هذه الصورة؟"
المخرجات:
تُصور الصورة حقلاً زاهيًا من الورود المتفتحة بالكامل تحت سماء زرقاء صافية، مع ضوء الشمس الساطع، ما يُظهر مشهدًا هادئًا وخلابًا.
في الصورة، يظهر شخص جالس على طاولة، ويستخدم جهاز كمبيوتر محمول بينما يحمل بطاقة ائتمان. يوجد بعض التفاح في وعاء على الطاولة بجانب الكمبيوتر المحمول.
شخص واقف بجانب سيارة مغطاة بالثلج بشكل كثيف، ويحمل مظلة حمراء لحماية نفسه من الثلوج المتساقطة.
تصور الصورة سير عمل لمعالجة البيانات وتخزينها، على الأرجح من أجل التعلم الآلي أو تحليل البيانات. يبدأ بتحميل بيانات المصدر (مثل مستندات HTML أو XML)، وتحويل البيانات إلى تنسيق مناسب، وتضمينها في متجهات رقمية، وتخزين هذه المتجهات في قاعدة بيانات، وأخيرًا استرجاع البيانات عند الحاجة.
تمكّن نموذج Pixtral 12B من إنشاء تسميات توضيحية مفصلة بدقة لكل صورة بنجاح.
الآن بعد أن استعرضنا الإمكانات التي يتمتع بها النموذج في إنشاء تسميات توضيحية للصور في الخطوة السابقة، دعونا نطرح على النموذج بعض الأسئلة التي تتطلب اكتشاف الكائنات. فيما يتعلق بالصورة الثانية التي تصور امرأة تتسوق عبر الإنترنت، سنسأل النموذج: "ماذا تحمل المرأة في يدها؟"
النتيجة: المرأة تحمل في يدها بطاقة ائتمان.
نجح النموذج في التعرف على الكائن الذي في يد المرأة. والآن، لنستعلم عن المشكلة في صورة السيارة المغطاة بالثلج.
النتيجة: من المحتمل أن تكون السيارة عالقة في الثلوج العميقة، ما يجعل من الصعب أو المستحيل تحريكها.
تسلط هذه الاستجابة الضوء على قيمة الذكاء الاصطناعي متعدد الوسائط في مجالات مثل التأمين. تمكّن النموذج من اكتشاف المشكلة في صورة السيارة العالقة في الثلج. ومن ثَم، قد يكون هذا أداة فائقة لتحسين وقت معالجة مطالبات التأمين.
بعد ذلك، لنسأل النموذج عن الخطوات الموجودة في صورة المخطط الانسيابي.
النتيجة: يوضح المخطط عملية تتضمن عدة خطوات: "التحميل"، و"التحويل"، و"التضمين"، و"التخزين"، و"الاسترجاع". من المرجح أن يمثل هذا التسلسل سير عمل لمعالجة البيانات وتخزينها، مع تحويلها إلى متجهات مضمنة للتخزين والاسترجاع بكفاءة.
رائع! تمكّن النموذج من تمييز الكائنات الموجودة بالصور بعد استعلامات المستخدم. نشجعك على تجربة المزيد من الاستعلامات للتثبت من أداء النموذج أكثر.
في هذا البرنامج التعليمي، استخدمت نموذج Pixtral 12B لتنفيذ عمليات متعددة الوسائط بما في ذلك إنشاء تسميات توضيحية للصور والإجابة عن الأسئلة المرئية.
لتجربة نماذج متعددة الوسائط أخرى، اطلع على هذا البرنامج التعليمي حول النموذج متعدد الوسائط Llama 3.2 من Meta على watsonx.ai.
تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.
استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.
أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.