ما هي نماذج اللغة المرئية (VLMs)؟

امرأة تحمل هاتفا وتنظر إلى خلفية ثلاثية الأبعاد

المؤلفين

Rina Diane Caballar

Staff Writer

IBM Think

Cole Stryker

Staff Editor, AI Models

IBM Think

ما هي نماذج اللغة المرئية (VLMs)؟

نماذج اللغة المرئية (VLMs) هي نماذج ذكاء اصطناعي (AI) تجمع بين قدرات رؤية الكمبيوتر ومعالجة اللغة الطبيعية (NLP).

تتعلم نماذج اللغة المرئية تعيين العلاقات بين البيانات النصية والبيانات المرئية مثل الصور أو مقاطع الفيديو، مما يسمح لهذه النماذج بتوليد نص من المدخلات المرئية أو فهم الموجِّهات الطبيعية في سياق المعلومات المرئية.

وتجمع VLMs، التي يشار إليها أيضًا باسم نماذج اللغة المرئية، بين النماذج اللغوية الكبيرة (LLMs) مع نماذج الرؤية أو خوارزميات التعلم الآلي المرئي.

باعتبارها أنظمة ذكاء اصطناعي متعدد الوسائط، تأخذ نماذج اللغة المرئية النصوص والصور أو مقاطع الفيديو كمخرجات وتنتج نصًا كإدخال، عادةً في شكل أوصاف للصور أو مقاطع الفيديو، أو الإجابة على أسئلة حول صورة أو تحديد أجزاء من صورة أو كائنات في مقطع فيديو.

عناصر النماذج اللغوية المرئية

تتكون نماذج اللغة المرئية عادةً من عنصرين رئيسيين:

    ● مُشفِّر اللغة

    ● مُشفِّر الرؤية

مُشفِّر اللغة

يقوم مُشفِّر اللغة بالتقاط المعنى الدلالي والارتباطات السياقية بين الكلمات والعبارات ويحولها إلى تضمينات نصية لمعالجتها بواسطة نماذج الذكاء الاصطناعي.

تستخدم معظم نماذج اللغة المرئية بنية الشبكة العصبية المعروفة باسم نموذج المحول لمشفر اللغة الخاص بها. تتضمن الأمثلة على المحولات من Google (تمثيلات التشفير ثنائية الاتجاه من المحولات)، وهو أحد نماذج الأساس الأولى التي تدعم العديد من النماذج اللغوية الكبيرة الحالية، ومحول OpenAI التوليدي المدرب مسبقًا (GPT).

فيما يأتي لمحة موجزة عن بنية المحولات:

    ● تحوِّل أدوات التشفير تسلسلات المدخلات إلى تمثيلات رقمية تسمى التضمينات التي تلتقط دلالات الرموز ومواقعها في تسلسل المدخلات.

    ● آلية الانتباه الذاتي تسمح للمحولات بتركيز انتباهها على الرموز الأكثر أهمية في تسلسل المدخلات، بغض النظر عن موقعها.

    ● تستخدم أدوات فك التشفير آلية الانتباه الذاتي وتضمينات أدوات التشفير لإنشاء تسلسل المخرجات الأكثر احتمالًا من الناحية الإحصائية.

مُشفِّر الرؤية

يقوم مُشفِّر الرؤية باستخراج الخصائص المرئية الحيوية مثل الألوان والأشكال والملمس من صورة أو إدخال فيديو وتحويلها إلى تضمينات متجهة يمكن لنماذج التعلم الآلي معالجتها.

استخدمت الإصدارات السابقة من نماذج اللغة المرئية خوارزميات التعلم العميق مثل الشبكات العصبية التلافيفية لاستخراج السمات. تستخدم نماذج اللغة المرئية الأكثر حداثة محول الرؤية (ViT)، والذي يطبق عناصر نموذج اللغة القائم على المحول.

يعالج ViT الصورة في تصحيحات ويعاملها كتسلسلات، على غرار رمز مميز في محول اللغة. يقوم محول الرؤية بعد ذلك بتنفيذ الانتباه الذاتي عبر هذه الرقع لإنشاء تمثيل قائم على المحول لصورة الإدخال.

تدريب نماذج اللغة المرئية

تتضمن الاستراتيجية لتدريب نماذج اللغة المرئية مواءمة ودمج المعلومات من كل من مشفرات الرؤية واللغة بحيث يمكن لنموذج اللغة المرئية أن يتعلم ربط الصور بالنص واتخاذ قرارات بشأن الطريقتين معًا.

يعتمد تدريب نموذج اللغة المرئية عادةً على مزيج من الأساليب:

    ● التعلّم المتباين

    ● الإخفاء

    ● تدريب النموذج التوليدي

    ● نماذج مدربة مسبقًا

التعلّم المتباين

يقوم التعلم المتباين بتعيين تضمينات الصور والنصوص من كلا المشفرين إلى فضاء تضمين مشترك أو موحد. يتم تدريب نموذج اللغة المرئية على مجموعات بيانات من أزواج الصور والنصوص، ويتعلم تقليل المسافة بين تضمينات الأزواج المتطابقة وتعظيمها للأزواج غير المتطابقة.

"إحدى خوارزميات التعلم التبايني الشائعة هي CLIP (التدريب المسبق التبايني للغة والصورة)." تم تدريب نموذج CLIP على 400 مليون زوج من الصور والتعليقات المأخوذة من الإنترنت، وأظهر دقة تصنيف عالية بدون أمثلة تدريبية.1

الإخفاء

الإخفاء هو أسلوب تدريب آخر حيث تتعلم نماذج اللغة المرئية التنبؤ بأجزاء محجوبة عشوائيًا من إدخال نص أو صورة. في نمذجة اللغة المقنعة، تتعلم نماذج اللغة المرئية ملء الكلمات المفقودة في تعليق نصي مع صورة غير مقنعة.

وفي الوقت نفسه، في نمذجة الصور المقنعة، تتعلم نماذج اللغة المرئية إعادة بناء البكسلات المخفية في الصورة بمعطيات وصف غير مقنع.

مثال على نموذج يستخدم الإخفاء هو FLAVA (اللغة التأسيسية ومحاذاة الرؤية). يستخدم نموذج FLAVA محول رؤية كمشفر للصور، وبنية محول لكل من مشفر اللغة والمشفر متعدد الوسائط.

يطبق المشفر متعدد الوسائط آلية الانتباه المتبادل لدمج المعلومات النصية والمرئية. يشمل تدريب FLAVA يشمل النمذجة المقنعة جنبًا إلى جنب مع التعلم المتباين.1

تدريب النموذج التوليدي

يتضمن تدريب النموذج التوليدي لنماذج اللغة المرئية تعلم كيفية إنشاء بيانات جديدة. توليد الصور من النص ينتج صورًا من النص المدخل، بينما توليد النص من الصور ينتج نصًا—مثل التعليقات، أو أوصاف الصور، أو الملخصات—من صورة مدخلة.

أمثلة على نماذج تحويل النص إلى صور الشائعة تتضمن نماذج الانتشار، مثل Imagen من جوجل، و Midjourney، و DALL-E من OpenAI (بدءًا من DALL-E 2)، و Stable Diffusion من Stability AI.

نماذج مدربة مسبقًا

تدريب نماذج لغة مرئية من الصفر قد يكون كثيف الموارد ومكلفًا، لذا يمكن بدلًا من ذلك بناء نماذج اللغة المرئية من نماذج مُدربة مسبقًا.

يمكن استخدام نموذج لغوي كبير مدرب مسبقًا ومشفر رؤية مدرب مسبقًا، مع إضافة طبقة شبكة ربط تقوم بمحاذاة أو إسقاط التمثيل المرئي للصورة إلى مساحة إدخال النموذج اللغوي الكبير.

LLaVA (مساعد الرؤية واللغة الكبير) هو مثال على نموذج لغة مرئية تم تطويره من نماذج مدربة مسبقًا. يستخدم هذا النموذج متعدد الوسائط نموذج Vicuna LLM و CLIP ViT كمشفر للرؤية، مع دمج مخرجاتهما في فضاء متعدد الأبعاد مشترك باستخدام جهاز عرض خطي.1

قد يكون جمع بيانات تدريب عالية الجودة لنموذج اللغة المرئية أمرًا شاقًا، ولكن هناك مجموعات بيانات موجودة يمكن استخدامها للتدريب المسبق والتحسين والضبط الدقيق للمهام اللاحقة الأكثر تحديدًا.

على سبيل المثال، يحتوي ImageNet على ملايين الصور الموضحة، بينما يحتوي COCO على آلاف الصور المصنفة للترجمة التوضيحية على نطاق واسع، وكشف الكائنات وتقسيمها. وعلى نحو مماثل، تتكون مجموعة بيانات LAION من مليارات أزواج الصور والنصوص متعددة اللغات.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

حالات استخدام نموذج اللغة المرئية

يمكن لنماذج اللغة المرئية سد الفجوة بين المعلومات المرئية واللغوية. ما كان يتطلب سابقًا نموذجين منفصلين للذكاء الاصطناعي لكل نمط، يمكن الآن دمجه في نموذج واحد.

يمكن استخدام نماذج اللغة المرئية لمجموعة من مهام لغة الرؤية:

    ● التسمية التوضيحية والتلخيص

    ● توليد الصور

    ● البحث عن الصور واسترجاعها

    ● تجزئة الصورة

    ● اكتشاف الأشياء

    ● الإجابة عن الأسئلة المرئية (VQA)

التسمية التوضيحية والتلخيص

يمكن لنماذج اللغة المرئية إنشاء تسميات توضيحية أو أوصاف مفصلة للصور. ويمكنها أيضاً تلخيص مقاطع الفيديو والمعلومات المرئية في المستندات، مثل الصور الطبية لإعدادات الرعاية الصحية أو مخططات إصلاح المعدات في منشآت التصنيع.

توليد الصورة

يمكن أن تساعد مولدات تحويل النص إلى صورة مثل DALL-E و Imagen و Midjourney و Stable Diffusion في إنشاء فن أو صور لمرافقة المحتوى المكتوب. يمكن للشركات أيضًا استخدام هذه الأدوات أثناء مراحل التصميم والنماذج الأولية، مما يساعد على تصور أفكار المنتجات.

البحث عن الصور واسترجاعها

يمكن لنماذج اللغة المرئية البحث في معارض الصور الكبيرة أو قواعد بيانات الفيديو واسترداد الصور أو مقاطع الفيديو ذات الصلة بناءً على استعلام اللغة الطبيعية. يمكن أن يؤدي ذلك إلى تحسين تجربة المستخدم للمتسوقين على مواقع التجارة الإلكترونية، على سبيل المثال، مساعدتهم في العثور على عنصر معين أو التنقل في كتالوج واسع.

تجزئة الصورة

يمكن لنموذج لغة مرئية تقسيم صورة إلى أجزاء بناءً على السمات المكانية التي تعلمها واستخرجها من الصورة. يمكن للنموذج اللغة المرئية بعد ذلك توفير أوصاف نصية لتلك المقاطع.

ويمكنه أيضًا إنشاء مربعات محددة لتحديد مواقع الكائنات أو توفير أشكال أخرى من التعليقات التوضيحية مثل التسميات أو التظليل الملون لتحديد أقسام الصورة المتعلقة بالاستعلام.

يمكن أن يكون هذا مفيدًا للصيانة التنبؤية، على سبيل المثال، المساعدة في تحليل الصور أو مقاطع الفيديو لأرضيات المصنع للكشف عن عيوب المعدات المحتملة في الوقت الفعلي.

اكتشاف الأشياء

يمكن لنماذج اللغة المرئية التعرف على الأشياء داخل الصورة وتصنيفها وتوفير أوصاف سياقية مثل موضع الشئ بالنسبة للعناصر المرئية الأخرى.

يمكن استخدام كشف الأشياء في مجال التشغيل الآلي، على سبيل المثال، مما يسمح للروبوتات بفهم بيئتها بشكل أفضل وفهم التعليمات المرئية.

الإجابة على الأسئلة المرئية (VQA)

يمكن لنماذج اللغة المرئية الإجابة على أسئلة حول الصور أو مقاطع الفيديو، مما يدل على مهاراتهم في التفكير البصري. يمكن أن يساعد هذا في تحليل الصور أو مقاطع الفيديو ويمكن حتى توسيعه ليشمل تطبيقات الذكاء الاصطناعي الفاعل .

على سبيل المثال، في قطاع النقل، يمكن تكليف وكلاء الذكاء الاصطناعي بتحليل مقاطع فيديو فحص الطرق وتحديد المخاطر مثل علامات الطرق التالفة وإشارات المرور المعيبة والحفر.

بعد ذلك، يمكن مطالبتهم بإنتاج تقرير صيانة يحدد موقع ووصف تلك المخاطر.

أمثلة على نماذج اللغة المرئية

تتقدم نماذج اللغة المرئية بشكل سريع، مع إمكانية انتشارها على نطاق واسع مثل النماذج اللغوية الكبيرة المتقدمة الحالية.

فيما يلي بعض الأمثلة على نماذج اللغة المرئية الشائعة:

    ● DeepSeek-VL2

    ● Gemini 2.0 Flash

    ● GPT-4o

    ● Llama 3.2

    ● NVLM

    ● Qwen 2.5-VL

DeepSeek-VL2

DeepSeek-VL2 هو نموذج لغة مرئية مفتوح المصدر يحتوي على 4.5 مليار معلمة من شركة DeepSeek الصينية الناشئة للذكاء الاصطناعي. يتكون من مشفر الرؤية ومحول لغة الرؤية و DeepSeekMoE LLM، والذي يتبنى بنية مزيج الخبراء (MoE) .

يحتوي DeepSeek-VL2 على متغير صغير يحتوي على مليار معلمة ومتغير صغير يحتوي على 2.8 مليار معلمة.2

Gemini 2.0 Flash

يعد Gemini 2.0 Flash جزءًا من مجموعة نماذج Google Gemini . تتضمن طرق الإدخال الصوت والصورة والنص والفيديو، مع إخراج نصي فقط. ميزة توليد الصور في الطريق.

نموذج GPT-4o

نموذج GPT-4o من OpenAI هو نموذج واحد تم تدريبه بشكل شامل عبر بيانات الصوت والرؤية والنص. يمكنه استقبال خليط من مدخلات الصوت، والصورة، والنص، والفيديو، وإنتاج أي توليفة من مخرجات الصوت، والصورة، والنص، وذلك باستخدام نفس الشبكة العصبية لمعالجة جميع المدخلات والمخرجات.

يدعم نظيره الأصغر، GPT-4o mini، إدخالات الصور والنصوص وينتج مخرجات نصية.

Llama 3.2

تتضمن نماذج Llama 3.2 مفتوحة المصدر وحدتي VLM بحجم 11 و 90 مليار معلمة. يمكن أن يكون الإدخال مزيجًا من النص والصور، مع إخراج نصي فقط.3

وفقًا لـ Meta، تتكون بنية VLM من مشفر صور VLM ومحول فيديو ومحول صور.4 يحتوي محول الصور المدرَّب بشكل منفصل على سلسلة من طبقات الانتباه المتقاطع التي تغذي تمثيلات مشفر الصور في Llama 3.1 LLM.3المدرَّب مسبقًا.

NVLM

NVLM هي عائلة من النماذج متعددة الوسائط من NVIDIA. إن نموذج NVLM-D هو نموذج فك تشفير فقط، يقوم بتغذية رموز الصور مباشرة إلى وحدة فك تشفير نموذج اللغة الكبير. يستخدم نموذج NVLM-X الانتباه المتقاطع لمعالجة رموز الصور، وهو أكثر كفاءة في التعامل مع الصور عالية الدقة.

يعتمد نموذج NVLM-H على بنية هجينة تجمع بين مقاربتي فك التشفير فقط والانتباه المتقاطع، مما يحسن الكفاءة الحسابية وقدرات الاستدلال.5

Qwen 2.5-VL

Qwen 2.5-VL هو نموذج اللغة المرئية الرائد لشركة الحوسبة السحابية الصينية علي Alibaba Cloud. يأتي بأحجام 3 و 7 و 72 مليار معلمة.

يستخدم النموذج مشفر رؤية ViT و Qwen 2.5 LLM. يمكنه فهم مقاطع الفيديو التي تزيد مدتها عن ساعة ويمكنه التنقل في واجهات سطح المكتب والهواتف الذكية.

معايير نموذج اللغة المرئية

مثل النماذج اللغوية الكبيرة، فإن نماذج اللغة المرئية لديها أيضًا معاييرها الخاصة. قد يكون لكل معيار تقييم لوحة صدارة خاصة به، ولكن توجد أيضًا لوحات صدارة مستقلة مثل لوحة صدارة OpenVLM المستضافة على Hugging Face، والتي تصنف نماذج رؤية اللغة مفتوحة المصدر بناءً على مقاييس متنوعة.

فيما يلي بعض المعايير المشتركة لنماذج اللغة المرئية:

    ● MathVista هو معيار للاستدلال الرياضي المرئي.

    ● MMBench يحتوي على مجموعة من أسئلة الاختيار من متعدد التي تغطي العديد من أبعاد التقييم، بما في ذلك توطين الكائن والتعرف البصري على الأحرف (OCR) والمزيد.

    ● MMMU (الفهم متعدد التخصصات متعدد الوسائط الضخم) يحتوي على تحديات اختيار من متعدد متعددة الوسائط عبر مواضيع متنوعة لقياس المعرفة والإدراك ومهارات الاستدلال.

    ● MM-Vet يقوم بتقييم تكامل قدرات VLM المختلفة، مثل توليد اللغة والوعي المكاني والمزيد.

    ● OCRBench يركز على قدرات التعرف البصري على الأحرف لنماذج اللغة المرئية. يتكون من 5 مكونات: الإجابة على الأسئلة المرئية الموجهة للمستندات، والتعرف على التعبيرات الرياضية المكتوبة بخط اليد، واستخراج المعلومات الرئيسية، والتعرف على النصوص، والإجابة على الأسئلة المرئية التي تركز على النص في المشهد.

    ● VQA هو أحد أقدم معايير نماذج اللغة المرئية (VLM). تتضمن مجموعة البيانات أسئلة مفتوحة حول الصور. تشمل مشتقات VQA الأخرى GQA (الإجابة على الأسئلة حول مخططات مشاهد الصور)، و OK-VQA (يتطلب معرفة خارجية للإجابة على الأسئلة المرئية)، و ScienceQA (الإجابة على الأسئلة العلمية) و TextVQA (الاستدلال البصري بناءً على النص في الصور).

يمكن أن يكون تقييم أداء نماذج اللغات المرئية (VLMs) مستهلكًا للوقت، ولكن هناك بعض الأدوات التي يمكن أن تساعد في تبسيط العملية. VLMEvalKit هي مجموعة أدوات تقييم مفتوحة المصدر تسمح بتقييم نماذج اللغة المرئية (VLMs) بأمر واحد. مجموعة تقييم أخرى هي LMMs-Eval، والتي توفر أيضًا واجهة سطر أوامر للتقييم.

تحديات نماذج اللغة المرئية

كما هو الحال مع أي نظام ذكاء اصطناعي، لا تزال أجهزة نماذج اللغة المرئية بحاجة إلى التعامل مع مخاطر الذكاء الاصطناعي. يجب على الشركات أن تضع ذلك في اعتبارها عند التفكير في دمج نماذج اللغة المرئية في عمليات سير العمل الداخلية أو تطبيقها للتطبيقات التجارية.

فيما يلي بعض التحديات المرتبطة بنماذج اللغة المرئية:

    ● التحيز

    ● التكلفة والتعقيد

    ● التعميم

    ● الهلوسة

التحيز

يمكن لنماذج اللغة المرئية أن تتعلم من التحيزات التي قد تكون موجودة في بيانات العالم الحقيقي التي تتدرب عليها أو من النماذج المدربة مسبقًا التي بُنيت عليها. يمكن أن يساعد استخدام مصادر البيانات المتنوعة ودمج الإشراف البشري طوال العملية في التخفيف من التحيز.

التكلفة والتعقيد

نماذج الرؤية ونماذج اللغة معقدة بالفعل من تلقاء نفسها، لذا فإن دمجها يمكن أن يزيد من تعقيدها. هذا التعقيد يؤدي إلى الحاجة لمزيد من موارد الحوسبة، مما يجعل من الصعب نشر نماذج اللغات المرئية (VLMs) على نطاق واسع. يجب على الشركات أن تكون مستعدة للاستثمار في الموارد اللازمة لتطوير وتدريب ونشر هذه النماذج.

التعميم

قد تتعثر نماذج اللغة المرئية (VLMs) عندما يتعلق الأمر بالتعميم، وهو قدرة النموذج على التكيف وإجراء تنبؤات دقيقة على بيانات جديدة لم يسبق رؤيتها.

يمكن لمجموعة بيانات متوازنة تتضمن القيم المتطرفة أو حالات الحافة، وتستخدم التعلم الصفري، أن تسمح لنماذج اللغة المرئية (VLMs) بالتكيف مع المفاهيم الجديدة أو تركيبات الصور والنصوص غير النمطية.

يمكن أن يساعدك أيضًا معيار LiveXiv الخاص بشركة IBM لمهام فهم المستندات المرئية. LiveXiv هو معيار ديناميكي يتم تحديثه تلقائيًا شهريًا، ويقوم بتقييم نماذج اللغة المرئية على الأسئلة والصور التي من المحتمل أنها لم يروها من قبل.

النتائج الخاطئة

يمكن أن تكون نماذج اللغة المرئية عرضة لهلوسة الذكاء الاصطناعي. يعد التحقق من صحة نتائج هذه النماذج خطوة حاسمة للتأكد من أنها دقيقة من الناحية الواقعية.

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

الحواشي

تؤدي كل الروابط إلى صفحات خارج ibm.com

1 An Introduction to Vision-Language Modeling, arXiv, 27 May 2024.

2 DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding, GitHub, 13 December 2024.

3 Model Information, GitHub, 30 September 2024.

4 The Llama 3 Herd of Models , arXiv, 23 November 2024.

5 NVLM: Open Frontier-Class Multimodal LLMs, arXiv, 22 October 2024.

حلول ذات صلة
IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها المتوفرة لك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. تمكَّن من إنتاج حلول ذكاء اصطناعي قوية بفضل الواجهات سهلة الاستخدام وعمليات سير العمل السلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرامج القياسية في الصناعة.

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا