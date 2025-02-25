تتعلم نماذج اللغة المرئية تعيين العلاقات بين البيانات النصية والبيانات المرئية مثل الصور أو مقاطع الفيديو، مما يسمح لهذه النماذج بتوليد نص من المدخلات المرئية أو فهم الموجِّهات الطبيعية في سياق المعلومات المرئية.

وتجمع VLMs، التي يشار إليها أيضًا باسم نماذج اللغة المرئية، بين النماذج اللغوية الكبيرة (LLMs) مع نماذج الرؤية أو خوارزميات التعلم الآلي المرئي.



باعتبارها أنظمة ذكاء اصطناعي متعدد الوسائط، تأخذ نماذج اللغة المرئية النصوص والصور أو مقاطع الفيديو كمخرجات وتنتج نصًا كإدخال، عادةً في شكل أوصاف للصور أو مقاطع الفيديو، أو الإجابة على أسئلة حول صورة أو تحديد أجزاء من صورة أو كائنات في مقطع فيديو.