تدريب نماذج لغة مرئية من الصفر قد يكون كثيف الموارد ومكلفًا، لذا يمكن بدلًا من ذلك بناء نماذج اللغة المرئية من نماذج مُدربة مسبقًا.
يمكن استخدام نموذج لغوي كبير مدرب مسبقًا ومشفر رؤية مدرب مسبقًا، مع إضافة طبقة شبكة ربط تقوم بمحاذاة أو إسقاط التمثيل المرئي للصورة إلى مساحة إدخال النموذج اللغوي الكبير.
LLaVA (مساعد الرؤية واللغة الكبير) هو مثال على نموذج لغة مرئية تم تطويره من نماذج مدربة مسبقًا. يستخدم هذا النموذج متعدد الوسائط نموذج Vicuna LLM و CLIP ViT كمشفر للرؤية، مع دمج مخرجاتهما في فضاء متعدد الأبعاد مشترك باستخدام جهاز عرض خطي.1
قد يكون جمع بيانات تدريب عالية الجودة لنموذج اللغة المرئية أمرًا شاقًا، ولكن هناك مجموعات بيانات موجودة يمكن استخدامها للتدريب المسبق والتحسين والضبط الدقيق للمهام اللاحقة الأكثر تحديدًا.
على سبيل المثال، يحتوي ImageNet على ملايين الصور الموضحة، بينما يحتوي COCO على آلاف الصور المصنفة للترجمة التوضيحية على نطاق واسع، وكشف الكائنات وتقسيمها. وعلى نحو مماثل، تتكون مجموعة بيانات LAION من مليارات أزواج الصور والنصوص متعددة اللغات.