Melatih model bahasa visi sejak awal dapat memakan banyak sumber daya dan menghabiskan banyak biaya, sehingga VLM dapat dibangun dari model yang sudah terlatih.
LLM dan encoder visi yang telah dilatih sebelumnya dapat digunakan, dengan lapisan jaringan pemetaan tambahan yang menyelaraskan atau memproyeksikan representasi visual gambar ke ruang input LLM.
LLava (Large Language and Vision Assistant) adalah contoh VLM yang dikembangkan dari model yang telah dilatih sebelumnya. Model multimodal ini menggunakan Vicuna LLM dan CLIP ViT sebagai encoder visi, dengan output yang digabungkan ke dalam ruang dimensi bersama menggunakan proyektor linier.1
Mengumpulkan data pelatihan berkualitas tinggi untuk VLM bisa jadi membosankan, tetapi ada kumpulan data yang ada yang dapat digunakan untuk prapelatihan, pengoptimalan, dan penyempurnaan untuk tugas-tugas hilir yang lebih spesifik.
Misalnya, ImageNet berisi jutaan gambar beranotasi, sementara COCO memiliki ribuan gambar berlabel untuk teks skala besar, deteksi objek, dan segmentasi. Demikian pula, kumpulan data LAION terdiri dari miliaran pasangan gambar-teks multibahasa.