Poiché l'addestramento di modelli linguistici visivi da zero può essere costoso a livello di risorse e denaro, i VLM possono essere creati partendo da modelli preaddestrati.
È possibile utilizzare un LLM preaddestrato e un encoder visivo preaddestrato, con un livello di rete di mappatura aggiunto che allinea o proietta la rappresentazione visiva di un'immagine nello spazio di input dell'LLM.
LLava (Large Language and Vision Assistant) è un esempio di VLM sviluppato a partire da modelli preaddestrati. Questo modello multimodale utilizza Vicuna LLM e CLIP ViT come encoder visivi, unendone gli output in uno spazio dimensionale condiviso attraverso un proiettore lineare.1
Raccogliere dati di addestramento di alta qualità per i VLM può essere noioso, tuttavia esistono set di dati che possono essere utilizzati per il pre-addestramento, l'ottimizzazione e il fine-tuning per attività a valle più specifiche.
Ad esempio, ImageNet contiene milioni di immagini annotate, mentre COCO ha migliaia di immagini etichettate per didascalie su larga scala, rilevamento di oggetti e segmentazione. Allo stesso modo, il set di dati LAION è costituito da miliardi di coppie image-text multilingue.