Entrenar modelos de lenguaje visual desde cero puede ser costoso y consumir muchos recursos, por lo que los VLM pueden construirse a partir de modelos preentrenados.
Se puede emplear un LLM preentrenado y un codificador de visión preentrenado, con una capa de red de mapeo agregada que alinea o proyecta la representación visual de una imagen al espacio de entrada del LLM.
LLaVA (Large Language and Vision Assistant) es un ejemplo de VLM desarrollado a partir de modelos preentrenados. Este modelo multimodal emplea el Vicuna LLM y el CLIP ViT como codificador de visión, con sus resultados fusionados en un espacio dimensional compartido mediante un proyector lineal.1
Recopilar datos de entrenamiento de alta calidad para los VLM puede ser tedioso, pero existen conjuntos de datos existentes que se pueden utilizar para el entrenamiento previo, la optimización y el ajuste para tareas posteriores más específicas.
Por ejemplo, ImageNet contiene millones de imágenes anotadas, mientras que COCO tiene miles de imágenes etiquetadas para subtítulos a gran escala, detección de objetos y segmentación. Del mismo modo, el conjunto de datos LAION consta de miles de millones de pares multilingües de imagen y texto.