El entrenamiento de modelos de lenguaje visual desde cero puede requerir muchos recursos y ser costoso, por lo que los VLM pueden construirse a partir de modelos preentrenados.
Se puede utilizar un LLM preentrenado y un codificador de visión preentrenado, con una capa de red de mapeo añadida que alinea o proyecta la representación visual de una imagen en el espacio de entrada del LLM.
LLaVA (Large Language and Vision Assistant) es un ejemplo de un VLM desarrollado a partir de modelos preentrenados. Este modelo multimodal utiliza el Vicuna LLM y el CLIP ViT como codificador de visión, con sus salidas fusionadas en un espacio dimensional compartido utilizando un proyector lineal1.
Recopilar datos de entrenamiento de alta calidad para VLM puede ser tedioso, pero existen conjuntos de datos existentes que se pueden utilizar para el preentrenamiento, la optimización y el ajuste para tareas posteriores más específicas.
Por ejemplo, ImageNet contiene millones de imágenes anotadas, mientras que COCO tiene miles de imágenes etiquetadas para subtítulos a gran escala, detección de objetos y segmentación. Del mismo modo, el conjunto de datos LAION consta de miles de millones de pares multilingües de imagen y texto.