Treinar modelos de linguagem de visão do zero pode ser custoso e exigir muitos recursos, portanto, os VLMs podem ser criados a partir de modelos pré-treinados.
Um LLM pré-treinado e um codificador de visão pré-treinado podem ser usados, com uma camada de rede de mapeamento adicional que alinha ou projeta a representação visual de uma imagem no espaço de input do LLM.
O LLaVA (Large Language and Vision Assistant) é um exemplo de um VLM desenvolvido a partir de modelos pré-treinados. Esse modelo multimodal usa o Vicuna LLM e o CLIP ViT como codificador de visão, com suas saídas mescladas em um espaço dimensional compartilhado usando um projetor linear.1
A coleta de dados de treinamento de alta qualidade para VLMs pode ser tediosa, mas há conjuntos de dados existentes que podem ser usados para pré-treinamento, otimização e ajuste fino para tarefas posteriores mais específicas.
Por exemplo, o ImageNet contém milhões de imagens anotadas, enquanto o COCO possui milhares de imagens rotuladas para legendas, detecção de objetos e segmentação em grande escala. Da mesma forma, o conjunto de dados LAION consiste em bilhões de pares de imagem-texto multilíngues.