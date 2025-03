Os modelos de código aberto do Llama 3.2 incluem 2 VLMs em tamanhos de parâmetros de 11 e 90 bilhões. Os inputs podem ser uma combinação de texto e imagens, com uma produção somente de texto.3

De acordo com a Meta, a arquitetura do VLM consiste em um codificador de imagem ViT, um adaptador de vídeo e um adaptador de imagem.4 O adaptador de imagem treinado separadamente tem uma série de camadas de atenção cruzada que alimentam as representações do codificador de imagem no LLM pré-treinado do Llama 3.1.3