L’entraînement des modèles vision-langage à partir de zéro peut être coûteux en termes de ressources et de budget, c’est pourquoi les VLM peuvent être créés à partir de modèles préentraînés.
Un LLM et un encodeur de vision préentraînés peuvent être utilisés, avec une couche de réseau de mappage supplémentaire qui aligne ou projette la représentation visuelle d’une image dans l’espace d’entrée du LLM.
LLaVA (Large Language and Vision Assistant) est un exemple de VLM développé à partir de modèles préentraînés. Ce modèle multimodal utilise le LLM Vicuna et le ViT CLIP comme encodeur de vision, leurs sorties étant fusionnées dans un espace dimensionnel partagé à l’aide d’un projecteur linéaire.1
La collecte de données d’entraînement de haute qualité pour les VLM peut s’avérer fastidieuse, mais il existe des jeux de données qui peuvent être utilisés pour le préentraînement, l’optimisation et l’affinage des tâches en aval plus spécifiques.
Par exemple, ImageNet contient des millions d’images annotées, tandis que COCO possède des milliers d’images étiquetées pour le sous-titrage à grande échelle, la détection d’objets et la segmentation. De même, le jeu de données LAION comprend des milliards de paires image-texte multilingues.