Les modèles vision-langage (VLM) sont des modèles d’intelligence artificielle (IA) qui associent des capacités de vision par ordinateur et de traitement automatique du langage naturel (NLP).
Les VLM apprennent à mapper les relations entre les données textuelles et les données visuelles telles que les images ou les vidéos, ce qui permet à ces modèles de générer du texte à partir d’entrées visuelles ou de comprendre des prompts en langage naturel dans le contexte d’informations visuelles.
Les VLM, également appelés modèles vision-langage, combinent de grands modèles de langage (LLM) avec des modèles de vision ou des algorithmes de machine learning (ML) visuels.
En tant que systèmes d’IA multimodaux, les VLM prennent du texte et des images ou des vidéos en entrée et produisent du texte en sortie, généralement sous la forme de descriptions d’images ou de vidéos, pour répondre à des questions sur une image ou identifier des parties d’une image ou des objets dans une vidéo.
Les modèles vision-langage sont généralement constitués de deux composants clés :
● Un encodeur de langage
● Un encodeur de vision
Un encodeur de langage capture la signification sémantique et les associations contextuelles entre les mots et les expressions, et il les transforme en plongements textuels pour que les modèles d’IA puissent les traiter.
La plupart des VLM utilisent une architecture de réseaux de neurones connue sous le nom de modèle Transformer pour leur encodeur de langage. Parmi les transformers, citons BERT (Bidirectionnelle Encoder Representations from Transformers) de Google, l’un des premiers modèles de fondation à la base de nombreux LLM d’aujourd’hui, et le transformer génératif préentraîné (GPT) d’OpenAI.
Voici un bref aperçu de l’architecture transformatrice :
● Les encodeurs transforment les séquences d’entrée en représentations numériques appelées plongements qui capturent la sémantique et la position des tokens dans la séquence d’entrée.
● Un mécanisme d’auto-attention permet aux transformers de « concentrer leur attention » sur les tokens les plus importants de la séquence d’entrée, quelle que soit leur position.
● Les décodeurs utilisent ce mécanisme d’auto-attention et les plongements des encodeurs pour générer la séquence de sortie la plus statistiquement probable.
Un encodeur de vision extrait les propriétés visuelles essentielles d’une entrée comme les couleurs, les formes et les textures, et les convertit en plongements vectoriels que les modèles de machine learning peuvent traiter.
Les premiers VLM utilisaient des algorithmes d’apprentissage profond tels que les réseaux de neurones convolutifs pour l’extraction des caractéristiques.
Les modèles vision-langage plus modernes utilisent un transformateur de vision (ViT), qui applique les éléments d’un modèle de langage basé sur un transformateur.
Un ViT divise l’image en patches qu’il traite comme des séquences, qui s’apparentent aux tokens des transformateurs de langage. Le transformateur de vision implémente ensuite l’auto-attention sur ces patches pour créer une représentation de l’image en entrée basée sur un transformateur.
Les stratégies d’entraînement des modèles vision-langage impliquent d’aligner et de fusionner les informations provenant des encodeurs de vision et de langage afin que le VLM puisse apprendre à corréler les images avec le texte et prendre des décisions sur les deux modalités.
L’entraînement des VLM repose généralement sur plusieurs approches :
● Apprentissage contrastif
● Masquage
● Entraînement de modèles génératifs
● Modèles préentraînés
L’apprentissage contrastif mappe les embeddings d’image et de texte des deux encodeurs dans un espace de plongement commun ou partagé. Le VLM est entraîné sur des jeux de données de paires image-texte et apprend à minimiser la distance entre les embeddings des paires correspondantes et à la maximiser pour les paires non correspondantes.
CLIP (Contrastive Language-Image Pretraining) est un algorithme d’apprentissage contrastif courant. CLIP a été entraîné sur 400 millions de paires image-légende prises sur Internet et a démontré une grande précision de classification zero-shot.1
Le masquage est une autre technique d’entraînement dans laquelle les modèles vision-langage apprennent à prédire de manière aléatoire les parties masquées d’un texte ou d’une image en entrée. Dans la modélisation du langage masqué, les VLM apprennent à compléter les mots manquants dans une légende de texte en se basant sur une image non masquée.
Et, dans la modélisation d’image masquée, les VLM apprennent à reconstruire les pixels cachés d’une image en se basant sur une légende non masquée.
FLAVA (Foundational Language And Vision Alignment) est un exemple de modèle qui utilise le masquage. FLAVA utilise un transformateur de vision comme encodeur d’image. Il utilise une architecture Transformer pour son encodeur de langage et son encodeur multimodal.
L’encodeur multimodal applique un mécanisme d’attention croisée pour intégrer les informations textuelles et visuelles. L’entraînement de FLAVA associe la modélisation masquée et l’apprentissage contrastif.1
Dans le contexte des VLM, l’entraînement de modèles génératifs implique d’apprendre aux modèles à générer de nouvelles données. La génération texte-image produit des images à partir de l’entrée, tandis que la génération image-texte produit du texte, tel que des légendes, des descriptions d’images ou des résumés, à partir d’une image d’entrée.
Les exemples de modèles texte-image populaires incluent les modèles de diffusion, comme Imagen de Google, Midjourney, DALL-E d’OpenAI (à partir de DALL-E 2) et Stable Diffusion de Stability AI.
L’entraînement des modèles vision-langage à partir de zéro peut être coûteux en termes de ressources et de budget, c’est pourquoi les VLM peuvent être créés à partir de modèles préentraînés.
Un LLM et un encodeur de vision préentraînés peuvent être utilisés, avec une couche de réseau de mappage supplémentaire qui aligne ou projette la représentation visuelle d’une image dans l’espace d’entrée du LLM.
LLaVA (Large Language and Vision Assistant) est un exemple de VLM développé à partir de modèles préentraînés. Ce modèle multimodal utilise le LLM Vicuna et le ViT CLIP comme encodeur de vision, leurs sorties étant fusionnées dans un espace dimensionnel partagé à l’aide d’un projecteur linéaire.1
La collecte de données d’entraînement de haute qualité pour les VLM peut s’avérer fastidieuse, mais il existe des jeux de données qui peuvent être utilisés pour le préentraînement, l’optimisation et l’affinage des tâches en aval plus spécifiques.
Par exemple, ImageNet contient des millions d’images annotées, tandis que COCO possède des milliers d’images étiquetées pour le sous-titrage à grande échelle, la détection d’objets et la segmentation. De même, le jeu de données LAION comprend des milliards de paires image-texte multilingues.
Les VLM peuvent faire le lien entre informations visuelles et linguistiques. Ce qui nécessitait auparavant deux modèles d’IA distincts pour chaque modalité peut désormais être combiné en un seul modèle.
Les VLM peuvent être utilisés pour une série de tâches vision-langage :
● Sous-titrage et résumé
● Génération d’images
● Recherche et récupération d’images
● Segmentation d’image
● Détection d’objets
● Réponse à des questions visuelles (VQA)
Les modèles vision-langage peuvent générer des légendes ou des descriptions détaillées des images. Ils peuvent également résumer des vidéos et des informations visuelles dans des documents, tels que des images médicales dans des établissements de santé ou des tableaux de réparation d’équipement dans les usines de fabrication.
Les générateurs texte-image tels que DALL-E, Imagen, Midjourney et Stable Diffusion peuvent aider les utilisateurs à créer des œuvres d’art ou des images pour accompagner du contenu écrit. Les entreprises peuvent également utiliser ces outils pendant les phases de conception et de prototypage, leur permettant de visualiser leurs idées de produits.
Les VLM peuvent effectuer des recherches dans de grandes bibliothèques d’images ou dans des bases de données vidéo et récupérer des photos ou des vidéos pertinentes à partir d’une requête en langage naturel. Cela peut améliorer l’expérience utilisateur des acheteurs sur les sites de commerce électronique, par exemple en les aidant à trouver un article particulier ou à parcourir un vaste catalogue.
Un modèle vision-langage peut partitionner une image en segments en fonction des caractéristiques spatiales qu’il a apprises et extraites de l’image. Le VLM peut ensuite fournir des descriptions textuelles de ces segments.
Il peut également générer des cadres de délimitation pour localiser des objets ou fournir d’autres formes d’annotation telles que des étiquettes ou des surlignages colorés pour indiquer les sections de l’image en rapport avec la requête.
Cette capacité peut être utile pour la maintenance prédictive, par exemple pour analyser des images ou des vidéos des ateliers afin de détecter les défaillances potentielles des équipements en temps réel.
Les modèles vision-langage peuvent reconnaître et classer les objets au sein d’une image et fournir des descriptions contextuelles telles que la position d’un objet par rapport à d’autres éléments visuels.
La détection d’objets peut être utilisée en robotique : elle peut permettre aux robots de mieux comprendre leur environnement et de saisir les instructions visuelles.
Les VLM peuvent répondre à des questions sur des images ou des vidéos, démontrant ainsi leurs capacités de raisonnement visuel. Cette capacité peut contribuer à l’analyse d’images ou de vidéos et peut même être étendue aux applications d’IA agentique.
Dans le secteur des transports, par exemple, les agents d’IA peuvent être chargés d’analyser les vidéos d’inspection des routes et d’identifier les dangers tels que les panneaux de signalisation endommagés, les feux de signalisation défectueux et les nids-de-poule.
Ensuite, ils peuvent être invités à produire un rapport de maintenance décrivant l’emplacement et la description de ces dangers.
Les modèles vision-langage progressent vite, et ils pourraient bientôt être aussi répandus que les LLM avancés actuels.
Voici quelques exemples de VLM populaires :
● DeepSeek-VL2
● Gemini 2.0 Flash
● GPT-4o
● Llama 3.2
● NVLM
● Qwen 2.5-VL
DeepSeek-VL2 est un modèle vision-langage open source comptant 4,5 milliards de paramètres créé par la startup d’IA chinoise DeepSeek. Il est composé d’un encodeur de vision, d’un adaptateur vision-langage et du LLM DeepSeekMoE, doté d’une architecture de mélange d’experts (MoE).
DeepSeek-VL2 a une variante Tiny comptant 1 milliard de paramètres et une variante Small qui en compte 2,8 milliards.2
Gemini 2.0 Flash fait partie de la suite de modèles Google Gemini. Les modalités d’entrée comprennent l’audio, l’image, le texte et la vidéo, avec des sorties texte uniquement. Une fonctionnalité de génération d’images est en préparation.
GPT-4o d’OpenAI est un modèle unique entraîné de bout en bout sur des données audio, visuelles et textuelles. Il peut accepter un mélange d’entrées audio, image, texte et vidéo, et produire n’importe quelle combinaison de sorties audio, image et texte : le même réseau de neurones traitant toutes les entrées et sorties.
Son homologue plus petit, GPT-4o mini, prend en charge les entrées image et texte, et génère des sorties texte.
Les modèles open source Llama 3.2 intègrent deux VLM en versions 11 et 90 milliards de paramètres. Les entrées peuvent être une combinaison de texte et d’images, avec une sortie texte uniquement.3
Selon Meta, l’architecture VLM se compose d’un encodeur d’image ViT, d’un adaptateur vidéo et d’un adaptateur d’image.4Entraîné séparément, l’adaptateur d’image possède une série de couches d’attention croisée qui injectent les représentations de l’encodeur d’image dans le LLM Llama 3.1 préentraîné.3
NVLM est une famille de modèles multimodaux de NVIDIA. NVLM-D est un modèle uniquement décodeur qui injecte les tokens d’image directement dans le décodeur LLM. NVLM-X utilise l’attention croisée pour traiter les tokens d’image, et il est plus efficace pour gérer les images haute résolution.
NVLM-H est doté d’une architecture hybride qui combine les approches de type décodeur uniquement et attention croisée, améliorant ainsi l’efficacité computationnelle et les capacités de raisonnement.5
Qwen 2.5-VL est le modèle vision-langage phare de la société chinoise de cloud computing Alibaba Cloud. Il est disponible en 3, 7 ou 72 milliards de paramètres.
Le modèle utilise un encodeur de vision ViT et le LLM Qwen 2.5. Il peut comprendre des vidéos de plus d’une heure et peut naviguer dans les interfaces des ordinateurs de bureau et des smartphones.
Comme les LLM, les VLM ont aussi leurs propres benchmarks. Chaque benchmark peut avoir son propre classement, mais il existe également des classements indépendants, tels que l’OpenVLM Leaderboard, hébergé sur Hugging Face, qui classent les modèles vision-langage open source en fonction de divers indicateurs.
Voici quelques benchmarks courants utilisés pour les modèles vision-langage :
● MathVista est un benchmark pour le raisonnement mathématique visuel.
● MMBench se compose d’un ensemble de questions à choix multiple couvrant plusieurs dimensions d’évaluation, notamment la localisation d’objets, la reconnaissance optique de caractères (OCR) et d’autres encore.
● MMMU (Massive Multidiscipline Multimodal Understanding) contient des défis multimodaux à choix multiple sur divers sujets afin d’évaluer les connaissances, la perception et les compétences de raisonnement du modèle.
● MM-Vet évalue l’intégration de différentes capacités des VLM, telles que la génération de langage, la conscience spatiale, etc.
● OCRBench se concentre sur les capacités OCR des VLM. Il comporte cinq composants : VQA orientée document, reconnaissance d’expressions mathématiques manuscrites, extraction d’informations clés, reconnaissance de texte et VQA centrée sur le texte de la scène.
● La réponse à des questions visuelles (VQA) est l’un des premiers benchmarks des VLM. Le jeu de données inclut des questions ouvertes sur les images. Voici d’autres dérivés de la VQA : GQA (réponse aux questions sur des graphes de scènes d’images), OK-VQA (nécessite des connaissances externes pour la réponse à des questions visuelles), ScienceQA (réponse aux questions scientifiques) et TextVQA (raisonnement visuel basé sur le texte dans les images).
Le benchmarking des VLM peut prendre beaucoup de temps, mais quelques outils peuvent simplifier ce processus. VLMEvalKit est un kit d’outils d’évaluation open source qui permet d’évaluer les VLM à l’aide d’une seule commande. LMMs-Eval, une autre suite d’outils d’évaluation, fournit également une interface de ligne de commande pour l’évaluation.
Comme pour tout système d’IA, les VLM sont aux prises avec les risques liés à l’IA. Il s’agit d’un point à prendre en considération pour les entreprises qui cherchent à intégrer des modèles vision-langage dans leurs workflows internes ou à les mettre en œuvre pour des applications commerciales.
Voici quelques défis associés aux VLM :
● Biais
● Coût et complexité
● Généralisation
● Hallucinations
Il arrive que les modèles vision-langage apprennent les biais parfois présents dans les données du monde réel sur lesquelles ils sont entraînés, ou qu’ils les héritent des modèles préentraînés sur lesquels ils sont basés. L’utilisation de sources de données diversifiées et l’application d’une supervision humaine tout au long du processus peuvent contribuer à atténuer les biais.
Les modèles de vision et les modèles de langage sont déjà complexes, et leur fusion ne fait donc qu’augmenter cette complexité. Elle exige des ressources supplémentaires, ce qui complique le déploiement des VLM à grande échelle. Les entreprises doivent être prêtes à investir dans les ressources nécessaires pour développer, entraîner et déployer ces modèles.
Les VLM ne se prêtent pas toujours bien à la généralisation, c’est-à-dire la capacité d’un modèle à s’adapter et à faire des prédictions précises sur des données nouvelles et inédites.
Un jeu de données équilibré incluant des données aberrantes ou des cas extrêmes et utilisant l’apprentissage zero-shot peut permettre aux VLM de s’adapter à de nouveaux concepts ou à des combinaisons image-texte atypiques.
Le benchmark LiveXiv d’IBM pour les tâches de compréhension visuelle de documents peut également servir. LiveXiv est un benchmark dynamique qui est automatiquement mis à jour mensuellement. Il évalue les VLM sur la base de questions et d’images probablement inédites pour eux.
Les modèles vision-langage peuvent être sujets à des hallucinations de l’IA. La validation des résultats de ces modèles est une étape essentielle pour s’assurer de leur exactitude factuelle.
Tous les liens sont externes au site ibm.com
1 An Introduction to Vision-Language Modeling, arXiv, 27 mai 2024.
2 DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding, GitHub, 13 décembre 2024.
3 Model Information, GitHub, 30 septembre 2024.
4 The Llama 3 Herd of Models , arXiv, 23 novembre 2024.
5 NVLM: Open Frontier-Class Multimodal LLMs, arXiv, 22 octobre 2024.
Apprenez des concepts fondamentaux et développez vos compétences grâce à des ateliers pratiques, à des cours, à des projets guidés, à des essais et à d’autres ressources.
Découvrez comment intégrer en toute confiance l’IA générative et le machine learning dans votre entreprise.
Vous voulez obtenir un meilleur retour sur vos investissements dans l’IA ? Découvrez comment la mise à l’échelle de l’IA générative dans des domaines clés favorise le changement en aidant vos meilleurs éléments à créer et à fournir de nouvelles solutions innovantes.
Découvrez comment choisir le modèle de fondation d’IA le mieux adapté à votre cas d’utilisation.
IBM Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.
Explorez les trois éléments clés d’une stratégie d’IA réussie : créer un avantage concurrentiel, étendre l’IA à l’ensemble de l’entreprise et faire progresser l’IA digne de confiance.
Nous avons interrogé 2 000 entreprises à propos de leurs initiatives d’IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment progresser.
Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.