My IBM Se connecter S’abonner

Qu’est-ce que l’IA multimodale ?

15 juillet 2024

Auteurs

Cole Stryker

Editorial Lead, AI Models

Gather

Qu’est-ce que l’IA multimodale ?

L’IA multimodale désigne les modèles de machine learning capables de traiter et d’intégrer des informations provenant de plusieurs modalités ou types de données : texte, images, fichiers audio et vidéo, ainsi que d’autres formes d’entrées sensorielles.

Contrairement aux modèles d’IA traditionnels, généralement conçus pour gérer un seul type de données, l’IA multimodale combine et analyse différents types d’entrées de données pour améliorer la compréhension et générer des sorties plus efficaces.

À titre d’exemple, un modèle multimodal qui reçoit la photo d’un paysage en entrée est capable de générer un résumé des caractéristiques du lieu en question. Il peut également s’appuyer sur la description d’un paysage pour générer une image. Cette possibilité de multiplier les modalités rend ces modèles particulièrement puissants.

En novembre 2022, OpenAI lance ChatGPT, qui met rapidement l’IA générative sur le devant de la scène. ChatGPT est une IA unimodale, conçue pour recevoir des entrées de texte et générer des sorties de texte à l’aide du traitement automatique du langage naturel (NLP).

L’IA multimodale rend l’IA générative plus robuste et plus utile en permettant plusieurs types d’entrées et de sorties. Dall-e, par exemple, était la première implémentation multimodale de son modèle GPT par Open AI, mais GPT-4o a également introduit des capacités multimodales pour ChatGPT.

Les modèles d’IA multimodaux combinent des informations provenant de diverses sources de données et de différents médias pour offrir une compréhension plus complète et plus nuancée des données. Cela permet à l’IA d’améliorer sa prise de décision, ainsi que la précision de ses sorties.

En tirant parti de différentes modalités, les systèmes d'IA multimodaux peuvent atteindre une précision et une robustesse accrues dans des tâches telles que la reconnaissance d'images, la traduction linguistique et la reconnaissance vocale. L’intégration de différents types de données permet de capturer plus de contexte et de réduire les ambiguïtés. Les systèmes d’IA multimodaux sont plus résistants au bruit et aux données manquantes. Si une modalité n’est pas fiable ou indisponible, le système peut s’appuyer sur d’autres modalités pour maintenir la performance.

L'IA multimodale améliore l'interaction homme-machine en permettant des interfaces plus naturelles et plus intuitives pour une meilleure expérience utilisateur. Par exemple, les assistants virtuels peuvent comprendre et répondre à la fois aux commandes vocales et aux indices visuels, ce qui rend les interactions plus fluides et plus efficaces.

Imaginez un chatbot capable de vous parler de vos lunettes et de vous recommander une taille sur la base d'une photo que vous partagez avec lui, ou une application d'identification d'oiseaux capable de reconnaître des images d'un oiseau particulier et de confirmer son identification en « écoutant » un extrait audio de son chant. Une IA capable de fonctionner à travers de multiples dimensions sensorielles peut donner aux utilisateurs des résultats plus significatifs et de nouvelles manières d'interagir avec les données.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

IA multimodale : comment ça marche ?

L’intelligence artificielle est un domaine qui évolue rapidement : les dernières avancées dans l’entraînement des algorithmes pour la création de modèles de fondation sont appliquées à la recherche multimodale. Cette discipline a vu naître d’autres innovations multimodales telles que la reconnaissance vocale audiovisuelle et l’indexation de contenu multimédia, qui s’étaient développées avant que les progrès de l’apprentissage profond et de la science des données n’ouvrent la voie à l’IA générative.

Aujourd’hui, les praticiens utilisent l’IA multimodale dans toutes sortes de cas d’utilisation, de l’analyse d’images médicales dans le domaine de la santé à l’utilisation de la vision par ordinateur avec d’autres entrées sensorielles dans les véhicules autonomes alimentés par l’IA.

Un article de 2022 de Carnegie Mellon décrit trois caractéristiques de l’IA multimodale : l’hétérogénéité, les connexions et les interactions.1 L’hétérogénéité fait référence aux diverses qualités, structures et représentations des modalités. Un texte descriptif d’un événement sera fondamentalement différent en termes de qualité, de structure et de représentation d’une photographie du même événement.

Les connexions font référence aux informations complémentaires partagées entre différentes modalités. Ces connexions peuvent se traduire par des similitudes statistiques ou des correspondances sémantiques. Enfin, les interactions font référence à la façon dont les différentes modalités interagissent lorsqu’elles sont réunies.

Le principal défi technique de l’IA multimodale réside dans l’intégration et le traitement efficaces de divers types de données pour créer des modèles capables de tirer partir des atouts de chaque modalité tout en surmontant leurs limites individuelles. Les auteurs de l’article ont également soulevé plusieurs défis : représentation, alignement, raisonnement, génération, transfert et quantification.

  • La représentation concerne la manière de représenter et de résumer les données multimodales afin de refléter l'hétérogénéité et les interconnexions entre les modalités. Les praticiens utilisent des réseaux neuronaux spécialisés (par exemple, des CNN pour les images, des transformers pour le texte) pour extraire des fonctionnalités, et utilisent des espaces de représentations conjointes ou des mécanismes d’attention pour l’apprentissage des représentations.

  • L’alignement vise à identifier les connexions et les interactions entre éléments. Par exemple, les ingénieurs emploient des techniques d’alignement temporel pour les données vidéo et audio, et d’alignement spatial pour les images et le texte.

  • Le raisonnement vise à composer des connaissances à partir de preuves multimodales, généralement en plusieurs étapes inférentielles.

  • La génération implique l'apprentissage d'un processus génératif pour produire des modalités brutes qui reflètent les interactions intermodales, la structure et la cohérence.

  • Le transfert vise à transférer des connaissances entre les modalités. Les techniques avancées d’apprentissage par transfert et les espaces de représentations partagés permettent de transférer les connaissances entre les modalités.

  • La quantification fait appel à des études empiriques et théoriques pour comprendre l’apprentissage multimodal afin de mieux évaluer ses performances au sein des modèles multimodaux.

Les modèles multimodaux ajoutent une couche de complexité aux grands modèles de langage (LLM), qui sont basés sur des transformeurs, eux-mêmes construits sur une architecture d’encodeur-décodeur, avec un mécanisme d’attention pour traiter efficacement les données. L’IA multimodale utilise des techniques de fusion des données pour intégrer différentes modalités. Cette fusion peut être décrite comme précoce (lorsque les modalités sont encodées dans le modèle pour créer un espace de représentation commun), intermédiaire (lorsque les modalités sont combinées à différents stades de prétraitement) et tardive (lorsque plusieurs modèles traitent différentes modalités et combinent les résultats).

Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Tendances de l’IA multimodale

L’IA multimodale est un domaine en pleine évolution, avec plusieurs tendances clés qui façonnent son développement et son application. Voici quelques-unes des tendances notables :

Modèles unifiés

Les modèles unifiés comme GPT-4 V(ision) d’OpenAI et Gemini de Google ont été conçus pour gérer le texte, les images et d’autres types de données au sein d’une architecture unique. Ces modèles sont capables de comprendre et de générer des contenus multimodaux de manière fluide.

Interaction multimodale améliorée

Des mécanismes d'attention et des transformateurs avancés sont utilisés pour mieux aligner et fusionner les données provenant de différents formats, afin d'obtenir des sorties plus cohérentes et plus précises du point de vue contextuel.

Traitement multimodal en temps réel

Les applications dans les domaines de la conduite autonome et de la réalité augmentée, par exemple, exigent que l’IA traite et intègre en temps réel les données provenant de divers capteurs (caméras, LIDAR, etc.) pour prendre des décisions instantanées.

Augmentation multimodale des données

Les chercheurs génèrent des données synthétiques qui combinent diverses modalités (par exemple, des descriptions de texte avec des images correspondantes) pour compléter les jeux de données d’entraînement et améliorer les performances des modèles.

Open source et collaboration

Des projets tels que Hugging Face et Google AI fournissent des outils d'IA open source pour favoriser un environnement collaboratif et permettre aux chercheurs ainsi qu’aux développeurs d’avancer dans le domaine.

Solutions connexes

Solutions connexes

IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct
Notes de bas de page

1 https://arxiv.org/abs/2209.03430, 7 septembre 2022.