Künstliche Intelligenz ist ein sich schnell entwickelndes Gebiet, in dem in der multimodalen Forschung die neuesten Fortschritte beim Trainieren von Algorithmen zur Erstellung von Foundation Models angewendet werden. In dieser Disziplin gab es bereits multimodale Innovationen wie audiovisuelle Spracherkennung und die Indizierung von Multimedia-Inhalten, die sich entwickelt hatten, bevor Fortschritte in den Bereichen Deep Learning und Data Science den Weg für die generative KI ebneten.

Heute wird multimodale KI in der Praxis in allen möglichen Anwendungsfällen eingesetzt, von der Analyse medizinischer Bilder im Gesundheitswesen bis hin zur Verwendung von Computer Vision zusammen mit anderen sensorischen Eingaben in KI-gestützten autonomen Fahrzeugen.

Ein Artikel von Carnegie Mellon aus dem Jahr 2022 beschreibt drei Merkmale multimodaler KI: Heterogenität, Verbindungen und Interaktionen.1 Heterogenität bezieht sich auf die unterschiedlichen Eigenschaften, Strukturen und Repräsentationen von Modalitäten. Eine Textbeschreibung einer Veranstaltung unterscheidet sich in Qualität, Struktur und Repräsentation grundlegend von einer Fotografie derselben Veranstaltung.

Verbindungen bezieht sich auf die komplementären Informationen, die zwischen verschiedenen Modalitäten ausgetauscht werden. Diese Verbindungen können sich in statistischen Ähnlichkeiten oder in semantischen Entsprechungen widerspiegeln. Interaktionen schließlich beziehen sich darauf, wie die verschiedenen Modalitäten zusammenwirken, wenn sie zusammengebracht werden.

Die größte technische Herausforderung für multimodale KI besteht darin, verschiedene Arten von Daten effektiv zu integrieren und zu verarbeiten, um Modelle zu erstellen, die die Stärken der einzelnen Modalitäten nutzen und gleichzeitig ihre individuellen Grenzen überwinden können. Die Autoren des Artikels nannten auch verschiedene Herausforderungen: Darstellung, Ausrichtung, Argumentation, Generierung, Transfer und Quantifizierung.