Was sind Vision Language Models (VLMs)?

Was sind Vision Language Models (VLMs)?

Vision Language Models (VLMs) sind Modelle der künstlichen Intelligenz (KI), die Funktionen der Computer Vision und der Verarbeitung natürlicher Sprache (NLP) miteinander verbinden.

VLMs lernen, die Beziehungen zwischen Textdaten und visuellen Daten wie Bildern oder Videos abzubilden, sodass diese Modelle Text aus visuellen Eingaben generieren oder Prompts in natürlicher Sprache im Kontext visueller Informationen verstehen können.

VLMs, auch als visuelle Sprachmodelle bezeichnet, kombinieren Large Language Models (LLMs) mit Bildverarbeitungsmodellen oder Algorithmen für visuelles maschinelles Lernen (ML).

Als multimodale KI-Systeme nehmen VLMs Text und Bilder oder Videos als Eingabe und geben Text als Ausgabe aus, in der Regel in Form von Bild- oder Videobeschreibungen, die Fragen zu einem Bild beantworten oder Teile eines Bildes oder Objekte in einem Video identifizieren.

Elemente eines Vision Language Models

Vision Language Models bestehen in der Regel aus zwei Schlüsselkomponenten:

  • Ein Sprach-Encoder

  • Ein Vision-Encoder

Sprach-Encoder

Ein Sprach-Encoder erfasst die semantische Bedeutung und die kontextuellen Zusammenhänge zwischen Wörtern und Phrasen und wandelt sie in Text-Einbettungen um, die von KI-Modellen verarbeitet werden können.

Die meisten VLMs verwenden für ihren Sprach-Encoder eine neuronale Netzwerk-Architektur, die als Transformator-Modell bekannt ist. Beispiele für Transformatoren sind Googles BERT (Bidirectional Encoder Representations from Transformers), eines der ersten Foundation Models, auf denen viele der heutigen LLMs basieren, und OpenAIs Generative Pretrained Transformer (GPT).

Hier ist ein kurzer Überblick über die Transformer-Architektur:

  • Encoder transformieren Eingabesequenzen in numerische Darstellungen, sogenannte Einbettungen, die die Semantik und Position von Token in der Eingabesequenz erfassen.

  • Ein Selbstaufmerksamkeitsmechanismus ermöglicht es Transformern, ihre „Aufmerksamkeit“ auf die wichtigsten Token in der Eingabesequenz zu richten, unabhängig von ihrer Position.

  • Decoder nutzen diesen Selbstaufmerksamkeitsmechanismus und die Einbettungen der Encoder, um die statistisch wahrscheinlichste Ausgabesequenz zu generieren.

Vision-Encoder

Ein Vision-Encoder extrahiert wichtige visuelle Eigenschaften wie Farben, Formen und Texturen aus einem Bild- oder Videoeingang und wandelt sie in Vektor-Einbettungen um, die von Modellen für maschinelles Lernen verarbeitet werden können.

Frühere Versionen von VLMs verwendeten Algorithmen des Deep Learning wie Convolutional Neural Networks zur Merkmalsextraktion. Modernere Vision Language Models verwenden einen Vision-Transformer (ViT), der Elemente eines transformatorbasierten Sprachmodells anwendet.

Ein ViT verarbeitet ein Bild in Patches und behandelt sie als Sequenzen, ähnlich wie Token in einem Sprachtransformator. Der Vision-Transformator wendet dann die Selbstaufmerksamkeit auf diese Patches an, um eine transformatorbasierte Darstellung des Eingabebildes zu erstellen.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Training von Vision Language Models

Zu den Trainingsstrategien für Vision Language Models gehört das Abgleichen und Zusammenführen von Informationen aus Bild- und Sprach-Encodern, damit das VLM lernen kann, Bilder mit Text zu korrelieren und Entscheidungen über die beiden Modalitäten gemeinsam zu treffen.

Das VLM-Training basiert üblicherweise auf einer Mischung verschiedener Ansätze:

  • Kontrastives Lernen

  • Maskierung

  • Generatives Modelltraining

  • Vortrainierte Modelle

Kontrastives Lernen

Beim kontrastiven Lernen werden die Bild- und Texteinbettungen von beiden Encodern in einem gemeinsamen oder geteilten Einbettungsraum abgebildet. Das VLM wird anhand von Datensätzen mit Bild-Text-Paaren trainiert und lernt, den Abstand zwischen den Einbettungen übereinstimmender Paare zu minimieren und für nicht übereinstimmende Paare zu maximieren.

Ein gängiger Algorithmus für kontrastives Lernen ist CLIP (Contrastive Language-Image Pretraining). CLIP wurde mit 400 Millionen Bild-Untertitel-Paaren aus dem Internet trainiert und zeigte eine hohe Zero-Shot-Klassifizierungsgenauigkeit.1

Maskierung

Masking ist eine weitere Trainingstechnik, bei der visuelle Sprachmodelle lernen, zufällig verdeckte Teile eines eingegebenen Textes oder Bildes vorherzusagen. Beim Masked Language Modeling lernen VLMs, die fehlenden Wörter in einer Textunterschrift zu ergänzen, wenn ein Bild ohne Maskierung vorliegt.

In der Zwischenzeit lernen VLMs in der maskierten Bildmodellierung, die verborgenen Pixel in einem Bild zu rekonstruieren, wenn eine unmaskierte Bildunterschrift vorliegt.

Ein Beispiel für ein Modell, das Masking verwendet, ist FLAVA (Foundational Language And Vision Alignment). FLAVA verwendet einen Vision-Transformer als Bild-Encoder und eine Transformer-Architektur sowohl für den Sprach-Encoder als auch für den multimodalen Encoder.

Der multimodale Encoder wendet einen Cross-Attention-Mechanismus an, um Text- und Bildinformationen zu integrieren. Das Training von FLAVA umfasst maskiertes Modellieren und kontrastives Lernen.1

Generatives Modelltraining

Das generative Modelltraining für VLMs beinhaltet das Lernen, neue Daten zu generieren. Die Text-zu-Bild-Generierung erzeugt Bilder aus dem Eingabetext, während die Bild-zu-Text-Generierung Text – wie Bildunterschriften, Bildbeschreibungen oder Zusammenfassungen – aus einem Eingabebild erzeugt.

Zu den beliebten Text-zu-Bild-Modellen gehören Diffusionsmodelle wie Googles Imagen, Midjourney, DALL-E (ab DALL-E 2) von OpenAI und Stable Diffusion von Stability AI.

Vortrainierte Modelle

Das Training von Vision Language Models von Grund auf kann ressourcenintensiv und teuer sein, sodass VLMs stattdessen aus vorab trainierten Modellen erstellt werden können.

Es kann ein vortrainierteres LLM und ein vortrainierterer Vision-Encoder verwendet werden, mit einer zusätzlichen Mapping-Netzwerkschicht, die die visuelle Darstellung eines Bildes an den Eingabebereich des LLM anpasst oder projiziert.

LLaVA (Large Language and Vision Assistant) ist ein Beispiel für ein VLM, das aus vorab trainierten Modellen entwickelt wurde. Dieses multimodale Modell verwendet den Vicuna LLM und den CLIP ViT als Bildkodierer, deren Ausgänge mit einem linearen Projektor in einem gemeinsamen dimensionalen Raum zusammengeführt werden.1

Die Erfassung hochwertiger Trainingsdaten für VLMs kann mühsam sein, aber es gibt bereits Datensätze, die für das Vortraining, die Optimierung und die Feinabstimmung für spezifischere nachgelagerte Aufgaben verwendet werden können.

ImageNet beispielsweise enthält Millionen von kommentierten Bildern, während COCO Tausende von beschrifteten Bildern für großflächige Beschriftungen, Objekterkennung und Segmentierung enthält. Ebenso besteht der LAION-Datensatz aus Milliarden mehrsprachiger Bild-Text-Paare.

AI Academy

Der Aufstieg der generativen KI für Unternehmen

Erfahren Sie mehr über den historischen Aufstieg der generativen KI sowie darüber, was sie für Unternehmen bedeutet.

Anwendungsfälle für Vision Language Models

VLMs können die Lücke zwischen visuellen und sprachlichen Informationen schließen. Was früher zwei separate KI-Modelle für jede Modalität erforderte, kann jetzt in einem Modell kombiniert werden.

VLMs können für eine Reihe von Vision-Language-Aufgaben verwendet werden:

  • Untertitel und Zusammenfassungen

  • Bildgenerierung

  • Suche und Abruf von Bildern

  • Bildsegmentierung

  • Objekterkennung

  • Visuelle Fragenbeantwortung (VQA)

Untertitelung und Zusammenfassung

Vision Language Models können detaillierte Bildunterschriften oder Beschreibungen generieren. Sie können auch Videos und visuelle Informationen in Dokumenten zusammenfassen, z. B. medizinische Bilder für Gesundheitseinrichtungen oder Reparaturpläne für Geräte in Produktionsstätten.

Bildgenerierung

Text-zu-Bild-Generatoren wie DALL-E, Imagen, Midjourney und Stable Diffusion können bei der Erstellung von Kunstwerken oder Bildern helfen, die schriftliche Inhalte begleiten. Unternehmen können diese Tools auch während der Entwurfs- und Prototypenphase nutzen, um Produktideen zu visualisieren.

Suche und Abruf von Bildern

VLMs können große Bild- oder Videodatenbanken durchsuchen und relevante Fotos oder Videos auf der Grundlage einer Abfrage in natürlicher Sprache abrufen. Dies kann die User Experience für Käufer auf E-Commerce-Websites verbessern, indem sie beispielsweise bei der Suche nach einem bestimmten Artikel oder der Navigation in einem umfangreichen Katalog unterstützt werden.

Bildsegmentierung

Ein Vision Language Model kann ein Bild in Segmente unterteilen, basierend auf den räumlichen Merkmalen, die es aus dem Bild gelernt und extrahiert hat. Das VLM kann dann Textbeschreibungen dieser Segmente liefern.

Es können auch Begrenzungsrahmen zur Lokalisierung von Objekten generiert oder andere Formen der Anmerkung wie Beschriftungen oder farbige Hervorhebungen bereitgestellt werden, um Abschnitte eines Bildes zu spezifizieren, die sich auf eine Abfrage beziehen.

Dies kann beispielsweise für die vorausschauende Wartung nützlich sein, indem Bilder oder Videos von Fabrikhallen analysiert werden, um potenzielle Gerätedefekte in Echtzeit zu erkennen.

Objekterkennung

Vision Language Models können Objekte in einem Bild erkennen, klassifizieren und kontextbezogene Beschreibungen liefern, z. B. die Position eines Objekts im Verhältnis zu anderen visuellen Elementen.

Die Objekterkennung kann beispielsweise in der Robotik eingesetzt werden, damit Roboter ihre Umgebung besser verstehen und visuelle Anweisungen besser erfassen können.

Visuelle Fragenbeantwortung (VQA)

VLMs können Fragen zu Bildern oder Videos beantworten und dabei ihre visuellen Denkfähigkeiten unter Beweis stellen. Dies kann bei der Bild- oder Videoanalyse helfen und sogar auf Anwendungen der agentische KI ausgeweitet werden.

Im Transportsektor können KI-Agenten beispielsweise mit der Analyse von Straßeninspektionsvideos und der Identifizierung von Gefahren wie beschädigten Verkehrsschildern, defekten Ampeln und Schlaglöchern beauftragt werden.

Dann können sie aufgefordert werden, einen Wartungsbericht zu erstellen, in dem der Standort und die Beschreibung dieser Gefahren aufgeführt sind.

Beispiele für VLMs

Vision Language Models entwickeln sich rasant weiter und haben das Potenzial, genauso weit verbreitet zu sein wie die aktuellen fortgeschrittenen LLMs.

Hier sind einige Beispiele für beliebte VLMs:

  • DeepSeek-VL2

  • Gemini 2.0 Flash

  • GPT-4o

  • Llama 3.2

  • NVLM

  • Qwen 2.5-VL

DeepSeek-VL2

DeepSeek-VL2 ist ein Open-Source Vision Language Model mit 4,5 Milliarden Parametern des chinesischen KI-Startups DeepSeek. Es besteht aus einem Vision-Encoder, einem Vision-Language-Adapter und dem DeepSeekMoE LLM, das eine Mixture of Experts (MoE)-Architektur verwendet.

DeepSeek-VL2 hat eine winzige Variante mit 1 Milliarde Parametern und eine kleine Variante mit 2,8 Milliarden Parametern.2

Gemini 2.0 Flash

Gemini 2.0 Flash ist Teil der Google Gemini-Modellreihe. Zu den Eingabemodalitäten gehören Audio, Bild, Text und Video, mit einer reinen Textausgabe. Eine Funktion zur Bilderzeugung ist in Arbeit.

GPT-4o

OpenAI's GPT-4o ist ein einzelnes Modell, das durchgängig über Audio-, Bild- und Textdaten hinweg trainiert wurde. Es kann eine Mischung aus Audio-, Bild-, Text- und Videoeingaben akzeptieren und jede beliebige Kombination von Audio-, Bild- und Textausgaben erzeugen, wobei dasselbe neuronale Netz alle Ein- und Ausgaben verarbeitet.

Sein kleineres Gegenstück, GPT-4o mini, unterstützt sowohl Bild- als auch Texteingaben und generiert Textausgaben.

Llama 3.2

Die Open-Source-Modelle von Llama 3.2 enthalten 2 VLMs in 11 und 90 Milliarden Parametergrößen. Die Eingaben können eine Kombination aus Text und Bildern sein, mit einer reinen Textausgabe.3

Laut Meta besteht die VLM-Architektur aus einem ViT-Bildcodierer, einem Videoadapter und einem Bildadapter.4 Der separat trainierte Bildadapter verfügt über eine Reihe von Cross-Attention-Layern, die Bildcodierer-Darstellungen in das vortrainiertere Llama 3.1 LLM einspeisen.3

NVLM

NVLM ist eine Familie multimodaler Modelle von NVIDIA. NVLM-D ist ein reines Decoder-Modell, das Bild-Token direkt in den LLM-Decoder einspeist. NVLM-X verwendet Cross-Attention, um Bild-Token zu verarbeiten, und ist effizienter bei der Verarbeitung hochauflösender Bilder.

NVLM-H verwendet eine hybride Architektur, die die Ansätze „nur Decoder“ und „Cross-Attention“ kombiniert und so die Recheneffizienz und die Argumentationsfähigkeiten verbessert.5

Qwen 2.5-VL

Qwen 2.5-VL ist das führende Vision Language Model des chinesischen Unternehmens für Cloud Computing Alibaba Cloud. Es existiert in 3, 7 und 72 Milliarden Parametergrößen.

Das Modell verwendet einen ViT-Vision-Encoder und den Qwen 2.5 LLM. Es kann Videos mit einer Länge von über einer Stunde verstehen und auf Desktop- und Smartphone-Oberflächen navigieren.

Benchmarks für Vision Language Models

Wie LLMs haben auch VLMs ihre eigenen Benchmarks. Jeder Benchmark kann seine eigene Rangliste haben, aber es gibt auch unabhängige Ranglisten wie das OpenVLM Leaderboard, die auf Hugging Face gehostet wird und Open-Source Vision Language Models basierend auf verschiedenen Metriken einstuft.

Hier sind einige gängige Benchmarks für Visual Language Models:

Das Benchmarking von VLMs kann zeitaufwendig sein, aber einige Tools können den Prozess vereinfachen. VLMEvalKit ist ein Open-Source-Toolkit zur Bewertung, das die Bewertung von VLMs mit einem einzigen Befehl ermöglicht. Eine weitere Bewertungssuite ist LMMs-Eval, die auch eine Befehlszeilenschnittstelle für die Auswertung bietet.

Herausforderungen von VLMs

Wie bei jedem KI-System müssen sich VLMs auch weiterhin mit den Risiken der KI auseinandersetzen. Unternehmen müssen dies berücksichtigen, wenn sie die Integration von Vision Language Models in ihre internen Workflows oder deren Umsetzung für kommerzielle Anwendungen in Betracht ziehen.

Hier sind einige Herausforderungen im Zusammenhang mit VLMs:

  • Verzerrung

  • Kosten und Komplexität

  • Generalisierung

  • Halluzinationen

Verzerrung

Visual Language Models können aus den Verzerrungen lernen, die in den realen Daten, auf denen sie trainiert werden, oder in den vorab trainierten Modellen, auf denen sie aufbauen, vorhanden sein können. Die Verwendung verschiedener Datenquellen und die Einbeziehung menschlicher Aufsicht während des gesamten Prozesses können dazu beitragen, Verzerrungen zu verringern.

Kosten und Komplexität

Vision- und Language Models sind bereits für sich genommen komplex, sodass ihre Komplexität durch die Zusammenführung noch weiter erhöht werden kann. Diese Komplexität führt zu einem höheren Bedarf an Rechenressourcen, was es schwierig macht, VLMs in großem Umfang bereitzustellen. Unternehmen müssen bereit sein, in die erforderlichen Ressourcen für die Entwicklung, Schulung und Bereitstellung dieser Modelle zu investieren.

Generalisierung

VLMs könnten bei der Generalisierung ins Stocken geraten, d. h. bei der Fähigkeit eines Modells, sich an neue, noch nie dagewesene Daten anzupassen und genaue Vorhersagen zu treffen.

Ein ausgewogener Datensatz, der Ausreißer oder Grenzfälle enthält und Zero-Shot-Learning einsetzt, kann es VLMs ermöglichen, sich an neuartige Konzepte oder atypische Bild-Text-Kombinationen anzupassen.

Die LiveXiv-Benchmark von IBM für Aufgaben zum visuellen Dokumentenverständnis kann ebenfalls hilfreich sein. LiveXiv ist eine dynamische Benchmark, die monatlich automatisch aktualisiert wird und VLM anhand von Fragen und Bildern bewertet, die sie wahrscheinlich noch nie zuvor gesehen haben.

Halluzinationen

Vision Language Models können anfällig für KI-Halluzinationen sein. Die Validierung der Ergebnisse dieser Modelle ist ein entscheidender Schritt, um sicherzustellen, dass sie sachlich korrekt sind.

Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Buchen Sie eine Live-Demo
Fußnoten

Alle Links befinden sich außerhalb von ibm.com

1 An Introduction to Vision-Language Modeling, arXiv, 27. Mai 2024.

2 DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding, GitHub, 13. December 2024.

3 Model Information, GitHub, 30. September 2024.

4 The Llama 3 Herd of Models, arXiv, 23. November 2024.

5 NVLM: Open Frontier-Class Multimodal LLMs, arXiv, 22. Oktober 2024.