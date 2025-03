Masking ist eine weitere Trainingstechnik, bei der visuelle Sprachmodelle lernen, zufällig verdeckte Teile eines eingegebenen Textes oder Bildes vorherzusagen. Beim Masked Language Modeling lernen VLMs, die fehlenden Wörter in einer Textunterschrift zu ergänzen, wenn ein Bild ohne Maskierung vorliegt.



In der Zwischenzeit lernen VLMs in der maskierten Bildmodellierung, die verborgenen Pixel in einem Bild zu rekonstruieren, wenn eine unmaskierte Bildunterschrift vorliegt.

Ein Beispiel für ein Modell, das Masking verwendet, ist FLAVA (Foundational Language And Vision Alignment). FLAVA verwendet einen Vision-Transformer als Bild-Encoder und eine Transformer-Architektur sowohl für den Sprach-Encoder als auch für den multimodalen Encoder.



Der multimodale Encoder wendet einen Cross-Attention-Mechanismus an, um Text- und Bildinformationen zu integrieren. Das Training von FLAVA umfasst maskiertes Modellieren und kontrastives Lernen.1