Das Training von Vision Language Models von Grund auf kann ressourcenintensiv und teuer sein, sodass VLMs stattdessen aus vorab trainierten Modellen erstellt werden können.
Es kann ein vortrainierteres LLM und ein vortrainierterer Vision-Encoder verwendet werden, mit einer zusätzlichen Mapping-Netzwerkschicht, die die visuelle Darstellung eines Bildes an den Eingabebereich des LLM anpasst oder projiziert.
LLaVA (Large Language and Vision Assistant) ist ein Beispiel für ein VLM, das aus vorab trainierten Modellen entwickelt wurde. Dieses multimodale Modell verwendet den Vicuna LLM und den CLIP ViT als Bildkodierer, deren Ausgänge mit einem linearen Projektor in einem gemeinsamen dimensionalen Raum zusammengeführt werden.1
Die Erfassung hochwertiger Trainingsdaten für VLMs kann mühsam sein, aber es gibt bereits Datensätze, die für das Vortraining, die Optimierung und die Feinabstimmung für spezifischere nachgelagerte Aufgaben verwendet werden können.
ImageNet beispielsweise enthält Millionen von kommentierten Bildern, während COCO Tausende von beschrifteten Bildern für großflächige Beschriftungen, Objekterkennung und Segmentierung enthält. Ebenso besteht der LAION-Datensatz aus Milliarden mehrsprachiger Bild-Text-Paare.