Die meisten VLMs, auch multimodale große Sprachmodelle (MLLMs) genannt, werden für Sehaufgaben vorwiegend auf natürlichen Bildern trainiert. Dies führt nicht notwendigerweise zu einer optimalen Leistung bei Bildern von Dokumenten, deren einzigartige visuelle Merkmale (Layouts, Schriftarten, Diagramme, Infografiken) sich erheblich von denen natürlicher Bilder unterscheiden. Im Vergleich zu den meisten allgemeinen Anwendungsfällen, bei denen es um die Eingabe von Bildern und die Ausgabe von Text geht, erfordert das Verstehen von Dokumenten ein spezifischeres und feinkörnigeres Verständnis des visuellen Kontexts.

Die beiden größten Herausforderungen bei der effektiven Verarbeitung von Dokumenten und zugehörigem Bildmaterial durch MLLMs sind die adäquate Kodierung von hochauflösenden Bildern und die genaue Interpretation von visuell platziertem Text in diesen Dokumenten. Spezialisierte Ansätze stützen sich in der Regel entweder auf externe OCR-Systeme (Optical Character Recognition), um den Text in den Bildern nach dem Prinzip „Erkennen und Verstehen“ zu verarbeiten, oder auf maßgeschneiderte Modellarchitekturen, die ausschließlich für das Verstehen von Dokumenten entwickelt wurden.

Beide Ansätze haben Nachteile. Die Abhängigkeit von externem OCR-gesteuertem Dokumentverständnis kann zu einer Anhäufung von Fehlern führen, bevor wesentliche Informationen die Sprache erreichen. Gleichzeitig haben viele dedizierte „OCR-freie“ Methoden Schwierigkeiten bei der Verarbeitung hochauflösender Eingaben oder leiden unter einem Mangel an Gesamtkenntnissen im Vergleich zu denen eines konkurrierenden LLM.2

In jüngster Zeit wurde eine starke Leistung beim Verständnis von Dokumenten erreicht, indem verallgemeinerte Bildverarbeitungssprachmodelle auf dokumentenorientierte Datensätze per Anweisungsoptimierung abgestimmt wurden. Leider sind die Fortschritte bei diesem Ansatz durch einen Mangel an geeigneten Open-Source-Datensätzen in gewisser Weise eingeschränkt worden. Um weitere Fortschritte bei diesem Ansatz zu erzielen, hat IBM bei der Entwicklung von Granite Vision 3.2 intensiv an einem umfassenden instruktionsbasierten Datensatz für visuelles Dokumentenverständnis gearbeitet.