Retrieval-Augmented Generation (RAG) ist eine Technik, die mit großen Sprachmodellen (LLMs) verwendet wird, um das Modell mit einer Wissensdatenbank außerhalb der Daten zu verbinden, auf denen das LLM trainiert wurde, ohne Feinabstimmung durchführen zu müssen. Das traditionelle RAG-System ist auf textbasierte Anwendungsfälle wie Textzusammenfassung und Chatbot beschränkt.

Multimodal RAG kann multimodale LLMs (MLLM) verwenden, um Informationen aus verschiedenen Datentypen zu verarbeiten, die in die in RAG verwendete externe Wissensdatenbank aufgenommen werden sollen. Multimodale Daten können Text, Bilder, Audio, Video oder andere Formen enthalten. Beliebte multimodale LLMs sind Googles Gemini, Metas Llama 3.2 sowie OpenAIs GPT-4 und GPT-4o.

Für dieses Rezept verwenden Sie ein IBM Granite-Modell, das verschiedene Modalitäten verarbeiten kann. Sie werden ein KI-System erstellen, das Benutzeranfragen in Echtzeit aus unstrukturierten Daten in einem PDF-Dokument beantwortet.