A geração aumentada de recuperação (RAG) é uma técnica usada com grandes modelos de linguagem (LLMs) para conectar o modelo a uma base de conhecimento de informações fora dos dados nos quais o LLM foi treinado sem precisar realizar ajuste fino. A RAG tradicional é limitada a casos de uso baseados em texto, como resumo de texto e chatbot.

A RAG multimodal pode usar LLMs multimodais (MLLM) para processar informações de vários tipos de dados a serem incluídos como parte da base de conhecimento externa usada na RAG. Dados multimodais podem incluir texto, imagens, áudio, vídeo ou outras formas. Os LLMs multimodais populares incluem o Gemini do Google, o Llama 3.2 da Meta e o GPT-4 e GPT-4o da OpenAI.

Para esta receita, você utilizará um modelo do IBM Granite capaz de processar diversas modalidades. Você criará um sistema de IA para responder a consultas de usuários em tempo real a partir de dados não estruturados em um PDF.