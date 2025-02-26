La generación aumentada por recuperación (RAG) es una técnica utilizada con modelos de lenguaje de gran tamaño (LLM) para conectar el modelo con una base de conocimiento de información fuera de los datos con los que se ha entrenado el LLM sin tener que realizar un ajustes precisos. La RAG tradicional se limita a casos de uso basados en texto, como el resumen de texto y los chatbots.

La RAG multimodal puede utilizar LLM multimodales (MLLM) para procesar información de múltiples tipos de datos que se incluirán como parte de la base de conocimiento externa utilizada en RAG. Los datos multimodales pueden incluir texto, imágenes, audio, vídeo u otras formas. Los LLM multimodales populares incluyen Gemini de Google, Llama 3.2 de Meta y GPT-4 y GPT-4o de OpenAI.

Para esta receta, utilizará un modelo IBM Granite capaz de procesar diferentes modalidades. Creará un sistema de IA para responder en tiempo real a las consultas de los usuarios a partir de datos no estructurados en un PDF.