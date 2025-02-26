La generación aumentada por recuperación (RAG, por sus siglas en inglés) es una técnica utilizada con modelos de lenguaje grandes (LLM) para conectar el modelo con una base de conocimientos de información fuera de los datos con los que se ha entrenado el LLM sin tener que realizar ajustes finos. El RAG tradicional se limita a casos de uso basados en texto, como el resumen de texto y los chatbots.

RAG multimodal puede usar LLM multimodales (MLLM) para procesar información de múltiples tipos de datos que se incluirán como parte de la base de conocimientos externa utilizada en RAG. Los datos multimodales pueden incluir texto, imágenes, audio, video u otros formatos. Los LLM multimodales populares incluyen Gemini de Google, Llama 3.2 de Meta y GPT-4 y GPT-4o de OpenAI.

Para esta receta, utilizará un modelo IBM Granite capaz de procesar diferentes modalidades. Creará un sistema de IA para responder en tiempo real a las consultas de los usuarios a partir de datos no estructurados en un PDF.