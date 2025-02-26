检索增强生成 (RAG) 是一种用于将与大型语言模型 (LLM) 与模型训练数据之外的信息知识库相连接的技术，无需进行微调。传统的 RAG 仅限于基于文本的用例，例如文本摘要和聊天机器人。

多模态 RAG 可以使用多模态 LLM (MLLM) 处理来自多种类型数据的信息，将其作为 RAG 使用的外部知识库的一部分。多模态数据可以包括文本、图片、音频、视频或其他形式。常用的多模态 LLM 包括 Google 的 Gemini、Meta 的 Llama 3.2 和 OpenAI 的 GPT-4 和 GPT-4o。

在本方案中，您将使用能够处理不同模态的 IBM Granite 模型。您将创建一个 AI 系统，用于根据 PDF 中的非结构化数据回答用户的实时查询。