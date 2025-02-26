La génération augmentée par récupération est une technique qui relie les grands modèles de langage (LLM) à une base de connaissances autre que les données sur lesquelles ils ont été entraînés, sans avoir à effectuer un réglage fin. La RAG traditionnelle se limite aux cas d’utilisation textuels tels que la synthèse et les chatbots.

La RAG multimodale peut utiliser des LLM multimodaux (MLLM) pour traiter les informations provenant de plusieurs types de données à inclure dans la base de connaissances externe utilisée. Les données multimodales peuvent comprendre des textes, des images, des fichiers audio et vidéo, entre autres. Les LLM multimodaux les plus connus sont Gemini de Google, Llama 3.2 de Meta et GPT-4 et GPT-4o d’OpenAI.

Pour cette recette, vous utiliserez un modèle IBM Granite capable de traiter différentes modalités. Vous allez créer un système d’IA pour répondre aux requêtes utilisateur en temps réel à partir de données non structurées dans un PDF.