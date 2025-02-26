Generasi dengan dukungan pengambilan data (RAG) adalah teknik yang digunakan dengan model bahasa besar (LLM) untuk menghubungkan model dengan basis pengetahuan informasi di luar data yang telah dilatih LLM tanpa harus melakukan penyempurnaan. RAG tradisional terbatas pada contoh penggunaan berbasis teks seperti ringkasan teks dan chatbot.

Multimodal RAG dapat menggunakan multimodal LLM (MLLM) untuk memproses informasi dari berbagai jenis data untuk dimasukkan sebagai bagian dari basis pengetahuan eksternal yang digunakan dalam RAG. Data multimodal dapat mencakup teks, gambar, audio, video atau bentuk lainnya. LLM multimodal populer termasuk Gemini Google, Meta Llama 3.2 dan GPT-4 dan GPT-4o OpenAI.

Untuk resep ini, Anda akan menggunakan model IBM Granite yang mampu memproses modalitas yang berbeda. Anda akan membuat sistem AI untuk menjawab pertanyaan pengguna real-time dari data tidak terstruktur dalam PDF.