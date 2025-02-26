검색 증강 생성(RAG)은 대규모 언어 모델(LLM)과 함께 사용되는 기술로, 미세 조정 없이도 LLM 훈련에 사용한 데이터 외부의 정보에 대한 지식 기반과 모델을 연결합니다. 기존 RAG는 텍스트 요약과 챗봇과 같은 텍스트 기반 사용 사례로 제한됩니다.

멀티모달 RAG는 여러 유형의 데이터에서 정보를 처리하여 RAG에 사용되는 외부 지식기반의 일부로 포함하기 위해 멀티모달LLM(MLLM)을 사용할 수 있습니다. 멀티모달 데이터에는 텍스트, 이미지, 오디오, 비디오, 그리고 기타 형식이 포함될 수 있습니다. 인기 있는 멀티모달 LLM으로는 Google의 Gemini, Meta의 Llama 3.2, OpenAI의 GPT-4와 GPT-4o가 있습니다.

이 레시피에서는 다양한 모달리티를 처리할 수 있는 IBM Granite 모델을 사용합니다. PDF의 비정형 데이터에서 실시간 사용자 쿼리에 응답하는 AI 시스템을 생성합니다.