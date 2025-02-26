이 튜토리얼에서는 IBM의 Docling과 오픈 소스 Granite 비전, 텍스트 기반 임베딩, 생성형 AI 모델을 사용하여 RAG 시스템을 만듭니다. 이러한 모델은 다양한 오픈 소스 프레임워크를 통해 사용할 수 있습니다. 이 튜토리얼에서는 Replicate를 사용해 IBM Granite의 비전 및 생성형 AI 모델과 연결하고, HuggingFace를 사용해 임베딩 모델에 연결합니다.
검색 증강 생성(RAG)은 대규모 언어 모델(LLM)과 함께 사용되는 기술로, 미세 조정 없이도 LLM 훈련에 사용한 데이터 외부의 정보에 대한 지식 기반과 모델을 연결합니다. 기존 RAG는 텍스트 요약과 챗봇과 같은 텍스트 기반 사용 사례로 제한됩니다.
멀티모달 RAG는 여러 유형의 데이터에서 정보를 처리하여 RAG에 사용되는 외부 지식기반의 일부로 포함하기 위해 멀티모달LLM(MLLM)을 사용할 수 있습니다. 멀티모달 데이터에는 텍스트, 이미지, 오디오, 비디오, 그리고 기타 형식이 포함될 수 있습니다. 인기 있는 멀티모달 LLM으로는 Google의 Gemini, Meta의 Llama 3.2, OpenAI의 GPT-4와 GPT-4o가 있습니다.
이 레시피에서는 다양한 모달리티를 처리할 수 있는 IBM Granite 모델을 사용합니다. PDF의 비정형 데이터에서 실시간 사용자 쿼리에 응답하는 AI 시스템을 생성합니다.
Granite 튜토리얼에 오신 것을 환영합니다. 이 튜토리얼에서는 최신 도구의 기능을 활용하여 AI 기반 멀티모달 RAG 파이프라인을 구축하는 방법을 알아봅니다. 이 튜토리얼에서는 다음 프로세스를 안내합니다.
이 튜토리얼에서는 세 가지 최첨단 기술을 사용합니다.
이 튜토리얼을 마치면 다음을 수행할 수 있습니다.
이 튜토리얼은 문서 관리 및 고급 자연어 처리(NLP) 기술에 대한 지식을 향상하고자 하는 AI 개발자, 연구원, 그리고 AI에 관심 있는 분들을 위해 마련되었습니다. 튜토리얼은 IBM Granite 커뮤니티의 Granite Snack Cookbook GitHub(Jupyter Notebook)에서도 확인할 수 있습니다.
! echo "::group::Install Dependencies"
%pip install uv
! uv pip install git+https://github.com/ibm-granite-community/utils.git \
transformers \
pillow \
langchain_classic \
langchain_core \
langchain_huggingface sentence_transformers \
langchain_milvus 'pymilvus[milvus_lite]' \
docling \
'langchain_replicate @ git+https://github.com/ibm-granite-community/langchain-replicate.git'
! echo "::endgroup::"
로깅 정보를 확인하려면 INFO 로그 레벨을 설정할 수 있습니다.
참고: 이 셀 실행은 건너뛰어도 괜찮습니다.
텍스트 임베딩 벡터를 생성하는 데 사용할 임베딩 모델을 지정합니다. 여기서는 Granite 임베딩 모델 중 하나를 사용하겠습니다.
다른 임베딩 모델을 사용하려면 이 코드 셀을 이 임베딩 모델 레시피의 코드 셀로 교체합니다.
이미지 이해에 사용할 MLLM을 지정합니다. 우리는 Granite 비전 모델을 사용합니다.
RAG 생성 작업에 사용할 언어 모델을 지정합니다. 여기서는 Replicate LangChain 클라이언트를 사용하여 Replicate에 있는 ibm-granite조직의 Granite 모델에 연결합니다.
Replicate를 설정하려면 Replicate 시작하기를 참조하세요. Replicate가 아닌 다른 제공업체의 모델에 연결하려면 이 코드 셀을 LLM 컴포넌트 레시피의 코드 셀로 대체합니다.
Replicate가 아닌 다른 제공업체의 모델에 연결하려면 이 코드 셀을 LLM 컴포넌트 레시피의 코드 셀로 대체합니다.
from langchain_replicate import ChatReplicate
model_path = "ibm-granite/granite-4.0-h-small"
model = ChatReplicate(
model=model_path,
replicate_api_token=get_env_var("REPLICATE_API_TOKEN"),
model_kwargs={
"max_tokens": 1000, # Set the maximum number of tokens to generate as output.
"min_tokens": 100, # Set the minimum number of tokens to generate as output.
},
)
이 예시에서는 소스 문서 세트에서 Docling을 사용하여 문서를 텍스트와 이미지로 변환합니다. 그런 다음 텍스트가 청크로 분할됩니다. 이미지는 MLLM에서 처리되어 이미지 요약을 생성합니다.
Docling은 PDF 문서를 다운로드하고 처리하여, 문서에 포함된 텍스트와 이미지를 얻을 수 있도록 해 줍니다. PDF에는 텍스트, 테이블, 그래프, 이미지 등 다양한 데이터 유형이 있습니다.
문서가 처리되면 문서의 텍스트 요소를 추가로 처리합니다. 사용 중인 임베딩 모델에 적합한 크기로 분할합니다. LangChain 문서 목록은 텍스트 청크에서 생성됩니다.
다음으로 문서에 있는 모든 테이블을 처리합니다. 언어 모델에 전달하기 위해 테이블 데이터를 마크다운 형식으로 변환합니다. LangChain 문서 목록은 테이블의 마크다운 렌더링에서 생성됩니다.
마지막으로 문서에 있는 모든 이미지를 처리합니다. 여기서는 비전 언어 모델을 사용하여 이미지의 내용을 이해합니다. 이 예시에서 우리는 이미지의 텍스트 정보에 관심이 있습니다. 다양한 프롬프트 텍스트를 시험해 보면서 결과를 어떻게 개선할 수 있는지 확인해 볼 수도 있습니다.
참고: 이미지 처리는 이미지 수와 비전 언어 모델을 실행하는 서비스에 따라 매우 오랜 시간이 걸릴 수 있습니다.
그런 다음 입력 문서에서 생성된 LangChain 문서를 표시할 수 있습니다.
임베딩 모델을 사용하여 텍스트 청크에서 문서를 로드하고 생성된 이미지 캡션을 벡터 데이터베이스에 로드합니다. 이 벡터 데이터베이스를 만들면 문서 전체에서 시맨틱 유사성 검색을 쉽게 수행할 수 있습니다.
참고: 벡터 데이터베이스를 채우는 데는 임베딩 모델과 서비스에 따라 다소 시간이 걸릴 수 있습니다.
임베딩 벡터를 저장하고 검색에 사용할 데이터베이스를 지정합니다.
Milvus가 아닌 다른 벡터 데이터베이스에 연결하려면 이 코드 셀을 이 벡터 스토어 레시피의 셀로 대체합니다.
이제 텍스트, 테이블, 이미지 설명에 대한 모든 LangChain 문서를 벡터 데이터베이스에 추가합니다.
문서를 성공적으로 변환하고 벡터화했으니, 이제 RAG 파이프라인을 설정할 수 있습니다.
여기서는 벡터 공간에서 쿼리와 관련된 정보가 포함된 청크를 검색하여 벡터 데이터베이스를 테스트합니다. 우리는 검색된 이미지 설명과 관련된 문서들을 표시합니다.
다양한 쿼리를 자유롭게 시도해 보세요.
반환된 문서는 쿼리에 응답해야 합니다. 이제 RAG 파이프라인을 구축해 보겠습니다.
먼저 Granite가 RAG 쿼리를 수행하도록 프롬프트를 생성합니다. Granite 채팅 템플릿을 사용하고 LangChain RAG 파이프라인이 대체할 자리 표시자 값을 제공합니다.
다음으로 이전에 만든 Granite 프롬프트 템플릿을 사용하여 RAG 파이프라인을 구성합니다.
from ibm_granite_community.langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_classic.chains.retrieval import create_retrieval_chain
from langchain_core.prompts import ChatPromptTemplate
# Create a Granite prompt for question-answering with the retrieved context
prompt_template = ChatPromptTemplate.from_template("{input}")
# Assemble the retrieval-augmented generation chain
combine_docs_chain = create_stuff_documents_chain(
llm=model,
prompt=prompt_template,
)
rag_chain = create_retrieval_chain(
retriever=vector_db.as_retriever(),
combine_docs_chain=combine_docs_chain,
)
파이프라인은 쿼리를 사용하여 벡터 데이터베이스에서 문서를 찾고 이를 쿼리의 컨텍스트로 활용합니다.
from ibm_granite_community.notebook_utils import wrap_text
output = rag_chain.invoke({"input": query})
print(wrap_text(output['answer']))
대단하군요! 소스 문서의 텍스트와 이미지에서 지식을 성공적으로 활용할 수 있는 AI 애플리케이션을 만들었습니다.
