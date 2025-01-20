이 튜토리얼에서는 LangChain과 watsonx.ai에서 제공되는 최신 IBM® Granite 모델을 사용하여 여러 청킹 전략을 실험하게 됩니다. 전체 목표는 검색 증강 생성(RAG)을 수행하는 것입니다.
청킹은 큰 텍스트 조각을 더 작은 텍스트 세그먼트 또는 청크로 분할하는 과정을 말합니다. 청킹의 중요성을 강조하기 위해 RAG를 이해하는 것이 도움이 됩니다. RAG는 정보 검색과 대규모 언어 모델(LLM)을 결합하여 보조 데이터 세트에서 관련 정보를 검색하여 LLM의 아웃풋 품질을 최적화하는 자연어 처리(NLP) 기술입니다. 대형 문서를 관리하기 위해 청킹을 사용하여 텍스트를 더 의미 있는 작은 단위의 청크로 분할할 수 있습니다. 이렇게 생성된 텍스트 청크들은 임베딩 모델을 활용해 벡터 데이터베이스에 임베딩되어 저장될 수 있습니다. 마지막으로 RAG 시스템은 시맨틱 검색을 통해 가장 관련성 높은 청크만을 검색할 수 있습니다. 작은 청크는 더 작은 컨텍스트 창 크기를 가진 모델에서 처리하기 쉬운 단위이므로 일반적으로 큰 청크보다 더 나은 성능을 보이는 경향이 있습니다.
청킹의 몇 가지 주요 구성 요소는 다음과 같습니다.
몇 가지 다양한 청킹 전략 중에서 선택할 수 있습니다. LLM 애플리케이션의 특정 사용 사례에 가장 효과적인 청킹 기술을 선택하는 것이 중요합니다. 일반적으로 사용되는 몇 가지 청킹 프로세스는 다음과 같습니다.
여러 툴 중에서 선택할 수 있지만, 이 튜토리얼에서는 Jupyter Notebook을 사용하기 위해 IBM 계정을 설정하는 방법을 안내합니다.
IBM® Cloud 계정을 사용하여 watsonx.ai 에 로그인합니다.
watsonx.ai 프로젝트를 생성합니다.
프로젝트 내에서 프로젝트 ID를 가져올 수 있습니다. 관리 탭을 클릭합니다. 그런 다음 일반 페이지의 세부 정보 섹션에서 프로젝트 ID를 복사합니다. 이 튜토리얼에는 이 ID가 필요합니다.
Jupyter Notebook을 만듭니다.
해당 단계에서는 이 튜토리얼의 코드를 복사할 수 있는 Notebook 환경이 열립니다. 또는 노트북을 로컬 시스템에 다운로드하여 watsonx.ai 프로젝트에 에셋으로 업로드할 수 있습니다. 더 많은 Granite 튜토리얼을 보려면 IBM Granite 커뮤니티를 확인하세요. Jupyter Notebook과 함께 사용된 데이터 세트는 GitHub에서 확인할 수 있습니다.
watsonx.ai 런타임 서비스 인스턴스를 만듭니다(적절한 지역을 선택하고 무료 인스턴스인 Lite 요금제를 선택합니다).
API 키를 생성합니다.
watsonx.ai 런타임 서비스 인스턴스를 watsonx.ai에서 생성한 프로젝트에 연결합니다.
자격 증명을 설정하려면 1단계에서 생성한 WATSONX_APIKEY와 WATSONX_PROJECT_ID가 필요합니다. 또한 API 엔드포인트 역할을 하는 URL도 설정합니다.
이 튜토리얼에서는 LLM으로 Granite 3.1 버전을 사용합니다. LLM을 초기화하려면 모델 매개변수를 설정해야 합니다. 최소 및 최대 토큰 제한과 같은 모델 매개변수에 대해 자세히 알아보려면 문서를 참조하세요.
RAG 파이프라인에 사용 중인 컨텍스트는 Granite 3.1 출시를 알리는 IBM 공식 발표문입니다. LangChain의 WebBaseLoader를 사용하여 사용하여 웹페이지에서 블로그를 문서로 직접 불러올 수 있습니다.
이 튜토리얼에서 앞서 다룬 각 청킹 전략을 LangChain을 사용하여 구현하는 샘플 코드를 제공하겠습니다.
고정 크기 청킹을 구현하려면 LangChain의 CharacterTextSplitter를 사용하고 chunk_size와 chunk_overlap를 설정할 수 있습니다. chunk_size는 문자 수로 측정되므로 다양한 값을 시험해보셔도 됩니다. 문단을 구분하기 위해 separator를 줄바꿈 문자로 설정합니다. 토큰화 작업에서는 granite-3.1-8b-instruct 토크나이저를 사용할 수 있습니다. 토크나이저는 텍스트를 LLM이 처리할 수 있는 토큰으로 분할합니다.
청크 중 하나를 출력하여 구조를 더 잘 이해할 수 있습니다.
아웃풋: (잘림)
토크나이저를 사용하여 각 청크에 포함된 토큰 수를 확인하고 처리 과정을 검증할 수도 있습니다. 이 단계는 선택 사항이며, 데모 용도입니다.
아웃풋:
훌륭합니다! 청크 크기가 적절하게 구현된 것 같습니다.
재귀적 청킹은 LangChain의 RecursiveCharacterTextSplitter를 사용할 수 있습니다. 고정 크기 청킹 예제와 마찬가지로 다양한 청크 및 겹침 크기를 실험할 수 있습니다.
아웃풋:
분할기는 기본 구분자 [“\n\n”, “\n”, “ “, “”]를 사용하여 텍스트를 성공적으로 청킹했습니다.
시맨틱 청킹에는 임베딩 또는 인코더 모델이 필요합니다. granite-embedding-30m-english 모델을 임베딩 모델로 사용할 수 있으며 청크 구조를 더 잘 이해하기 위해 결과 중 하나를 출력할 수도 있습니다.
아웃풋: (잘림)
다양한 파일 형식의 문서는 LangChain의 문서 기반 텍스트 분할기와 호환됩니다. 이 튜토리얼에서는 Markdown 파일을 사용합니다. 재귀 JSON 분할, 코드 분할 및 HTML 분할의 예시는 LangChain 문서를 참조하세요.
로드할 수 있는 Markdown 파일의 예시로는 IBM의 GitHub에 있는 Granite 3.1용 README 파일이 있습니다.
아웃풋:
이제 LangChain의 MarkdownHeaderTextSplitter를 사용하여 headers_to_split_on 목록에 설정한 헤더 유형별로 파일을 분할할 수 있습니다. 또한 예시로 청크 중 하나를 출력해 보겠습니다.
아웃풋:
아웃풋에서 볼 수 있듯이 청킹이 헤더 유형별로 텍스트를 성공적으로 분할했습니다.
이제 다양한 청킹 전략을 실험했으므로 RAG 구현을 진행해 보겠습니다. 이 튜토리얼에서는 시맨틱 분할에 의해 생성된 청크를 선택하고 이를 벡터 임베딩으로 변환합니다. 사용할 수 있는 오픈 소스 벡터 저장소는 Chroma DB입니다. langchain_chroma 패키지를 통해 쉽게 Chroma 기능을 사용할 수 있습니다.
Chroma 벡터 데이터베이스를 초기화하고, 임베딩 모델을 제공하며, 시맨틱 청킹으로 생성한 문서를 추가하겠습니다.
아웃풋:
다음으로 LLM에 대한 프롬프트 템플릿을 만드는 단계로 넘어갈 수 있습니다. 이 프롬프트 템플릿을 사용하면 초기 프롬프트 구조를 변경하지 않고도 여러 질문을 할 수 있습니다. 벡터 스토어를 검색기로 제공할 수도 있습니다. 이 단계에서는 RAG 구조를 완성합니다.
완성된 RAG 워크플로를 사용하여 사용자 쿼리를 실행해 보겠습니다. 먼저, 구축한 벡터 저장소의 추가 컨텍스트 없이 모델을 프롬프트하여 모델이 내장 지식을 사용하는지 실제로 RAG 컨텍스트를 활용하는지 테스트할 수 있습니다. Granite 3.1 발표 블로그에서는 다양한 문서 유형을 구문 분석하고 Markdown 또는 JSON 형식으로 변환하는 IBM의 도구인 Docling을 언급합니다. LLM에게 Docling에 대해 물어보겠습니다.
아웃풋:
의심의 여지 없이 이 모델은 Docling에 관한 정보로 학습되지 않았으며, 외부 도구나 추가 정보 없이 이러한 내용을 제공할 수 없습니다. 이제 우리가 구축한 RAG 체인에 동일한 쿼리를 제공해 보겠습니다.
아웃풋:
훌륭합니다! Granite 모델은 RAG 컨텍스트를 올바르게 활용해 의미의 일관성을 유지하면서 Docling에 대한 정확한 정보를 제공했습니다. RAG를 사용하지 않고는 동일한 결과를 얻을 수 없음을 입증했습니다.
이 튜토리얼에서는 RAG 파이프라인을 구축하고, 시스템의 검색 정확도를 개선하기 위해 여러 청킹 전략을 실험했습니다. Granite 3.1 모델을 사용하여 컨텍스트로 제공된 문서와 관련된 사용자 쿼리에 대한 적절한 모델 응답을 성공적으로 생성했습니다. 이번 RAG 구현에 사용된 텍스트는 ibm.com의 Granite 3.1 출시를 알리는 블로그에서 불러왔습니다. 이 모델은 모델의 초기 지식 베이스에 포함되지 않은 정보를 제공된 컨텍스트를 통해서만 접근할 수 있도록 제공했습니다.
더 자세한 내용을 알고 싶다면 HTML 구조화 청킹을 사용한 LLM 성능과 watsonx 청킹을 비교한 프로젝트 결과를 확인해 보세요.
