이 튜토리얼에서 앞서 다룬 각 청킹 전략을 LangChain을 사용하여 구현하는 샘플 코드를 제공하겠습니다.

고정 크기 청킹

고정 크기 청킹을 구현하려면 LangChain의 CharacterTextSplitter를 사용하고 chunk_size와 chunk_overlap를 설정할 수 있습니다. chunk_size는 문자 수로 측정되므로 다양한 값을 시험해보셔도 됩니다. 문단을 구분하기 위해 separator를 줄바꿈 문자로 설정합니다. 토큰화 작업에서는 granite-3.1-8b-instruct 토크나이저를 사용할 수 있습니다. 토크나이저는 텍스트를 LLM이 처리할 수 있는 토큰으로 분할합니다.

from langchain_text_splitters import CharacterTextSplitter

tokenizer = AutoTokenizer.from_pretrained(“ibm-granite/granite-3.1-8b-instruct”)

text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(

tokenizer,

separator=”

”, #default: “



”

chunk_size=1200, chunk_overlap=200)

fixed_size_chunks = text_splitter.create_documents([doc[0].page_content])

청크 중 하나를 출력하여 구조를 더 잘 이해할 수 있습니다.

Fixed_size_chunks[1]

아웃풋: (잘림)

Document(metadata={}, page_content=’As always, IBM’s historical commitment to open source is reflected in the permissive and standard open source licensing for every offering discussed in this article.

\r

Granite 3.1 8B Instruct: raising the bar for lightweight enterprise models\r



IBM’s efforts in the ongoing optimization the Granite series are most evident in the growth of its flagship 8B dense model. IBM Granite 3.1 8B Instruct now bests most open models in its weight class in average scores on the academic benchmarks evaluations included in the Hugging Face OpenLLM Leaderboard...’)

토크나이저를 사용하여 각 청크에 포함된 토큰 수를 확인하고 처리 과정을 검증할 수도 있습니다. 이 단계는 선택 사항이며, 데모 용도입니다.

for idx, val in enumerate(fixed_size_chunks):

token_count = len(tokenizer.encode(val.page_content))

print(f”{idx} 인덱스의 청크는 {token_count}개의 토큰을 포함합니다.”)

아웃풋:

The chunk at index 0 contains 1106 tokens.

The chunk at index 1 contains 1102 tokens.

The chunk at index 2 contains 1183 tokens.

The chunk at index 3 contains 1010 tokens.

훌륭합니다! 청크 크기가 적절하게 구현된 것 같습니다.

재귀적 청킹

재귀적 청킹은 LangChain의 RecursiveCharacterTextSplitter를 사용할 수 있습니다. 고정 크기 청킹 예제와 마찬가지로 다양한 청크 및 겹침 크기를 실험할 수 있습니다.

from langchain_text_splitters import RecursiveCharacterTextSplitter



text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=0)

recursive_chunks = text_splitter.create_documents([doc[0].page_content])

recursive_chunks[:5]

아웃풋:

[Document(metadata={}, page_content=’IBM Granite 3.1: powerful performance, longer context and more’),

Document(metadata={}, page_content=’IBM Granite 3.1: powerful performance, longer context, new embedding models and more’),

Document(metadata={}, page_content=’Artificial Intelligence’),

Document(metadata={}, page_content=’Compute and servers’),

Document(metadata={}, page_content=’IT automation’)]

분할기는 기본 구분자 [“



”, “

”, “ “, “”]를 사용하여 텍스트를 성공적으로 청킹했습니다.

시맨틱 청킹

시맨틱 청킹에는 임베딩 또는 인코더 모델이 필요합니다. granite-embedding-30m-english 모델을 임베딩 모델로 사용할 수 있으며 청크 구조를 더 잘 이해하기 위해 결과 중 하나를 출력할 수도 있습니다.

from langchain_huggingface import HuggingFaceEmbeddings

from langchain_experimental.text_splitter import SemanticChunker



embeddings_model = HuggingFaceEmbeddings(model_name=”ibm-granite/granite-embedding-30m-english”)

text_splitter = SemanticChunker(embeddings_model)

semantic_chunks = text_splitter.create_documents([doc[0].page_content])

semantic_chunks[1]

아웃풋: (잘림)

Document(metadata={}, page_content=’Our latest dense models (Granite 3.1 8B, Granite 3.1 2B), MoE models (Granite 3.1 3B-A800M, Granite 3.1 1B-A400M) and guardrail models (Granite Guardian 3.1 8B, Granite Guardian 3.1 2B) all feature a 128K token context length.We’re releasing a family of all-new embedding models. The new retrieval-optimized Granite Embedding models are offered in four sizes, ranging from 30M–278M parameters. Like their generative counterparts, they offer multilingual support across 12 different languages: English, German, Spanish, French, Japanese, Portuguese, Arabic, Czech, Italian, Korean, Dutch and Chinese. Granite Guardian 3.1 8B and 2B feature a new function calling hallucination detection capability, allowing increased control over and observability for agents making tool calls...’)

문서 기반 청킹

다양한 파일 형식의 문서는 LangChain의 문서 기반 텍스트 분할기와 호환됩니다. 이 튜토리얼에서는 Markdown 파일을 사용합니다. 재귀 JSON 분할, 코드 분할 및 HTML 분할의 예시는 LangChain 문서를 참조하세요.

로드할 수 있는 Markdown 파일의 예시로는 IBM의 GitHub에 있는 Granite 3.1용 README 파일이 있습니다.

url = “https://raw.githubusercontent.com/ibm-granite/granite-3.1-language-models/refs/heads/main/README.md”

markdown_doc = WebBaseLoader(url).load()

markdown_doc

아웃풋:

[Document(metadata={‘source’: ‘https://raw.githubusercontent.com/ibm-granite/granite-3.1-language-models/refs/heads/main/README.md’}, page_content=’







:books: Paper (comming soon)\xa0 | :hugs: HuggingFace Collection\xa0 |

:speech_balloon: Discussions Page\xa0 | ðŸ“˜ IBM Granite Docs





---

## Introduction to Granite 3.1 Language Models

Granite 3.1 language models are lightweight, state-of-the-art, open foundation models that natively support multilinguality, coding, reasoning, and tool usage, including the potential to be run on constrained compute resources. All the models are publicly released under an Apache 2.0 license for both research and commercial use. The models\’ data curation and training procedure were designed for enterprise usage and customization, with a process that evaluates datasets for governance, risk and compliance (GRC) criteria, in addition to IBM\’s standard data clearance process and document quality checks...’)]

이제 LangChain의 MarkdownHeaderTextSplitter를 사용하여 headers_to_split_on 목록에 설정한 헤더 유형별로 파일을 분할할 수 있습니다. 또한 예시로 청크 중 하나를 출력해 보겠습니다.

#문서 기반 청킹

from langchain_text_splitters import MarkdownHeaderTextSplitter

headers_to_split_on = [

(“#”, “Header 1”),

(“##”, “Header 2”),

(“###”, “Header 3”),

]

markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on)

document_based_chunks = markdown_splitter.split_text(markdown_doc[0].page_content)

document_based_chunks[3]

아웃풋:

Document(metadata={‘Header 2’: ‘How to Use our Models?’, ‘Header 3’: ‘Inference’}, page_content=’This is a simple example of how to use Granite-3.1-1B-A400M-Instruct model.

```python

import torch

from transformers import AutoModelForCausalLM, AutoTokenizer



device = “auto”

model_path = “ibm-granite/granite-3.1-1b-a400m-instruct”

tokenizer = AutoTokenizer.from_pretrained(model_path)

# drop device_map if running on CPU

model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)

model.eval()

# change input text as desired

chat = [

{ “role”: “user”, “content”: “Please list one IBM Research laboratory located in the United States. You should only output its name and location.” },

]

chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

# tokenize the text

input_tokens = tokenizer(chat, return_tensors=”pt”).to(device)

# generate output tokens

output = model.generate(**input_tokens,

max_new_tokens=100)

# decode output tokens into text

output = tokenizer.batch_decode(output)

# print output

print(output)

```’)

아웃풋에서 볼 수 있듯이 청킹이 헤더 유형별로 텍스트를 성공적으로 분할했습니다.