LangChainから入手できるこのチュートリアルで前述した各ストラテジーを実装するためのサンプルコードを見せましょう。

サイズ固定チャンク化

サイズ固定チャンク化を実装するには、LangChainの CapacityTextSplitter を使用し、chunk_sizeとchunk_overlapを設定できます。chunk_sizeは文字数で測定されます。さまざまな値を自由に試してください。また、段落を区別できるように、セパレーターを改行文字に設定します。トークン化には、granite-3.1-8b-instructトークナイザーを使用することができます。トークン化はテキストをLLMで処理できるトークンに分解します。

from langchain_text_splitters import CharacterTextSplitter

tokenizer = AutoTokenizer.from_pretrained(“ibm-granite/granite-3.1-8b-instruct”)

text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(

tokenizer,

separator=”

”, #default: “



”

chunk_size=1200, chunk_overlap=200)

fixed_size_chunks = text_splitter.create_documents([doc[0].page_content])

チャンクの1つをプリントして、構造をより深く理解することができます。

fixed_size_chunks[1]

出力: （省略）

Document(metadata={}, page_content=’As always, IBM’s historical commitment to open source is reflected in the permissive and standard open source licensing for every offering discussed in this article.

\r

Granite 3.1 8B Instruct: raising the bar for lightweight enterprise models\r



IBM’s efforts in the ongoing optimization the Granite series are most evident in the growth of its flagship 8B dense model. IBM Granite 3.1 8B Instruct now bests most open models in its weight class in average scores on the academic benchmarks evaluations included in the Hugging Face OpenLLM Leaderboard...’)

また、Verifyを使用してプロセスを検証したり、各チャンクに存在するトークンの数を確認したりすることもできます。このステップは任意であり、デモンストレーションを目的としています。

for idx, val in enumerate(fixed_size_chunks):

token_count = len(tokenizer.encode(val.page_content))

print(f”The chunk at index {idx} contains {token_count} tokens.”)

アウトプット：

The chunk at index 0 contains 1106 tokens.

The chunk at index 1 contains 1102 tokens.

The chunk at index 2 contains 1183 tokens.

The chunk at index 3 contains 1010 tokens.

成功です。チャンクサイズが適切に実装されているようです。

再帰的チャンク化

再帰的チャンク化には、LangChainのRecursive TextSplitterを使用できます。固定サイズのチャンク化の例と同様に、さまざまなサイズのチャンクやオーバーラップ・サイズを試すことができます。

from langchain_text_splitters import RecursiveCharacterTextSplitter



text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=0)

recursive_chunks = text_splitter.create_documents([doc[0].page_content])

recursive_chunks[:5]

アウトプット：

[Document(metadata={}, page_content=’IBM Granite 3.1: powerful performance, longer context and more’),

Document(metadata={}, page_content=’IBM Granite 3.1: powerful performance, longer context, new embedding models and more’),

Document(metadata={}, page_content=’Artificial Intelligence’),

Document(metadata={}, page_content=’Compute and servers’),

Document(metadata={}, page_content=’IT automation’)]

スプリッターは、デフォルトのセパレーター [“



”, 「

」、「 “, “」] を使用してテキストを正常にチャンク化しました。

意味論的チャンク化

意味論的チャンク化には、埋め込みモデルまたはエンコーダーモデルが必要です。埋め込みモデルとして、granite-embedding-30m-englishモデルを使用できます。また、構造をより深く理解するために、チャンクの1つをプリントすることもできます。

from langchain_huggingface import HuggingFaceEmbeddings

from langchain_experimental.text_splitter import SemanticChunker



embeddings_model = HuggingFaceEmbeddings(model_name=”ibm-granite/granite-embedding-30m-english”)

text_splitter = SemanticChunker(embeddings_model)

semantic_chunks = text_splitter.create_documents([doc[0].page_content])

semantic_chunks[1]

出力: （省略）

Document(metadata={}, page_content=’Our latest dense models (Granite 3.1 8B, Granite 3.1 2B), MoE models (Granite 3.1 3B-A800M, Granite 3.1 1B-A400M) and guardrail models (Granite Guardian 3.1 8B, Granite Guardian 3.1 2B) all feature a 128K token context length.We’re releasing a family of all-new embedding models. The new retrieval-optimized Granite Embedding models are offered in four sizes, ranging from 30M–278M parameters. Like their generative counterparts, they offer multilingual support across 12 different languages: English, German, Spanish, French, Japanese, Portuguese, Arabic, Czech, Italian, Korean, Dutch and Chinese. Granite Guardian 3.1 8B and 2B feature a new function calling hallucination detection capability, allowing increased control over and observability for agents making tool calls...’)

文書ベースのチャンク化

LangChainの文書ベースのテキスト・スプリッターは、さまざまなファイルタイプの文書と互換性があります。このチュートリアルでは、マークダウン・ファイルを使用します。再帰的JSON分割、コード分割、HTML分割の例については、LangChainのドキュメンテーションを参照してください。

ロードできるマークダウン・ファイルの例としては、IBMの GitHubにあるGranite 3.1のREADMEファイルがあります。

url = “https://raw.githubusercontent.com/ibm-granite/granite-3.1-language-models/refs/heads/main/README.md”

markdown_doc = WebBaseLoader(url).load()

markdown_doc

アウトプット：

[Document(metadata={‘source’: ‘https://raw.githubusercontent.com/ibm-granite/granite-3.1-language-models/refs/heads/main/README.md’}, page_content=’







:books: Paper (comming soon)\xa0 | :hugs: HuggingFace Collection\xa0 |

:speech_balloon: Discussions Page\xa0 | ðŸ“˜ IBM Granite Docs





---

## Introduction to Granite 3.1 Language Models

Granite 3.1 language models are lightweight, state-of-the-art, open foundation models that natively support multilinguality, coding, reasoning, and tool usage, including the potential to be run on constrained compute resources. All the models are publicly released under an Apache 2.0 license for both research and commercial use. The models\’ data curation and training procedure were designed for enterprise usage and customization, with a process that evaluates datasets for governance, risk and compliance (GRC) criteria, in addition to IBM\’s standard data clearance process and document quality checks...’)]

ここで、LangChainのMarkdownHeaderTextSplitterを使用して、Headings_to_split_onリストに設定したヘッダー・タイプごとにファイルを分割できるようになりました。また、例としてチャンクの 1 つを出力します。

#document based chunking

from langchain_text_splitters import MarkdownHeaderTextSplitter

headers_to_split_on = [

(“#”, “Header 1”),

(“##”, “Header 2”),

(“###”, “Header 3”),

]

markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on)

document_based_chunks = markdown_splitter.split_text(markdown_doc[0].page_content)

document_based_chunks[3]

アウトプット：

Document(metadata={‘Header 2’: ‘How to Use our Models?’, ‘Header 3’: ‘Inference’}, page_content=’This is a simple example of how to use Granite-3.1-1B-A400M-Instruct model.

```python

import torch

from transformers import AutoModelForCausalLM, AutoTokenizer



device = “auto”

model_path = “ibm-granite/granite-3.1-1b-a400m-instruct”

tokenizer = AutoTokenizer.from_pretrained(model_path)

# drop device_map if running on CPU

model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)

model.eval()

# change input text as desired

chat = [

{ “role”: “user”, “content”: “Please list one IBM Research laboratory located in the United States. You should only output its name and location.” },

]

chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

# tokenize the text

input_tokens = tokenizer(chat, return_tensors=”pt”).to(device)

# generate output tokens

output = model.generate(**input_tokens,

max_new_tokens=100)

# decode output tokens into text

output = tokenizer.batch_decode(output)

# print output

print(output)

```’)

アウトプットからわかるように、チャンク化によりテキストがヘッダー・タイプごとに正常に分割されています。