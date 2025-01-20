Stellen Sie Beispielcode für die Implementierung jeder der Chunking-Strategien bereit, die wir bereits in diesem Tutorial behandelt haben, das über LangChain verfügbar ist.

Chunking in fester Größe

Zur Implementierung von Chunking mit fester Größe können wir den CharacterTextSplitter von LangChain verwenden und sowohl eine chunk_size als auch ein chunk_overlap festlegen. Die chunk_size wird anhand der Anzahl der Zeichen gemessen. Experimentieren Sie gerne mit verschiedenen Werten. Wir werden auch das Trennzeichen auf das Zeilenumbruchzeichen setzen, damit wir zwischen den Absätzen unterscheiden können. Für die Tokenisierung können wir den granite-3.1-8b-instruct Tokenizer verwenden. Der Tokenizer zerlegt Text in Token, die vom LLM verarbeitet werden können.

from langchain_text_splitters import CharacterTextSplitter

tokenizer = AutoTokenizer.from_pretrained(“ibm-granite/granite-3.1-8b-instruct”)

text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(

tokenizer,

separator=”

”, #default: “



”

chunk_size=1200, chunk_overlap=200)

fixed_size_chunks = text_splitter.create_documents([doc[0].page_content])

Wir können einen der Chunks ausdrucken, um ihre Struktur besser zu verstehen.

fixed_size_chunks[1]

Ausgabe: (abgeschnitten)

Document(metadata={}, page_content=’As always, IBM’s historical commitment to open source is reflected in the permissive and standard open source licensing for every offering discussed in this article.

\r

Granite 3.1 8B Instruct: raising the bar for lightweight enterprise models\r



IBM’s efforts in the ongoing optimization the Granite series are most evident in the growth of its flagship 8B dense model. IBM Granite 3.1 8B Instruct now bests most open models in its weight class in average scores on the academic benchmarks evaluations included in the Hugging Face OpenLLM Leaderboard...’)

Wir können den Tokenizer auch zur Überprüfung unseres Prozesses und zur Kontrolle der Anzahl der in jedem Chunk vorhandenen Tokens verwenden. Dieser Schritt ist optional und dient lediglich zu Demonstrationszwecken.

for idx, val in enumerate(fixed_size_chunks):

token_count = len(tokenizer.encode(val.page_content))

print(f”Der Chunk bei Index {idx} beinhaltet {token_count} Token.”)

Output:

The chunk at index 0 contains 1106 tokens.

The chunk at index 1 contains 1102 tokens.

The chunk at index 2 contains 1183 tokens.

The chunk at index 3 contains 1010 tokens.

Großartig! Es sieht so aus, als ob unsere Chunk-Größen angemessen implementiert wurden.

Rekursives Chunking

Für rekursives Chunking können wir den RecursiveCharacterTextSplitter von LangChain verwenden. Wie bei dem Chunking-Beispiel mit fester Größe können wir mit verschiedenen Chunk- und Überlappungsgrößen experimentieren.

from langchain_text_splitters import RecursiveCharacterTextSplitter



text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=0)

recursive_chunks = text_splitter.create_documents([doc[0].page_content])

recursive_chunks[:5]

Output:

[Document(metadata={}, page_content=’IBM Granite 3.1: powerful performance, longer context and more’),

Document(metadata={}, page_content=’IBM Granite 3.1: powerful performance, longer context, new embedding models and more’),

Document(metadata={}, page_content=’Artificial Intelligence’),

Document(metadata={}, page_content=’Compute and servers’),

Document(metadata={}, page_content=’IT automation’)]

Der Splitter hat den Text erfolgreich unter Verwendung der Standardtrennzeichen in Abschnitte unterteilt: [“



”, “

”, “ “, “”].

Semantisches Chunking

Semantisches Chunking erfordert ein Einbetten- oder Encodermodell. Als Einbetten-Modell können wir das Modell granite-embedding-30m-english verwenden. Wir können auch einen der Chunks drucken, um ein besseres Verständnis ihrer Struktur zu erhalten.

from langchain_huggingface import HuggingFaceEmbeddings

from langchain_experimental.text_splitter import SemanticChunker



embeddings_model = HuggingFaceEmbeddings(model_name=”ibm-granite/granite-embedding-30m-english”)

text_splitter = SemanticChunker(embeddings_model)

semantic_chunks = text_splitter.create_documents([doc[0].page_content])

semantic_chunks[1]

Ausgabe: (abgeschnitten)

Document(metadata={}, page_content=’Our latest dense models (Granite 3.1 8B, Granite 3.1 2B), MoE models (Granite 3.1 3B-A800M, Granite 3.1 1B-A400M) and guardrail models (Granite Guardian 3.1 8B, Granite Guardian 3.1 2B) all feature a 128K token context length.We’re releasing a family of all-new embedding models. The new retrieval-optimized Granite Embedding models are offered in four sizes, ranging from 30M–278M parameters. Like their generative counterparts, they offer multilingual support across 12 different languages: English, German, Spanish, French, Japanese, Portuguese, Arabic, Czech, Italian, Korean, Dutch and Chinese. Granite Guardian 3.1 8B and 2B feature a new function calling hallucination detection capability, allowing increased control over and observability for agents making tool calls...’)

Dokumentbasiertes Chunking

Dokumente verschiedener Dateitypen sind mit den dokumentenbasierten Textsplittern von LangChain kompatibel. Für die Zwecke dieses Tutorials verwenden wir eine Markdown-Datei. Beispiele für rekursives JSON-Splitting, Code-Splitting und HTML-Splitting finden Sie in der LangChain-Dokumentation.

Ein Beispiel für eine Markdown-Datei, die wir laden können, ist die README-Datei für Granite 3.1 auf GitHub von IBM.

url = “https://raw.githubusercontent.com/ibm-granite/granite-3.1-language-models/refs/heads/main/README.md”

markdown_doc = WebBaseLoader(url).load()

markdown_doc

Output:

[Document(metadata={‘source’: ‘https://raw.githubusercontent.com/ibm-granite/granite-3.1-language-models/refs/heads/main/README.md’}, page_content=’







:books: Paper (comming soon)\xa0 | :hugs: HuggingFace Collection\xa0 |

:speech_balloon: Discussions Page\xa0 | ðŸ“˜ IBM Granite Docs





---

## Introduction to Granite 3.1 Language Models

Granite 3.1 language models are lightweight, state-of-the-art, open foundation models that natively support multilinguality, coding, reasoning, and tool usage, including the potential to be run on constrained compute resources. All the models are publicly released under an Apache 2.0 license for both research and commercial use. The models\’ data curation and training procedure were designed for enterprise usage and customization, with a process that evaluates datasets for governance, risk and compliance (GRC) criteria, in addition to IBM\’s standard data clearance process and document quality checks...’)]

Nun können wir den MarkdownHeaderTextSplitter von LangChain verwenden, um die Datei nach Header-Typ zu teilen, den wir in der Liste headers_to_split_on festgelegt haben. Wir werden einen der Chunks auch als Beispiel ausdrucken.

#document based chunking

from langchain_text_splitters import MarkdownHeaderTextSplitter

headers_to_split_on = [

(“#”, “Header 1”),

(“##”, “Header 2”),

(“###”, “Header 3”),

]

markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on)

document_based_chunks = markdown_splitter.split_text(markdown_doc[0].page_content)

document_based_chunks[3]

Output:

Document(metadata={‘Header 2’: ‘How to Use our Models?’, ‘Header 3’: ‘Inference’}, page_content=’This is a simple example of how to use Granite-3.1-1B-A400M-Instruct model.

```python

import torch

from transformers import AutoModelForCausalLM, AutoTokenizer



device = “auto”

model_path = “ibm-granite/granite-3.1-1b-a400m-instruct”

tokenizer = AutoTokenizer.from_pretrained(model_path)

# drop device_map if running on CPU

model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)

model.eval()

# change input text as desired

chat = [

{ “role”: “user”, “content”: “Please list one IBM Research laboratory located in the United States. You should only output its name and location.” },

]

chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

# tokenize the text

input_tokens = tokenizer(chat, return_tensors=”pt”).to(device)

# generate output tokens

output = model.generate(**input_tokens,

max_new_tokens=100)

# decode output tokens into text

output = tokenizer.batch_decode(output)

# print output

print(output)

```’)

Wie Sie in der Ausgabe sehen können, hat das Chunking den Text erfolgreich nach Kopfzeilentyp aufgeteilt.