Forniamo un codice di esempio per l'implementazione di ciascuna delle strategie di chunking di cui abbiamo parlato in precedenza in questo tutorial, disponibile tramite LangChain.

Chunking a dimensioni fisse

Per implementare il chunking a dimensioni fisse possiamo usare CharacterTextSplitter di LangChain e impostare chunk_size e chunk_overlap. chunk_size è misurato dal numero di caratteri. Puoi sperimentare con valori diversi. Imposteremo anche il separatore in modo che sia il carattere di nuova riga in modo da poter distinguere tra i paragrafi. Per la tokenizzazione, possiamo usare il tokenizer di istruzioni granite-3.1-8b, che suddivide il testo in token che possono essere elaborati dall'LLM.

from langchain_text_splitters import CharacterTextSplitter

tokenizer = AutoTokenizer.from_pretrained(“ibm-granite/granite-3.1-8b-instruct”)

text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(

tokenizer,

separator=”

”, #default: “



”

chunk_size=1200, chunk_overlap=200)

fixed_size_chunks = text_splitter.create_documents([doc[0].page_content])

Possiamo stampare uno dei blocchi per una migliore comprensione della loro struttura.

fixed_size_chunks[1]

Output: (troncata)

Document(metadata={}, page_content=’As always, IBM’s historical commitment to open source is reflected in the permissive and standard open source licensing for every offering discussed in this article.

\r

Granite 3.1 8B Instruct: raising the bar for lightweight enterprise models\r



IBM’s efforts in the ongoing optimization the Granite series are most evident in the growth of its flagship 8B dense model. IBM Granite 3.1 8B Instruct now bests most open models in its weight class in average scores on the academic benchmarks evaluations included in the Hugging Face OpenLLM Leaderboard...’)

Possiamo anche usare il tokenizer per verificare il nostro processo e per controllare il numero di token presenti in ogni blocco. Questo passaggio è facoltativo e a scopo dimostrativo.

for idx, val in enumerate(fixed_size_chunks):

token_count = len(tokenizer.encode(val.page_content))

print(f”The chunk at index {idx} contains {token_count} tokens.”)

Output

The chunk at index 0 contains 1106 tokens.

The chunk at index 1 contains 1102 tokens.

The chunk at index 2 contains 1183 tokens.

The chunk at index 3 contains 1010 tokens.

Fantastico! Sembra che le dimensioni dei nostri chunk siano state implementate correttamente.

Chunking ricorsivo

Per il chunking ricorsivo, possiamo utilizzare RecursiveCharacterTextSplitter di LangChain. Come nell'esempio del chunking a dimensione fissa, possiamo sperimentare con diverse dimensioni di chunk e sovrapposizioni.

from langchain_text_splitters import RecursiveCharacterTextSplitter



text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=0)

recursive_chunks = text_splitter.create_documents([doc[0].page_content])

recursive_chunks[:5]

Output

[Document(metadata={}, page_content=’IBM Granite 3.1: powerful performance, longer context and more’),

Document(metadata={}, page_content=’IBM Granite 3.1: powerful performance, longer context, new embedding models and more’),

Document(metadata={}, page_content=’Artificial Intelligence’),

Document(metadata={}, page_content=’Compute and servers’),

Document(metadata={}, page_content=’IT automation’)]

La barra di divisione ha eseguito correttamente il chunking del testo utilizzando i separatori predefiniti: ["



", "

", " ", ""].

Chunking semantico

Il chunking semantico richiede un modello di embedding o di codifica. Possiamo utilizzare il modello di embedding granite-embedding-30m-english come modello di embedding. Possiamo anche stampare uno dei blocchi per comprenderne meglio la struttura.

from langchain_huggingface import HuggingFaceEmbeddings

from langchain_experimental.text_splitter import SemanticChunker



embeddings_model = HuggingFaceEmbeddings(model_name=”ibm-granite/granite-embedding-30m-english”)

text_splitter = SemanticChunker(embeddings_model)

semantic_chunks = text_splitter.create_documents([doc[0].page_content])

semantic_chunks[1]

Output: (troncata)

Document(metadata={}, page_content=’Our latest dense models (Granite 3.1 8B, Granite 3.1 2B), MoE models (Granite 3.1 3B-A800M, Granite 3.1 1B-A400M) and guardrail models (Granite Guardian 3.1 8B, Granite Guardian 3.1 2B) all feature a 128K token context length.We’re releasing a family of all-new embedding models. The new retrieval-optimized Granite Embedding models are offered in four sizes, ranging from 30M–278M parameters. Like their generative counterparts, they offer multilingual support across 12 different languages: English, German, Spanish, French, Japanese, Portuguese, Arabic, Czech, Italian, Korean, Dutch and Chinese. Granite Guardian 3.1 8B and 2B feature a new function calling hallucination detection capability, allowing increased control over and observability for agents making tool calls...’)

Chunking basato sui documenti

Documenti di vari tipi di file sono compatibili con gli splitter di testo basati su documenti di LangChain. Ai fini di questo tutorial, utilizzeremo un file Markdown. Per esempi di suddivisione ricorsiva in JSON, suddivisione del codice e divisione HTML, fai riferimento alla documentazione di LangChain.

Un esempio di file Markdown che possiamo caricare è il file README per Granite 3.1 su GitHub di IBM .

url = “https://raw.githubusercontent.com/ibm-granite/granite-3.1-language-models/refs/heads/main/README.md”

markdown_doc = WebBaseLoader(url).load()

markdown_doc

Output

[Document(metadata={‘source’: ‘https://raw.githubusercontent.com/ibm-granite/granite-3.1-language-models/refs/heads/main/README.md’}, page_content=’







:books: Paper (comming soon)\xa0 | :hugs: HuggingFace Collection\xa0 |

:speech_balloon: Discussions Page\xa0 | ðŸ“˜ IBM Granite Docs





---

## Introduction to Granite 3.1 Language Models

Granite 3.1 language models are lightweight, state-of-the-art, open foundation models that natively support multilinguality, coding, reasoning, and tool usage, including the potential to be run on constrained compute resources. All the models are publicly released under an Apache 2.0 license for both research and commercial use. The models\’ data curation and training procedure were designed for enterprise usage and customization, with a process that evaluates datasets for governance, risk and compliance (GRC) criteria, in addition to IBM\’s standard data clearance process and document quality checks...’)]

Ora possiamo utilizzare MarkdownHeaderTextSplitter di LangChain per dividere il file in base al tipo di intestazione, che abbiamo impostato nell'elenco headers_to_split_on. Stamperemo anche uno dei blocchi come esempio.

#document based chunking

from langchain_text_splitters import MarkdownHeaderTextSplitter

headers_to_split_on = [

(“#”, “Header 1”),

(“##”, “Header 2”),

(“###”, “Header 3”),

]

markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on)

document_based_chunks = markdown_splitter.split_text(markdown_doc[0].page_content)

document_based_chunks[3]

Output

Document(metadata={‘Header 2’: ‘How to Use our Models?’, ‘Header 3’: ‘Inference’}, page_content=’This is a simple example of how to use Granite-3.1-1B-A400M-Instruct model.

```python

import torch

from transformers import AutoModelForCausalLM, AutoTokenizer



device = “auto”

model_path = “ibm-granite/granite-3.1-1b-a400m-instruct”

tokenizer = AutoTokenizer.from_pretrained(model_path)

# drop device_map if running on CPU

model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)

model.eval()

# change input text as desired

chat = [

{ “role”: “user”, “content”: “Please list one IBM Research laboratory located in the United States. You should only output its name and location.” },

]

chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

# tokenize the text

input_tokens = tokenizer(chat, return_tensors=”pt”).to(device)

# generate output tokens

output = model.generate(**input_tokens,

max_new_tokens=100)

# decode output tokens into text

output = tokenizer.batch_decode(output)

# print output

print(output)

```’)

Come puoi vedere nell'output, il chunking ha suddiviso correttamente il testo per tipo di intestazione.