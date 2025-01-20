Prenons un exemple de code pour implémenter chacune des stratégies de découpage abordées plus haut dans ce tutoriel, disponible via LangChain.

Découpage à taille fixe

Pour implémenter un découpage en blocs à taille fixe, nous pouvons utiliser le CharacterTextSplitter de LangChain, définir une chunk_size et un chunk_overlap. La chunk_size est mesurée par le nombre de caractères. N'hésitez pas à expérimenter d'autres valeurs. Nous définirons également le séparateur comme caractère de nouvelle ligne afin de pouvoir différencier les paragraphes. Pour la tokenisation, nous pouvons utiliser le tokenizer granite-3.1-8b-instruct. Le tokeniseur divise le texte en tokens pouvant être traités par le LLM.

from langchain_text_splitters import CharacterTextSplitter

tokenizer = AutoTokenizer.from_pretrained(“ibm-granite/granite-3.1-8b-instruct”)

text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(

tokenizer,

separator=”

”, #default: “



”

chunk_size=1200, chunk_overlap=200)

fixed_size_chunks = text_splitter.create_documents([doc[0].page_content])

Nous pouvons imprimer un des blocs pour une meilleure compréhension de leur structure.

fixed_size_chunks[1]

Sortie : (tronquée)

Document(metadata={}, page_content=’As always, IBM’s historical commitment to open source is reflected in the permissive and standard open source licensing for every offering discussed in this article.

\r

Granite 3.1 8B Instruct: raising the bar for lightweight enterprise models\r



IBM’s efforts in the ongoing optimization the Granite series are most evident in the growth of its flagship 8B dense model. IBM Granite 3.1 8B Instruct now bests most open models in its weight class in average scores on the academic benchmarks evaluations included in the Hugging Face OpenLLM Leaderboard...’)

Nous pouvons également utiliser le tokenizer pour vérifier notre processus et contrôler le nombre de tokens présents dans chaque bloc. Cette étape est facultative et destinée à des fins de démonstration.

for idx, val in enumerate(fixed_size_chunks):

token_count = len(tokenizer.encode(val.page_content))

print(f”The chunk at index {idx} contains {token_count} tokens.”)

Output:

The chunk at index 0 contains 1106 tokens.

The chunk at index 1 contains 1102 tokens.

The chunk at index 2 contains 1183 tokens.

The chunk at index 3 contains 1010 tokens.

Super ! Il semble que nos tailles de fragments aient été correctement mises en œuvre.

Découpage récursif

Pour le découpage récursif, on peut utiliser le RecursiveCharacterTextSplitter de LangChain. Comme pour l’exemple du découpage à taille fixe, nous pouvons expérimenter avec différentes tailles de blocs et de chevauchements.

from langchain_text_splitters import RecursiveCharacterTextSplitter



text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=0)

recursive_chunks = text_splitter.create_documents([doc[0].page_content])

recursive_chunks[:5]

Output:

[Document(metadata={}, page_content=’IBM Granite 3.1: powerful performance, longer context and more’),

Document(metadata={}, page_content=’IBM Granite 3.1: powerful performance, longer context, new embedding models and more’),

Document(metadata={}, page_content=’Artificial Intelligence’),

Document(metadata={}, page_content=’Compute and servers’),

Document(metadata={}, page_content=’IT automation’)]

Le séparateur a réussi à segmenter le texte en utilisant les séparateurs par défaut : [“



”, “

”, “ “, “”].

Découpage sémantique

Le découpage sémantique nécessite un modèle d'embedding ou d'encodeur. Nous pouvons utiliser le modèle granite-embedding-30m-english comme modèle d'embedding. Nous pouvons également imprimer un des blocs pour une meilleure compréhension de leur structure.

from langchain_huggingface import HuggingFaceEmbeddings

from langchain_experimental.text_splitter import SemanticChunker



embeddings_model = HuggingFaceEmbeddings(model_name=”ibm-granite/granite-embedding-30m-english”)

text_splitter = SemanticChunker(embeddings_model)

semantic_chunks = text_splitter.create_documents([doc[0].page_content])

semantic_chunks[1]

Sortie : (tronquée)

Document(metadata={}, page_content=’Our latest dense models (Granite 3.1 8B, Granite 3.1 2B), MoE models (Granite 3.1 3B-A800M, Granite 3.1 1B-A400M) and guardrail models (Granite Guardian 3.1 8B, Granite Guardian 3.1 2B) all feature a 128K token context length.We’re releasing a family of all-new embedding models. The new retrieval-optimized Granite Embedding models are offered in four sizes, ranging from 30M–278M parameters. Like their generative counterparts, they offer multilingual support across 12 different languages: English, German, Spanish, French, Japanese, Portuguese, Arabic, Czech, Italian, Korean, Dutch and Chinese. Granite Guardian 3.1 8B and 2B feature a new function calling hallucination detection capability, allowing increased control over and observability for agents making tool calls...’)

Découpage basé sur les documents

Les documents de différents types de fichiers sont compatibles avec les séparateurs de texte basés sur les documents de LangChain. Pour les besoins de ce tutoriel, nous utiliserons un fichier Markdown. Pour des exemples de partitionnement récursif en JSON, de code et de HTML, consultez la documentation de LangChain.

Le fichier README pour Granite 3.1 sur le GitHub d’IBM est un exemple de fichier Markdown.

url = “https://raw.githubusercontent.com/ibm-granite/granite-3.1-language-models/refs/heads/main/README.md”

markdown_doc = WebBaseLoader(url).load()

markdown_doc

Output:

[Document(metadata={‘source’: ‘https://raw.githubusercontent.com/ibm-granite/granite-3.1-language-models/refs/heads/main/README.md’}, page_content=’







:books: Paper (comming soon)\xa0 | :hugs: HuggingFace Collection\xa0 |

:speech_balloon: Discussions Page\xa0 | ðŸ“˜ IBM Granite Docs





---

## Introduction to Granite 3.1 Language Models

Granite 3.1 language models are lightweight, state-of-the-art, open foundation models that natively support multilinguality, coding, reasoning, and tool usage, including the potential to be run on constrained compute resources. All the models are publicly released under an Apache 2.0 license for both research and commercial use. The models\’ data curation and training procedure were designed for enterprise usage and customization, with a process that evaluates datasets for governance, risk and compliance (GRC) criteria, in addition to IBM\’s standard data clearance process and document quality checks...’)]

Maintenant, nous pouvons utiliser le MarkdownHeaderTextSplitter de LangChain pour découper le fichier par type d’en-tête, que nous avons défini dans la liste « headdown_to_split_on ». Nous imprimerons également l’un des blocs à titre d’exemple.

#découpage basé sur les documents

de langchain_text_splitters import MarkdownHeaderTextSplitter

headers_to_split_on = [

(“#”, “Header 1”),

(“##”, “Header 2”),

(“###”, “Header 3”),

]

markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on)

document_based_chunks = markdown_splitter.split_text(markdown_doc[0].page_content)

document_based_chunks[3]

Output:

Document(metadata={‘Header 2’: ‘How to Use our Models?’, ‘Header 3’: ‘Inference’}, page_content=’This is a simple example of how to use Granite-3.1-1B-A400M-Instruct model.

```python

import torch

from transformers import AutoModelForCausalLM, AutoTokenizer



device = “auto”

model_path = “ibm-granite/granite-3.1-1b-a400m-instruct”

tokenizer = AutoTokenizer.from_pretrained(model_path)

# drop device_map if running on CPU

model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)

model.eval()

# change input text as desired

chat = [

{ “role”: “user”, “content”: “Please list one IBM Research laboratory located in the United States. You should only output its name and location.” },

]

chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

# tokenize the text

input_tokens = tokenizer(chat, return_tensors=”pt”).to(device)

# generate output tokens

output = model.generate(**input_tokens,

max_new_tokens=100)

# decode output tokens into text

output = tokenizer.batch_decode(output)

# print output

print(output)

```’)

Comme vous pouvez le voir dans la sortie, le découpage a réussi à diviser le texte par type d’en-tête.