لنقدِّم مثالًا برمجيًا لكيفية تطبيق كل استراتيجية من استراتيجيات التقسيم التي ناقشناها سابقًا في هذا البرنامج التعليمي والمتاحة عبر LangChain.

التقسيم ثابت الحجم

لتنفيذ التقسيم ثابت الحجم، يمكننا استخدام CharacterTextSplitter من LangChain وتعيين chunk_size بالإضافة إلى chunk_overlap. يتم قياس chunk_size بعدد الأحرف. لا تتردد في تجربة قيم مختلفة. سنعيِّن أيضًا الفاصل ليكون حرف السطر الجديد حتى نتمكن من التمييز بين الفقرات. بالنسبة إلى الترميز، يمكننا استخدام برنامج الترميز granite-3.1-8b-instruct . يعمل برنامج الترميز على تفكيك النص إلى رموز يمكن للنموذج اللغوي معالجتها.

from langchain_text_splitters import CharacterTextSplitter

tokenizer = AutoTokenizer.from_pretrained(“ibm-granite/granite-3.1-8b-instruct”)

text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(

tokenizer,

separator=”

”, #default: “



”

chunk_size=1200, chunk_overlap=200)

fixed_size_chunks = text_splitter.create_documents([doc[0].page_content])

يمكننا طباعة أحد المقاطع للحصول على فهم أفضل لهيكلها.

fixed_size_chunks[1]

الإخراج: (مقتطع)

Document(metadata={}, page_content=’As always, IBM’s historical commitment to open source is reflected in the permissive and standard open source licensing for every offering discussed in this article.

\r

Granite 3.1 8B Instruct: raising the bar for lightweight enterprise models\r



IBM’s efforts in the ongoing optimization the Granite series are most evident in the growth of its flagship 8B dense model. IBM Granite 3.1 8B Instruct now bests most open models in its weight class in average scores on the academic benchmarks evaluations included in the Hugging Face OpenLLM Leaderboard...’)

يمكننا أيضًا استخدام برنامج الترميز للتحقق من العملية ولمراجعة عدد الرموز المميزة في كل مقطع. هذه الخطوة اختيارية ولأغراض توضيحية.

for idx, val in enumerate(fixed_size_chunks):

token_count = len(tokenizer.encode(val.page_content))

print(f”The chunk at index {idx} contains {token_count} tokens.”)

المخرجات:

The chunk at index 0 contains 1106 tokens.

The chunk at index 1 contains 1102 tokens.

The chunk at index 2 contains 1183 tokens.

The chunk at index 3 contains 1010 tokens.

رائع! يبدو أن أحجام المقاطع لدينا قد تم تنفيذها بشكل مناسب.

التقسيم التكراري

بالنسبة إلى التقسيم التكراري، يمكننا استخدام RecursiveCharacterTextSplitter من LangChain. مثل مثال التقسيم ثابت الحجم، يمكننا تجربة أحجام مختلفة للمقاطع ودرجة التداخل بينها.

from langchain_text_splitters import RecursiveCharacterTextSplitter



text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=0)

recursive_chunks = text_splitter.create_documents([doc[0].page_content])

recursive_chunks[:5]

المخرجات:

[Document(metadata={}, page_content=’IBM Granite 3.1: powerful performance, longer context and more’),

Document(metadata={}, page_content=’IBM Granite 3.1: powerful performance, longer context, new embedding models and more’),

Document(metadata={}, page_content=’Artificial Intelligence’),

Document(metadata={}, page_content=’Compute and servers’),

Document(metadata={}, page_content=’IT automation’)]

نجح الفاصل في تقسيم النص باستخدام الفواصل الافتراضية: ["



"، و"

"، و" "، و""].

التقسيم الدلالي

يتطلب التقسيم الدلالي نموذج تضمين أو تشفير. نستخدم نموذج granite-embedding-30m-english كنموذج التضمين الخاص بنا. يمكننا أيضًا طباعة أحد المقاطع لفهم هيكلها بشكل أفضل.

from langchain_huggingface import HuggingFaceEmbeddings

from langchain_experimental.text_splitter import SemanticChunker



embeddings_model = HuggingFaceEmbeddings(model_name=”ibm-granite/granite-embedding-30m-english”)

text_splitter = SemanticChunker(embeddings_model)

semantic_chunks = text_splitter.create_documents([doc[0].page_content])

semantic_chunks[1]

الإخراج: (مقتطع)

Document(metadata={}, page_content=’Our latest dense models (Granite 3.1 8B, Granite 3.1 2B), MoE models (Granite 3.1 3B-A800M, Granite 3.1 1B-A400M) and guardrail models (Granite Guardian 3.1 8B, Granite Guardian 3.1 2B) all feature a 128K token context length.We’re releasing a family of all-new embedding models. The new retrieval-optimized Granite Embedding models are offered in four sizes, ranging from 30M–278M parameters. Like their generative counterparts, they offer multilingual support across 12 different languages: English, German, Spanish, French, Japanese, Portuguese, Arabic, Czech, Italian, Korean, Dutch and Chinese. Granite Guardian 3.1 8B and 2B feature a new function calling hallucination detection capability, allowing increased control over and observability for agents making tool calls...’)

التقسيم القائم على المستندات

تتوافق المستندات بمختلف أنواع الملفات مع فواصل النصوص القائمة على المستندات في LangChain. لأغراض هذا البرنامج التعليمي، سنستخدم ملف Markdown. للحصول على أمثلة على تقسيم JSON التكراري وتقسيم التعليمات البرمجية وتقسيم HTML، راجِع وثائق LangChain.

من الأمثلة على ملف Markdown الذي يمكننا تحميله ملف README لنموذج Granite 3.1 على GitHub من IBM.

url = “https://raw.githubusercontent.com/ibm-granite/granite-3.1-language-models/refs/heads/main/README.md”

markdown_doc = WebBaseLoader(url).load()

markdown_doc

المخرجات:

[Document(metadata={‘source’: ‘https://raw.githubusercontent.com/ibm-granite/granite-3.1-language-models/refs/heads/main/README.md’}, page_content=’







:books: Paper (comming soon)\xa0 | :hugs: HuggingFace Collection\xa0 |

:speech_balloon: Discussions Page\xa0 | ðŸ“˜ IBM Granite Docs





---

## Introduction to Granite 3.1 Language Models

Granite 3.1 language models are lightweight, state-of-the-art, open foundation models that natively support multilinguality, coding, reasoning, and tool usage, including the potential to be run on constrained compute resources. All the models are publicly released under an Apache 2.0 license for both research and commercial use. The models\’ data curation and training procedure were designed for enterprise usage and customization, with a process that evaluates datasets for governance, risk and compliance (GRC) criteria, in addition to IBM\’s standard data clearance process and document quality checks...’)]

الآن، يمكننا استخدام MarkdownHeaderTextSplitter من LangChain لتقسيم الملف حسب نوع العنوان، الذي نحدده في قائمة headers_to_split_on. سنطبع أيضًا أحد المقاطع كمثال.

#document based chunking

from langchain_text_splitters import MarkdownHeaderTextSplitter

headers_to_split_on = [

(“#”, “Header 1”),

(“##”, “Header 2”),

(“###”, “Header 3”),

]

markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on)

document_based_chunks = markdown_splitter.split_text(markdown_doc[0].page_content)

document_based_chunks[3]

المخرجات:

Document(metadata={‘Header 2’: ‘How to Use our Models?’, ‘Header 3’: ‘Inference’}, page_content=’This is a simple example of how to use Granite-3.1-1B-A400M-Instruct model.

```python

import torch

from transformers import AutoModelForCausalLM, AutoTokenizer



device = “auto”

model_path = “ibm-granite/granite-3.1-1b-a400m-instruct”

tokenizer = AutoTokenizer.from_pretrained(model_path)

# drop device_map if running on CPU

model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)

model.eval()

# change input text as desired

chat = [

{ “role”: “user”, “content”: “Please list one IBM Research laboratory located in the United States. You should only output its name and location.” },

]

chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

# tokenize the text

input_tokens = tokenizer(chat, return_tensors=”pt”).to(device)

# generate output tokens

output = model.generate(**input_tokens,

max_new_tokens=100)

# decode output tokens into text

output = tokenizer.batch_decode(output)

# print output

print(output)

```’)

كما ترى في الناتج، نجح التقسيم في فصل النصوص حسب نوع العنوان.