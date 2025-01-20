Proporcionemos código de muestra para implementar cada una de las estrategias de fragmentación que cubrimos anteriormente en este tutorial disponible a través de LangChain.

Fragmentación de tamaño fijo

Para implementar la fragmentación de tamaño fijo, podemos usar CharacterTextSplitter de LangChain y establecer un chunk_size, así como un chunk_overlap. El tamaño del fragmento se mide por el número de caracteres. Siéntase libre de experimentar con diferentes valores. También estableceremos que el separador sea el carácter de nueva línea para que podamos diferenciar entre párrafos. Para la tokenización, podemos usar el tokenizador granite-3.1-8b-instruct . El tokenizador desglosa el texto en tokens que el LLM puede procesar.

from langchain_text_splitters import CharacterTextSplitter

tokenizer = AutoTokenizer.from_pretrained(“ibm-granite/granite-3.1-8b-instruct”)

text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(

tokenizer,

separator=”

”, #default: “



”

chunk_size=1200, chunk_overlap=200)

fixed_size_chunks = text_splitter.create_documents([doc[0].page_content])

Podemos imprimir uno de los fragmentos para comprender mejor su estructura.

fixed_size_chunks[1]

Salida: (truncada)

Document(metadata={}, page_content=’As always, IBM’s historical commitment to open source is reflected in the permissive and standard open source licensing for every offering discussed in this article.

\r

Granite 3.1 8B Instruct: raising the bar for lightweight enterprise models\r



IBM’s efforts in the ongoing optimization the Granite series are most evident in the growth of its flagship 8B dense model. IBM Granite 3.1 8B Instruct now bests most open models in its weight class in average scores on the academic benchmarks evaluations included in the Hugging Face OpenLLM Leaderboard...’)

También podemos usar el tokenizador para verificar nuestro proceso y la cantidad de tokens presentes en cada fragmento. Este paso es opcional y tiene fines demostrativos.

for idx, val in enumerate(fixed_size_chunks):

token_count = len(tokenizer.encode(val.page_content))

print(f”The chunk at index {idx} contains {token_count} tokens.”)

Resultado:

The chunk at index 0 contains 1106 tokens.

The chunk at index 1 contains 1102 tokens.

The chunk at index 2 contains 1183 tokens.

The chunk at index 3 contains 1010 tokens.

¡Excelente! Parece que nuestros tamaños de fragmentos se implementaron adecuadamente.

Fragmentación recursiva

Para la fragmentación recursiva, podemos usar RecursiveCharacterTextSplitter de LangChain. Al igual que en el ejemplo de fragmentación de tamaño fijo, podemos experimentar con diferentes tamaños de fragmentación y superposición.

from langchain_text_splitters import RecursiveCharacterTextSplitter



text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=0)

recursive_chunks = text_splitter.create_documents([doc[0].page_content])

recursive_chunks[:5]

Resultado:

[Document(metadata={}, page_content=’IBM Granite 3.1: powerful performance, longer context and more’),

Document(metadata={}, page_content=’IBM Granite 3.1: powerful performance, longer context, new embedding models and more’),

Document(metadata={}, page_content=’Artificial Intelligence’),

Document(metadata={}, page_content=’Compute and servers’),

Document(metadata={}, page_content=’IT automation’)]

El divisor fragmentó correctamente el texto utilizando los separadores predeterminados: [“



”, “

”, “ “, “”].

Fragmentación semántica

La fragmentación semántica requiere un modelo de incorporación o codificador. Podemos usar el modelo granite-embedding-30m-english como nuestro modelo de incorporación. También podemos imprimir uno de los fragmentos para comprender mejor su estructura.

from langchain_huggingface import HuggingFaceEmbeddings

from langchain_experimental.text_splitter import SemanticChunker



embeddings_model = HuggingFaceEmbeddings(model_name=”ibm-granite/granite-embedding-30m-english”)

text_splitter = SemanticChunker(embeddings_model)

semantic_chunks = text_splitter.create_documents([doc[0].page_content])

semantic_chunks[1]

Salida: (truncada)

Document(metadata={}, page_content=’Our latest dense models (Granite 3.1 8B, Granite 3.1 2B), MoE models (Granite 3.1 3B-A800M, Granite 3.1 1B-A400M) and guardrail models (Granite Guardian 3.1 8B, Granite Guardian 3.1 2B) all feature a 128K token context length.We’re releasing a family of all-new embedding models. The new retrieval-optimized Granite Embedding models are offered in four sizes, ranging from 30M–278M parameters. Like their generative counterparts, they offer multilingual support across 12 different languages: English, German, Spanish, French, Japanese, Portuguese, Arabic, Czech, Italian, Korean, Dutch and Chinese. Granite Guardian 3.1 8B and 2B feature a new function calling hallucination detection capability, allowing increased control over and observability for agents making tool calls...’)

Fragmentación basada en documentos

Los documentos de varios tipos de archivos son compatibles con los divisores de texto basados en documentos de LangChain. Para los fines de este tutorial, utilizaremos un archivo Markdown. Para ver ejemplos de división recursiva de JSON, división de código y división de HTML, consulte la documentación de LangChain.

Un ejemplo de un archivo Markdown que podemos cargar es el archivo README para Granite 3.1 en GitHub de IBM.

url = “https://raw.githubusercontent.com/ibm-granite/granite-3.1-language-models/refs/heads/main/README.md”

markdown_doc = WebBaseLoader(url).load()

markdown_doc

Resultado:

[Document(metadata={‘source’: ‘https://raw.githubusercontent.com/ibm-granite/granite-3.1-language-models/refs/heads/main/README.md’}, page_content=’







:books: Paper (comming soon)\xa0 | :hugs: HuggingFace Collection\xa0 |

:speech_balloon: Discussions Page\xa0 | ðŸ“˜ IBM Granite Docs





---

## Introduction to Granite 3.1 Language Models

Granite 3.1 language models are lightweight, state-of-the-art, open foundation models that natively support multilinguality, coding, reasoning, and tool usage, including the potential to be run on constrained compute resources. All the models are publicly released under an Apache 2.0 license for both research and commercial use. The models\’ data curation and training procedure were designed for enterprise usage and customization, with a process that evaluates datasets for governance, risk and compliance (GRC) criteria, in addition to IBM\’s standard data clearance process and document quality checks...’)]

Ahora, podemos usar MarkdownHeaderTextSplitter de LangChain para dividir el archivo por tipo de encabezado, que establecemos en la lista headers_to_split_on. También imprimiremos uno de los fragmentos como ejemplo.

#document based chunking

from langchain_text_splitters import MarkdownHeaderTextSplitter

headers_to_split_on = [

(“#”, “Header 1”),

(“##”, “Header 2”),

(“###”, “Header 3”),

]

markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on)

document_based_chunks = markdown_splitter.split_text(markdown_doc[0].page_content)

document_based_chunks[3]

Resultado:

Document(metadata={‘Header 2’: ‘How to Use our Models?’, ‘Header 3’: ‘Inference’}, page_content=’This is a simple example of how to use Granite-3.1-1B-A400M-Instruct model.

```python

import torch

from transformers import AutoModelForCausalLM, AutoTokenizer



device = “auto”

model_path = “ibm-granite/granite-3.1-1b-a400m-instruct”

tokenizer = AutoTokenizer.from_pretrained(model_path)

# drop device_map if running on CPU

model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)

model.eval()

# change input text as desired

chat = [

{ “role”: “user”, “content”: “Please list one IBM Research laboratory located in the United States. You should only output its name and location.” },

]

chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

# tokenize the text

input_tokens = tokenizer(chat, return_tensors=”pt”).to(device)

# generate output tokens

output = model.generate(**input_tokens,

max_new_tokens=100)

# decode output tokens into text

output = tokenizer.batch_decode(output)

# print output

print(output)

```’)

Como puede ver en el resultado, la fragmentación dividió correctamente el texto por tipo de encabezado.