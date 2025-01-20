Vamos fornecer um código de amostra para implementar cada uma das estratégias de fragmentação que abordamos anteriormente neste tutorial disponível no LangChain.

Fragmentação de tamanho fixo

Para implementar a fragmentação de tamanho fixo, podemos usar o CharacterTextSplitter do LangChain e definir um chunk_size , bem como um chunk_overlap. O chunk_size é medido pelo número de caracteres. Fique à vontade para experimentar valores diferentes. Também definiremos o separador como o caractere de nova linha para que possamos diferenciar os parágrafos. Para tokenização, podemos usar o tokenizador Granite-3.1-8b-Instruct . O tokenizzdor divide o texto em tokens, que podem ser processados pelo LLM.

from langchain_text_splitters import CharacterTextSplitter

tokenizer = AutoTokenizer.from_pretrained(“ibm-granite/granite-3.1-8b-instruct”)

text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(

tokenizer,

separator=”

”, #default: “



”

chunk_size=1200, chunk_overlap=200)

fixed_size_chunks = text_splitter.create_documents([doc[0].page_content])

Podemos imprimir um dos fragmentos para uma melhor compreensão de sua estrutura.

fixed_size_chunks[1]

Saída: (truncada)

Document(metadata={}, page_content=’As always, IBM’s historical commitment to open source is reflected in the permissive and standard open source licensing for every offering discussed in this article.

\r

Granite 3.1 8B Instruct: raising the bar for lightweight enterprise models\r



IBM’s efforts in the ongoing optimization the Granite series are most evident in the growth of its flagship 8B dense model. IBM Granite 3.1 8B Instruct now bests most open models in its weight class in average scores on the academic benchmarks evaluations included in the Hugging Face OpenLLM Leaderboard...’)

Também podemos usar o tokenizador para verificar nosso processo e conferir o número de tokens presentes em cada fragmento. Essa etapa é opcional e para fins demonstrativos.

for idx, val in enumerate(fixed_size_chunks):

token_count = len(tokenizer.encode(val.page_content))

print(f”The chunk at index {idx} contains {token_count} tokens.”)

Saídas:

The chunk at index 0 contains 1106 tokens.

The chunk at index 1 contains 1102 tokens.

The chunk at index 2 contains 1183 tokens.

The chunk at index 3 contains 1010 tokens.

Ótimo! Parece que nossos tamanhos de fragmentos foram implementados adequadamente.

Fragmentação recursiva

Para a fragmentação recursiva, podemos usar o RecursiveCharacterTextSplitter do LangChain. Assim como o exemplo de fragmentação de tamanho fixo, podemos experimentar diferentes tamanhos de fragmentos e sobreposições.

from langchain_text_splitters import RecursiveCharacterTextSplitter



text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=0)

recursive_chunks = text_splitter.create_documents([doc[0].page_content])

recursive_chunks[:5]

Saídas:

[Document(metadata={}, page_content=’IBM Granite 3.1: powerful performance, longer context and more’),

Document(metadata={}, page_content=’IBM Granite 3.1: powerful performance, longer context, new embedding models and more’),

Document(metadata={}, page_content=’Artificial Intelligence’),

Document(metadata={}, page_content=’Compute and servers’),

Document(metadata={}, page_content=’IT automation’)]

O divisor fragmentou o texto com sucesso usando os separadores padrão: [“



”, “

”, “ “, “”].

Fragmentação semântica

A fragmentação semântica requer um modelo de embedding ou codificador. Podemos usar o modelo granite-embedding-30m-english como nosso modelo de embedding. Também podemos imprimir um dos fragmentos para uma melhor compreensão de sua estrutura.

from langchain_huggingface import HuggingFaceEmbeddings

from langchain_experimental.text_splitter import SemanticChunker



embeddings_model = HuggingFaceEmbeddings(model_name=”ibm-granite/granite-embedding-30m-english”)

text_splitter = SemanticChunker(embeddings_model)

semantic_chunks = text_splitter.create_documents([doc[0].page_content])

semantic_chunks[1]

Saída: (truncada)

Document(metadata={}, page_content=’Our latest dense models (Granite 3.1 8B, Granite 3.1 2B), MoE models (Granite 3.1 3B-A800M, Granite 3.1 1B-A400M) and guardrail models (Granite Guardian 3.1 8B, Granite Guardian 3.1 2B) all feature a 128K token context length.We’re releasing a family of all-new embedding models. The new retrieval-optimized Granite Embedding models are offered in four sizes, ranging from 30M–278M parameters. Like their generative counterparts, they offer multilingual support across 12 different languages: English, German, Spanish, French, Japanese, Portuguese, Arabic, Czech, Italian, Korean, Dutch and Chinese. Granite Guardian 3.1 8B and 2B feature a new function calling hallucination detection capability, allowing increased control over and observability for agents making tool calls...’)

Fragmentação baseada em documento

Documentos de vários tipos de arquivo são compatíveis com os divisores de texto baseados em documentos do LangChain. Para os fins deste tutorial, usaremos um arquivo Markdown. Para obter exemplos de divisão recursiva de JSON, divisão de código e divisão de HTML, consulte a documentação do LangChain.

Um exemplo de arquivo Markdown que podemos carregar é o arquivo README do Granite 3.1 no GitHub da IBM.

url = “https://raw.githubusercontent.com/ibm-granite/granite-3.1-language-models/refs/heads/main/README.md”

markdown_doc = WebBaseLoader(url).load()

markdown_doc

Saídas:

[Document(metadata={‘source’: ‘https://raw.githubusercontent.com/ibm-granite/granite-3.1-language-models/refs/heads/main/README.md’}, page_content=’







:books: Paper (comming soon)\xa0 | :hugs: HuggingFace Collection\xa0 |

:speech_balloon: Discussions Page\xa0 | ðŸ“˜ IBM Granite Docs





---

## Introduction to Granite 3.1 Language Models

Granite 3.1 language models are lightweight, state-of-the-art, open foundation models that natively support multilinguality, coding, reasoning, and tool usage, including the potential to be run on constrained compute resources. All the models are publicly released under an Apache 2.0 license for both research and commercial use. The models\’ data curation and training procedure were designed for enterprise usage and customization, with a process that evaluates datasets for governance, risk and compliance (GRC) criteria, in addition to IBM\’s standard data clearance process and document quality checks...’)]

Agora, podemos usar o MarkdownHeaderTextSplitter do LangChain para dividir o arquivo por tipo de cabeçalho, que definimos na lista headers_to_split_on . Também imprimiremos um dos fragmentos como exemplo.

#document based chunking

from langchain_text_splitters import MarkdownHeaderTextSplitter

headers_to_split_on = [

(“#”, “Header 1”),

(“##”, “Header 2”),

(“###”, “Header 3”),

]

markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on)

document_based_chunks = markdown_splitter.split_text(markdown_doc[0].page_content)

document_based_chunks[3]

Saídas:

Document(metadata={‘Header 2’: ‘How to Use our Models?’, ‘Header 3’: ‘Inference’}, page_content=’This is a simple example of how to use Granite-3.1-1B-A400M-Instruct model.

```python

import torch

from transformers import AutoModelForCausalLM, AutoTokenizer



device = “auto”

model_path = “ibm-granite/granite-3.1-1b-a400m-instruct”

tokenizer = AutoTokenizer.from_pretrained(model_path)

# drop device_map if running on CPU

model = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)

model.eval()

# change input text as desired

chat = [

{ “role”: “user”, “content”: “Please list one IBM Research laboratory located in the United States. You should only output its name and location.” },

]

chat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)

# tokenize the text

input_tokens = tokenizer(chat, return_tensors=”pt”).to(device)

# generate output tokens

output = model.generate(**input_tokens,

max_new_tokens=100)

# decode output tokens into text

output = tokenizer.batch_decode(output)

# print output

print(output)

```’)

Como você pode ver na saída , a fragmentação dividiu com sucesso o texto por tipo de cabeçalho.