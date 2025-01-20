Implemente estratégias de fragmentação da RAG com o LangChain e o watsonx.ai

Neste tutorial, você vai experimentar várias estratégias de fragmentação usando o LangChain e o modelo mais recente do IBM Granite, agora disponível no watsonx.ai. O objetivo geral é realizar a geração aumentada de recuperação (RAG).

O que é fragmentação?

Fragmentação refere-se ao processo de dividir grandes trechos de texto em segmentos ou fragmentos de texto menores. Para enfatizar a importância da fragmentação, é útil entender a RAG. A RAG é uma técnica em processamento de linguagem natural (NLP) que combina recuperação de informações e grandes modelos de linguagem (LLMs) para recuperar informações relevantes de conjuntos de dados complementares para otimizar a qualidade da saída do LLM. Para gerenciar documentos grandes, podemos usar a fragmentação para dividir o texto em trechos menores de fragmentos significativos. Esses fragmentos de texto podem, então, ser incorporados e armazenados em um banco de dados de vetores por meio do uso de um modelo de embedding. Por fim, o sistema de RAG pode usar pesquisa semântica para recuperar apenas os fragmentos mais relevantes. Fragmentos menores tendem a superar o desempenho de fragmentos maiores, pois tendem a ser peças mais gerenciáveis para modelos de janela de contexto menor.

Alguns componentes-chave da fragmentação incluem:

  • Estratégia de fragmentação: a escolha da estratégia correta para sua aplicação de RAG é importante, pois determina as boundaries para a definição de fragmentos. Exploraremos algumas delas na próxima seção.
  • Tamanho do fragmento: número máximo de tokens que estarão em cada fragmento. Determinar o tamanho apropriado dos fragmentos geralmente envolve alguma experimentação.  
  • Sobreposição de fragmentos: o número de token sobrepostos entre fragmentos para preservar o contexto. Esse é um parâmetro opcional.

Estratégias de fragmentação

Há várias estratégias de fragmentação diferentes para escolher. É importante selecionar a técnica de fragmentação mais eficaz para o caso de uso específico de sua aplicação de LLM. Alguns processos de fragmentação comumente usados incluem:r: 

  • Fragmentação de tamanho fixo: divisão de texto com um tamanho de fragmento específico e sobreposição opcional de fragmentos. Essa abordagem é a mais comum e direta.
  • Fragmentação recursiva: iteração de separadores padrão até que um deles produza o tamanho de fragmento preferido. Os separadores padrão são ["\n\n", "\n", " ", ""]. Esse método de fragmentação usa separadores hierárquicos para que os parágrafos, seguidos por frases e, em seguida, palavras, sejam mantidos juntos o máximo possível.
  • Fragmentos semânticos: divisão do texto de forma a agrupar frases com base na similaridade semântica de seus embeddings. Embeddings de alta similaridade semântica estão mais próximos do que aqueles de baixa similaridade semântica. Isso resulta em fragmentos com reconhecimento de contexto.
  • Fragmentação baseada em documento: divisão com base na estrutura do documento. Esse divisor pode utilizar texto, imagens, tabelas e até mesmo classes e funções de código Python como formas de determinar a estrutura. Ao fazer isso, documentos grandes podem ser fragmentados e processados pelo LLM.
  • Fragmentação agêntica: aproveita a IA agêntica permitindo que o LLM determine a divisão apropriada do documento com base no significado semântico e na estrutura do conteúdo, como tipos de parágrafos, títulos de seções, instruções passo a passo e muito mais. Esse fragmentador é experimental e tenta simular o raciocínio humano ao processar documentos longos.  

Etapas

Etapa 1. Configure seu ambiente

Embora você possa escolher entre várias ferramentas, este tutorial explica como configurar uma conta da IBM para usar um Jupyter Notebook.

  1. Faça login no watsonx.ai usando sua conta do IBM® Cloud.

  2. Criar um projeto do watsonx.ai.

    Você pode obter a ID do projeto a partir de seu projeto. Clique na guia Gerenciar. Em seguida, copie a ID do projeto da seção Detalhes da página Geral. Você precisa dessa ID para este tutorial.

  3. Crie um Jupyter Notebook.

Essa etapa abrirá um ambiente do Notebook onde você poderá copiar o código deste tutorial. Ou então, você pode baixar esse Notebook em seu sistema local e carregá-lo como um ativo em seu projeto do watsonx.ai. Para ver mais tutoriais do Granite, consulte a Comunidade IBM Granite. Este Jupyter Notebook, juntamente com os conjuntos de dados utilizados, podem ser encontrados no GitHub.

Etapa 2. Configure uma instância do watsonx.ai Runtime e uma chave de API

  1. Crie uma instância do serviço do watsonx.ai Runtime (tempo de execução) (selecione a região apropriada e escolha o plano Lite, que é uma instância gratuita).

  2. Gere uma chave de API.

  3. Associe a instância do serviço do watsonx.ai Runtime ao projeto que você criou no watsonx.ai.

Etapa 3. Instale e importe bibliotecas relevantes e configure suas credenciais

#installations
!pip install -q langchain langchain-ibm langchain_experimental langchain-text-splitters langchain_chroma transformers bs4 langchain_huggingface sentence-transformers # imports
import getpass
from langchain_ibm import WatsonxLLM
from langchain_chroma import Chroma
from langchain_community.document_loaders import WebBaseLoader
from ibm_watsonx_ai.metanames import GenTextParamsMetaNames as GenParams
from transformers import AutoTokenizer

Para definir nossas credenciais, precisamos do WATSONX_APIKEY e do WATSONX_PROJECT_ID que você gerou na Etapa 1. Também definiremos a URL como o endpoint da API.

WATSONX_APIKEY = getpass.getpass("Please enter your watsonx.ai Runtime API key (hit enter): ")
WATSONX_PROJECT_ID = getpass.getpass("Please enter your project ID (hit enter): ")
URL = "https://us-south.ml.cloud.ibm.com"

Etapa 4. Inicialize seu LLM

Usaremos o Granite 3.1 como nosso LLM para este tutorial. Para inicializar o LLM, precisamos definir os parâmetros do modelo. Para saber mais sobre esses parâmetros do modelo, como os limites mínimo e máximo de tokens, consulte a documentação.

llm = WatsonxLLM(
        model_id= "ibm/granite-3-8b-instruct",
        url=URL,
        apikey=WATSONX_APIKEY,
        project_id=WATSONX_PROJECT_ID,
        params={
            GenParams.DECODING_METHOD: "greedy",
            GenParams.TEMPERATURE: 0,
            GenParams.MIN_NEW_TOKENS: 5,
            GenParams.MAX_NEW_TOKENS: 2000,
            GenParams.REPETITION_PENALTY:1.2
        }
)

Etapa 5. Carregue seu documento

O contexto que estamos usando para o nosso pipeline da RAG é o anúncio oficial da IBM para o lançamento do Granite 3.1. Podemos carregar o blog em um documento diretamente da página da web usando o WebBaseLoader do LangChain.

url = "https://www.ibm.com/br-pt/new/announcements/ibm-granite-3-1-powerful-performance-long-context-and-more"
doc = WebBaseLoader(url).load()

Etapa 6. Realize a divisão de texto

Vamos fornecer um código de amostra para implementar cada uma das estratégias de fragmentação que abordamos anteriormente neste tutorial disponível no LangChain.

Fragmentação de tamanho fixo

Para implementar a fragmentação de tamanho fixo, podemos usar o CharacterTextSplitter do LangChain e definir um chunk_size , bem como um  chunk_overlap. O chunk_size é medido pelo número de caracteres. Fique à vontade para experimentar valores diferentes. Também definiremos o separador como o caractere de nova linha para que possamos diferenciar os parágrafos. Para tokenização, podemos usar o tokenizador Granite-3.1-8b-Instruct . O tokenizzdor divide o texto em tokens, que podem ser processados pelo LLM.

from langchain_text_splitters import CharacterTextSplitter
tokenizer = AutoTokenizer.from_pretrained(“ibm-granite/granite-3.1-8b-instruct”)
text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(
                    tokenizer,
                    separator=”\n”, #default: “\n\n”
                    chunk_size=1200, chunk_overlap=200)
fixed_size_chunks = text_splitter.create_documents([doc[0].page_content])

Podemos imprimir um dos fragmentos para uma melhor compreensão de sua estrutura.

fixed_size_chunks[1]

Saída: (truncada)

Document(metadata={}, page_content=’As always, IBM’s historical commitment to open source is reflected in the permissive and standard open source licensing for every offering discussed in this article.\n\r\n Granite 3.1 8B Instruct: raising the bar for lightweight enterprise models\r\n \nIBM’s efforts in the ongoing optimization the Granite series are most evident in the growth of its flagship 8B dense model. IBM Granite 3.1 8B Instruct now bests most open models in its weight class in average scores on the academic benchmarks evaluations included in the Hugging Face OpenLLM Leaderboard...’)

Também podemos usar o tokenizador para verificar nosso processo e conferir o número de tokens presentes em cada fragmento. Essa etapa é opcional e para fins demonstrativos.

for idx, val in enumerate(fixed_size_chunks):
    token_count = len(tokenizer.encode(val.page_content))
    print(f”The chunk at index {idx} contains {token_count} tokens.”)

Saídas:

The chunk at index 0 contains 1106 tokens.
The chunk at index 1 contains 1102 tokens.
The chunk at index 2 contains 1183 tokens.
The chunk at index 3 contains 1010 tokens.

Ótimo! Parece que nossos tamanhos de fragmentos foram implementados adequadamente.

Fragmentação recursiva

Para a fragmentação recursiva, podemos usar o RecursiveCharacterTextSplitter do LangChain. Assim como o exemplo de fragmentação de tamanho fixo, podemos experimentar diferentes tamanhos de fragmentos e sobreposições.

from langchain_text_splitters import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=0)
recursive_chunks = text_splitter.create_documents([doc[0].page_content])
recursive_chunks[:5]

Saídas:

[Document(metadata={}, page_content=’IBM Granite 3.1: powerful performance, longer context and more’),
Document(metadata={}, page_content=’IBM Granite 3.1: powerful performance, longer context, new embedding models and more’),
Document(metadata={}, page_content=’Artificial Intelligence’),
Document(metadata={}, page_content=’Compute and servers’),
Document(metadata={}, page_content=’IT automation’)]

O divisor fragmentou o texto com sucesso usando os separadores padrão: [“\n\n”, “\n”, “ “, “”].

Fragmentação semântica

A fragmentação semântica requer um modelo de embedding ou codificador. Podemos usar o modelo granite-embedding-30m-english como nosso modelo de embedding. Também podemos imprimir um dos fragmentos para uma melhor compreensão de sua estrutura.

from langchain_huggingface import HuggingFaceEmbeddings
from langchain_experimental.text_splitter import SemanticChunker

embeddings_model = HuggingFaceEmbeddings(model_name=”ibm-granite/granite-embedding-30m-english”)
text_splitter = SemanticChunker(embeddings_model)
semantic_chunks = text_splitter.create_documents([doc[0].page_content])
semantic_chunks[1]

Saída: (truncada)

Document(metadata={}, page_content=’Our latest dense models (Granite 3.1 8B, Granite 3.1 2B), MoE models (Granite 3.1 3B-A800M, Granite 3.1 1B-A400M) and guardrail models (Granite Guardian 3.1 8B, Granite Guardian 3.1 2B) all feature a 128K token context length.We’re releasing a family of all-new embedding models. The new retrieval-optimized Granite Embedding models are offered in four sizes, ranging from 30M–278M parameters. Like their generative counterparts, they offer multilingual support across 12 different languages: English, German, Spanish, French, Japanese, Portuguese, Arabic, Czech, Italian, Korean, Dutch and Chinese. Granite Guardian 3.1 8B and 2B feature a new function calling hallucination detection capability, allowing increased control over and observability for agents making tool calls...’)

Fragmentação baseada em documento

Documentos de vários tipos de arquivo são compatíveis com os divisores de texto baseados em documentos do LangChain. Para os fins deste tutorial, usaremos um arquivo Markdown. Para obter exemplos de divisão recursiva de JSON, divisão de código e divisão de HTML, consulte a documentação do LangChain.

Um exemplo de arquivo Markdown que podemos carregar é o arquivo README do Granite 3.1 no GitHub da IBM.

url = “https://raw.githubusercontent.com/ibm-granite/granite-3.1-language-models/refs/heads/main/README.md”
markdown_doc = WebBaseLoader(url).load()
markdown_doc

Saídas:

[Document(metadata={‘source’: ‘https://raw.githubusercontent.com/ibm-granite/granite-3.1-language-models/refs/heads/main/README.md’}, page_content=’\n\n\n\n :books: Paper (comming soon)\xa0 | :hugs: HuggingFace Collection\xa0 | \n :speech_balloon: Discussions Page\xa0 | ðŸ“˜ IBM Granite Docs\n\n\n---\n## Introduction to Granite 3.1 Language Models\nGranite 3.1 language models are lightweight, state-of-the-art, open foundation models that natively support multilinguality, coding, reasoning, and tool usage, including the potential to be run on constrained compute resources. All the models are publicly released under an Apache 2.0 license for both research and commercial use. The models\’ data curation and training procedure were designed for enterprise usage and customization, with a process that evaluates datasets for governance, risk and compliance (GRC) criteria, in addition to IBM\’s standard data clearance process and document quality checks...’)]

Agora, podemos usar o MarkdownHeaderTextSplitter do LangChain para dividir o arquivo por tipo de cabeçalho, que definimos na lista headers_to_split_on . Também imprimiremos um dos fragmentos como exemplo.

#document based chunking
from langchain_text_splitters import MarkdownHeaderTextSplitter
headers_to_split_on = [
    (“#”, “Header 1”),
    (“##”, “Header 2”),
    (“###”, “Header 3”),
]
markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on)
document_based_chunks = markdown_splitter.split_text(markdown_doc[0].page_content)
document_based_chunks[3]

Saídas:

Document(metadata={‘Header 2’: ‘How to Use our Models?’, ‘Header 3’: ‘Inference’}, page_content=’This is a simple example of how to use Granite-3.1-1B-A400M-Instruct model. \n```python\nimport torch\nfrom transformers import AutoModelForCausalLM, AutoTokenizer\n\ndevice = “auto”\nmodel_path = “ibm-granite/granite-3.1-1b-a400m-instruct”\ntokenizer = AutoTokenizer.from_pretrained(model_path)\n# drop device_map if running on CPU\nmodel = AutoModelForCausalLM.from_pretrained(model_path, device_map=device)\nmodel.eval()\n# change input text as desired\nchat = [\n{ “role”: “user”, “content”: “Please list one IBM Research laboratory located in the United States. You should only output its name and location.” },\n]\nchat = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)\n# tokenize the text\ninput_tokens = tokenizer(chat, return_tensors=”pt”).to(device)\n# generate output tokens\noutput = model.generate(**input_tokens,\nmax_new_tokens=100)\n# decode output tokens into text\noutput = tokenizer.batch_decode(output)\n# print output\nprint(output)\n```’)

Como você pode ver na saída , a fragmentação dividiu com sucesso o texto por tipo de cabeçalho.

Etapa 7. Crie o armazenamento de vetores

Agora que já experimentamos várias estratégias de fragmentação, vamos seguir em frente com nossa implementação da RAG. Para este tutorial, escolheremos os fragmentos produzidos pela divisão semântica e os converteremos em embeddings. Um armazenamento de vetores de código aberto que podemos usar é o Chroma DB. Podemos acessar facilmente a funcionalidade Chroma por meio do pacote langchain_chroma .

Vamos inicializar nosso banco de dados de vetores Chroma, dotá-lo com nosso modelo de embeddings e adicionar nossos documentos produzidos por fragmentação agêntica.

vector_db = Chroma(
    collection_name=”example_collection”,
    embedding_function=embeddings_model,
    persist_directory=”./chroma_langchain_db”, # Where to save data locally
) vector_db.add_documents(semantic_chunks)

Saídas:

[‘84fcc1f6-45bb-4031-b12e-031139450cf8’,
‘433da718-0fce-4ae8-a04a-e62f9aa0590d’,
‘4bd97cd3-526a-4f70-abe3-b95b8b47661e’,
‘342c7609-b1df-45f3-ae25-9d9833829105’,
‘46a452f6-2f02-4120-a408-9382c240a26e’]

Etapa 8. Estruture o modelo de prompts

Em seguida, podemos migrar para a criação de um modelo de prompt para nosso LLM. Esse modelo de prompt nos permite fazer várias perguntas sem alterar a estrutura inicial do prompt. Também podemos fornecer nosso armazenamento de vetores como o recuperador. Esta etapa finaliza a estrutura da RAG.

from langchain.chains import create_retrieval_chain
from langchain.prompts import PromptTemplate
from langchain.chains.combine_documents import create_stuff_documents_chain

prompt_template = """<|start_of_role|>user<|end_of_role|>Use as seguintes partes do contexto para responder à pergunta no final. Se você não souber a resposta, basta dizer que não sabe; não tente inventar uma resposta.
{context}
Question: {input}<|end_of_text|>
<|start_of_role|>assistant<|end_of_role|>"""

qa_chain_prompt = PromptTemplate.from_template(prompt_template)
combine_docs_chain = create_stuff_documents_chain(llm, qa_chain_prompt)
rag_chain = create_retrieval_chain(vector_db.as_retriever(), combine_docs_chain)

Etapa 9. Solicite a cadeia da RAG

Usando nosso fluxo de trabalho da RAG concluído, vamos invocar uma consulta de usuário. Primeiro, podemos informar estrategicamente o modelo sem qualquer contexto adicional do armazenamento de vetores que construímos para testar se o modelo está usando seu conhecimento integrado ou realmente usando o contexto da RAG. O blog de anúncios do Granite 3.1 faz referência ao Docling, a ferramenta da IBM para analisar vários tipos de documentos e convertê-los em Markdown ou JSON. Vamos perguntar ao LLM sobre o Docling.

output = llm.invoke(“What is Docling?”)
output

Saídas:

‘?\n\n”Docling” does not appear to be a standard term in English. It might be a typo or a slang term specific to certain contexts. If you meant “documenting,” it refers to the process of creating and maintaining records, reports, or other written materials that provide information about an activity, event, or situation. Please check your spelling or context for clarification.’

Claramente, o modelo não foi treinado com informações sobre o Docling e, sem ferramentas ou informações externas, ele não pode nos fornecer essas informações. Agora, vamos tentar fornecer a mesma consulta à cadeia da RAG que criamos.

rag_output = rag_chain.invoke({“input”: “What is Docling?”})
rag_output[‘answer’]

Saídas:

‘Docling is a powerful tool developed by IBM Deep Search for parsing documents in various formats such as PDF, DOCX, images, PPTX, XLSX, HTML, and AsciiDoc, and converting them into model-friendly formats like Markdown or JSON. This enables easier access to the information within these documents for models like Granite for tasks such as RAG and other workflows. Docling is designed to integrate seamlessly with agentic frameworks like LlamaIndex, LangChain, and Bee, providing developers with the flexibility to incorporate its assistance into their preferred ecosystem. It surpasses basic optical character recognition (OCR) and text extraction methods by employing advanced contextual and element-based preprocessing techniques. Currently, Docling is open-sourced under the permissive MIT License, and the team continues to develop additional features, including equation and code extraction, as well as metadata extraction.’

Ótimo! O modelo Granite usou corretamente o contexto da RAG para nos fornecer informações corretas sobre o Docling, preservando a coerência semântica. Provamos que esse mesmo resultado não era possível sem o uso da RAG.

Resumo

Neste tutorial, você criou um pipeline da RAG e experimentou várias estratégias de fragmentação para melhorar a precisão da recuperação do sistema. Usando o modelo Granite 3.1, produzimos com sucesso respostas de modelo apropriadas a uma consulta de usuário relacionada aos documentos fornecidos como contexto. O texto que usamos para essa implementação da RAG foi carregado de um blog no ibm.com anunciando o lançamento do Granite 3.1. O modelo nos forneceu informações acessíveis apenas por meio do contexto fornecido, pois não faziam parte da base de conhecimento inicial do modelo.

Para aqueles em busca de leitura adicional, confira os resultados de um projeto comparando o desempenho de LLM usando fragmentação estruturada em HTML em comparação com a fragmentação do watsonx.

