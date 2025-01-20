Neste tutorial, você vai experimentar várias estratégias de fragmentação usando o LangChain e o modelo mais recente do IBM Granite, agora disponível no watsonx.ai. O objetivo geral é realizar a geração aumentada de recuperação (RAG).
Fragmentação refere-se ao processo de dividir grandes trechos de texto em segmentos ou fragmentos de texto menores. Para enfatizar a importância da fragmentação, é útil entender a RAG. A RAG é uma técnica em processamento de linguagem natural (NLP) que combina recuperação de informações e grandes modelos de linguagem (LLMs) para recuperar informações relevantes de conjuntos de dados complementares para otimizar a qualidade da saída do LLM. Para gerenciar documentos grandes, podemos usar a fragmentação para dividir o texto em trechos menores de fragmentos significativos. Esses fragmentos de texto podem, então, ser incorporados e armazenados em um banco de dados de vetores por meio do uso de um modelo de embedding. Por fim, o sistema de RAG pode usar pesquisa semântica para recuperar apenas os fragmentos mais relevantes. Fragmentos menores tendem a superar o desempenho de fragmentos maiores, pois tendem a ser peças mais gerenciáveis para modelos de janela de contexto menor.
Alguns componentes-chave da fragmentação incluem:
Há várias estratégias de fragmentação diferentes para escolher. É importante selecionar a técnica de fragmentação mais eficaz para o caso de uso específico de sua aplicação de LLM. Alguns processos de fragmentação comumente usados incluem:r:
Embora você possa escolher entre várias ferramentas, este tutorial explica como configurar uma conta da IBM para usar um Jupyter Notebook.
Faça login no watsonx.ai usando sua conta do IBM® Cloud.
Criar um projeto do watsonx.ai.
Você pode obter a ID do projeto a partir de seu projeto. Clique na guia Gerenciar. Em seguida, copie a ID do projeto da seção Detalhes da página Geral. Você precisa dessa ID para este tutorial.
Crie um Jupyter Notebook.
Essa etapa abrirá um ambiente do Notebook onde você poderá copiar o código deste tutorial. Ou então, você pode baixar esse Notebook em seu sistema local e carregá-lo como um ativo em seu projeto do watsonx.ai. Para ver mais tutoriais do Granite, consulte a Comunidade IBM Granite. Este Jupyter Notebook, juntamente com os conjuntos de dados utilizados, podem ser encontrados no GitHub.
Crie uma instância do serviço do watsonx.ai Runtime (tempo de execução) (selecione a região apropriada e escolha o plano Lite, que é uma instância gratuita).
Gere uma chave de API.
Associe a instância do serviço do watsonx.ai Runtime ao projeto que você criou no watsonx.ai.
Para definir nossas credenciais, precisamos do WATSONX_APIKEY e do WATSONX_PROJECT_ID que você gerou na Etapa 1. Também definiremos a URL como o endpoint da API.
Usaremos o Granite 3.1 como nosso LLM para este tutorial. Para inicializar o LLM, precisamos definir os parâmetros do modelo. Para saber mais sobre esses parâmetros do modelo, como os limites mínimo e máximo de tokens, consulte a documentação.
O contexto que estamos usando para o nosso pipeline da RAG é o anúncio oficial da IBM para o lançamento do Granite 3.1. Podemos carregar o blog em um documento diretamente da página da web usando o WebBaseLoader do LangChain.
Vamos fornecer um código de amostra para implementar cada uma das estratégias de fragmentação que abordamos anteriormente neste tutorial disponível no LangChain.
Para implementar a fragmentação de tamanho fixo, podemos usar o CharacterTextSplitter do LangChain e definir um chunk_size , bem como um chunk_overlap. O chunk_size é medido pelo número de caracteres. Fique à vontade para experimentar valores diferentes. Também definiremos o separador como o caractere de nova linha para que possamos diferenciar os parágrafos. Para tokenização, podemos usar o tokenizador Granite-3.1-8b-Instruct . O tokenizzdor divide o texto em tokens, que podem ser processados pelo LLM.
Podemos imprimir um dos fragmentos para uma melhor compreensão de sua estrutura.
Saída: (truncada)
Também podemos usar o tokenizador para verificar nosso processo e conferir o número de tokens presentes em cada fragmento. Essa etapa é opcional e para fins demonstrativos.
Saídas:
Ótimo! Parece que nossos tamanhos de fragmentos foram implementados adequadamente.
Para a fragmentação recursiva, podemos usar o RecursiveCharacterTextSplitter do LangChain. Assim como o exemplo de fragmentação de tamanho fixo, podemos experimentar diferentes tamanhos de fragmentos e sobreposições.
Saídas:
O divisor fragmentou o texto com sucesso usando os separadores padrão: [“\n\n”, “\n”, “ “, “”].
A fragmentação semântica requer um modelo de embedding ou codificador. Podemos usar o modelo granite-embedding-30m-english como nosso modelo de embedding. Também podemos imprimir um dos fragmentos para uma melhor compreensão de sua estrutura.
Saída: (truncada)
Documentos de vários tipos de arquivo são compatíveis com os divisores de texto baseados em documentos do LangChain. Para os fins deste tutorial, usaremos um arquivo Markdown. Para obter exemplos de divisão recursiva de JSON, divisão de código e divisão de HTML, consulte a documentação do LangChain.
Um exemplo de arquivo Markdown que podemos carregar é o arquivo README do Granite 3.1 no GitHub da IBM.
Saídas:
Agora, podemos usar o MarkdownHeaderTextSplitter do LangChain para dividir o arquivo por tipo de cabeçalho, que definimos na lista headers_to_split_on . Também imprimiremos um dos fragmentos como exemplo.
Saídas:
Como você pode ver na saída , a fragmentação dividiu com sucesso o texto por tipo de cabeçalho.
Agora que já experimentamos várias estratégias de fragmentação, vamos seguir em frente com nossa implementação da RAG. Para este tutorial, escolheremos os fragmentos produzidos pela divisão semântica e os converteremos em embeddings. Um armazenamento de vetores de código aberto que podemos usar é o Chroma DB. Podemos acessar facilmente a funcionalidade Chroma por meio do pacote langchain_chroma .
Vamos inicializar nosso banco de dados de vetores Chroma, dotá-lo com nosso modelo de embeddings e adicionar nossos documentos produzidos por fragmentação agêntica.
Saídas:
Em seguida, podemos migrar para a criação de um modelo de prompt para nosso LLM. Esse modelo de prompt nos permite fazer várias perguntas sem alterar a estrutura inicial do prompt. Também podemos fornecer nosso armazenamento de vetores como o recuperador. Esta etapa finaliza a estrutura da RAG.
Usando nosso fluxo de trabalho da RAG concluído, vamos invocar uma consulta de usuário. Primeiro, podemos informar estrategicamente o modelo sem qualquer contexto adicional do armazenamento de vetores que construímos para testar se o modelo está usando seu conhecimento integrado ou realmente usando o contexto da RAG. O blog de anúncios do Granite 3.1 faz referência ao Docling, a ferramenta da IBM para analisar vários tipos de documentos e convertê-los em Markdown ou JSON. Vamos perguntar ao LLM sobre o Docling.
Saídas:
Claramente, o modelo não foi treinado com informações sobre o Docling e, sem ferramentas ou informações externas, ele não pode nos fornecer essas informações. Agora, vamos tentar fornecer a mesma consulta à cadeia da RAG que criamos.
Saídas:
Ótimo! O modelo Granite usou corretamente o contexto da RAG para nos fornecer informações corretas sobre o Docling, preservando a coerência semântica. Provamos que esse mesmo resultado não era possível sem o uso da RAG.
Neste tutorial, você criou um pipeline da RAG e experimentou várias estratégias de fragmentação para melhorar a precisão da recuperação do sistema. Usando o modelo Granite 3.1, produzimos com sucesso respostas de modelo apropriadas a uma consulta de usuário relacionada aos documentos fornecidos como contexto. O texto que usamos para essa implementação da RAG foi carregado de um blog no ibm.com anunciando o lançamento do Granite 3.1. O modelo nos forneceu informações acessíveis apenas por meio do contexto fornecido, pois não faziam parte da base de conhecimento inicial do modelo.
Para aqueles em busca de leitura adicional, confira os resultados de um projeto comparando o desempenho de LLM usando fragmentação estruturada em HTML em comparação com a fragmentação do watsonx.
