Implemente la fragmentación agéntica para optimizar las entradas de LLM con Langchain y watsonx.ai

Autor

Lead AI Advocate

¿Qué es la fragmentación agéntica?

La forma en la que los modelos de lenguaje procesan y segmentan el texto está cambiando del enfoque estático tradicional a un proceso mejor y más receptivo. A diferencia de la fragmentación tradicional de tamaño fijo, que fragmenta documentos grandes en puntos fijos, la fragmentación agéntica emplea técnicas basadas en IA para analizar el contenido en un proceso dinámico y determinar la mejor manera de segmentar el texto.

La fragmentación agéntica utiliza métodos de división de texto basados en IA, fragmentación recursiva y métodos de superposición de fragmentos, que funcionan simultáneamente para pulir la capacidad de fragmentación, preservando los vínculos entre ideas notables y optimizando las ventanas contextuales en tiempo real. Con la fragmentación agéntica, cada fragmento se enriquece con metadatos para profundizar la precisión de recuperación y la eficiencia general del modelo. Esto es especialmente importante en las aplicaciones RAG, donde la segmentación de los datos puede afectar directamente a la calidad de la recuperación y a la coherencia de la respuesta. El contexto significativo se conserva en todos los fragmentos más pequeños, lo que hace que este enfoque sea increíblemente importante para los chatbots, las bases de conocimiento y los casos de uso de IA generativa (IA gen). Los marcos como Langchain o LlamaIndex mejoran aún más la eficiencia de recuperación, lo que hace que este método sea muy eficaz.

Elementos clave de la fragmentación agéntica

1. Estrategia de fragmentación adaptativa: elija dinámicamente el mejor método de fragmentación en función del tipo de contenido, la intención detrás de la consulta y las necesidades de recuperación para garantizar una segmentación eficaz.

2. Dimensionamiento dinámico de fragmentos: modificación del tamaño de los fragmentos en tiempo real teniendo en cuenta la estructura semántica y el contexto, en lugar de ceñirse a límites fijos de token.

3. Superposición que preserva el contexto: evaluación inteligente de la superposición entre fragmentos para mantener intacta la coherencia y evitar la pérdida de información esencial, mejorando así la eficiencia de la recuperación.

Boletín del sector

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

Ventajas de la fragmentación agéntica sobre los métodos tradicionales

La fragmentación agéntica ofrece ventajas sobre la fragmentación tradicional:

a. Conserva el contexto: mantiene la información crucial sin interrupciones innecesarias.

b. Dimensionamiento inteligente: ajusta los límites de los fragmentos según el significado y la importancia.

c. Optimizada para consultas: refina continuamente los fragmentos para que coincidan con consultas específicas.

d. Recuperación eficiente: mejora la salida de los sistemas de búsqueda y RAG al minimizar la fragmentación innecesaria.

En este tutorial, experimentará con la estrategia de fragmentación agéntica utilizando el modelo IBM® Granite-3.0-8B-Instruct ahora disponible en watsonx.ai. El objetivo general es realizar una fragmentación eficiente para implementar RAG de manera efectiva.

Requisito previo

Necesita una cuenta de IBM® Cloud para crear un proyecto watsonx.ai.

Pasos

Paso 1. Configure su entorno

Aunque puede elegir entre varias herramientas, este tutorial le muestra cómo configurar una cuenta de IBM para utilizar un Jupyter Notebook.

Inicie sesión en watsonx.ai utilizando su cuenta de IBM Cloud.
Cree un proyecto watsonx.ai.
Puede obtener el ID de su proyecto desde su proyecto. Haga clic en la pestaña Administrar. A continuación, copie el ID del proyecto de la sección Detalles de la página General. Necesita este ID para este tutorial.
Cree un Jupyter Notebook.

Este paso abre un entorno de Notebook donde puede copiar el código de este tutorial. También puede descargar este cuaderno en su sistema local y cargarlo en su proyecto watsonx.ai como activo. Para ver más tutoriales de Granite, consulte la comunidad de IBM® Granite. Este Jupyter Notebook junto con los conjuntos de datos utilizados se pueden encontrar en GitHub.

Paso 2. Configure una instancia de watsonx.ai de tiempo de ejecución y una clave de API

Cree una instancia de servicio de watsonx.ai Runtime (seleccione la región adecuada y elija el plan Lite, que es una instancia gratuita).
Genere una clave de API.
Asocie la instancia del servicio watsonx.ai Runtime al proyecto que ha creado en watsonx.ai.

Paso 3. Instale e importe las bibliotecas relevantes y configure sus credenciales

Necesitará algunas bibliotecas y módulos para este tutorial. Asegúrese de importar los siguientes y, si no están instalados, una instalación rápida de pip resuelve el problema.

Tenga en cuenta que este tutorial se creó con Python 3.12.7

!pip install -q langchain langchain-ibm langchain_experimental langchain-text-splitters langchain_chroma transformers bs4 langchain_huggingface sentence-transformers

import getpass
import requests
from bs4 import BeautifulSoup
from langchain_ibm import WatsonxLLM
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.document_loaders import WebBaseLoader
from langchain.schema import SystemMessage, HumanMessage
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain.prompts import ChatPromptTemplate
from langchain.vectorstores import Chroma
from langchain.tools import tool
from langchain.agents import AgentExecutor
from langchain.memory import ConversationBufferMemory
from transformers import AutoTokenizer
from ibm_watsonx_ai.foundation_models.utils.enums import EmbeddingTypes
from ibm_watsonx_ai.metanames import GenTextParamsMetaNames as GenParams
from langchain.output_parsers import CommaSeparatedListOutputParser
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.schema import Document
from langchain.chains.combine_documents import create_stuff_documents_chain

Para establecer nuestras credenciales, necesitamos "WATSONX_APIKEY" y "WATSONX_PROJECT_ID" . También estableceremos la URL que sirve como endpoint de la API.

load_dotenv(os.getcwd()+"/.env", override=True)
credentials = {
"url": "https://us-south.ml.cloud.ibm.com",
"apikey": os.getenv("WATSONX_APIKEY", ""),
}
project_id = os.getenv("PROJECT_ID", "")

Paso 4. Inicialice su modelo de lenguaje.

Para este tutorial, sugerimos utilizar el modelo Granite-3.0-8B-Instruct de IBM el LLM para lograr resultados similares. Puede utilizar cualquier modelo de IA de su elección. Los modelos fundacionales disponibles a través de watsonx se pueden encontrar aquí.

llm = WatsonxLLM(
    model_id="ibm/granite-3-8b-instruct",
    url=credentials.get("url"),
    apikey=credentials.get("apikey"),
    project_id=project_id,
    params={
        GenParams.DECODING_METHOD: "greedy",
        GenParams.TEMPERATURE: 0,
        GenParams.MIN_NEW_TOKENS: 5,
        GenParams.MAX_NEW_TOKENS: 250,
        GenParams.STOP_SEQUENCES: ["Human:", "Observation"],
    },
)

Paso 5. Cargue su documento

Esta función extrae el contenido de texto de la página del explicador de IBM sobre machine learning. Esta función elimina los elementos HTML no deseados (scripts, estilos) y devuelve un texto limpio y legible.

def get_text_from_url(url):
  response = requests.get(url)
  if response.status_code != 200:
  raise ValueError(f"Failed to fetch the page, status code: {response.status_code}")
  soup = BeautifulSoup(response.text, "html.parser")
for script in soup(["script", "style"]):
  script.decompose()
  return soup.get_text(separator="\n", strip=True)

url = "https://www.ibm.com/es-es/think/topics/machine-learning"
web_text = get_text_from_url(url)
web_text

En lugar de utilizar un método de fragmentación de longitud fija, utilizamos un LLM para dividir el texto en función del significado. Esta función aprovecha un LLM para dividir de forma inteligente el texto en fragmentos semánticamente significativos basados en temas.

def agentic_chunking(text):
  """
  Dynamically splits text into meaningful chunks using LLM.
  """
  system_message = SystemMessage(content="You are an AI assistant helping to split text into meaningful chunks based on topics.")

  human_message = HumanMessage(content=f"Please divide the following text into semantically different, separate and meaningful chunks:\n\n{text}")

  response = llm.invoke([system_message, human_message]) # LLM returns a string
  return response.split("\n\n") # Split based on meaningful sections

chunks = agentic_chunking(web_text)
chunks

Imprimamos los fragmentos para comprender mejor su estructura de salida.

for i, chunk in enumerate(chunks,1):
print(f"Chunk {i}:\n{chunk}\n{'-'*40}")

¡Genial! Los fragmentos se crearon correctamente por los agentes en la salida.

Paso 6: Cree un almacén de vectores

Ahora que hemos experimentado con la fragmentación agéntica en el texto, vamos a trasladar nuestra implementación de RAG.

Para este tutorial, elegimos los fragmentos producidos por los agentes y los convertimos en embeddings. Un almacén de vectores de código abierto que podemos utilizar es Chroma DB. Podemos acceder fácilmente a la funcionalidad de Chroma a través del paquete langchain_chroma. Inicialicemos nuestra base de datos de vectores Chroma, proporcionémosle nuestro modelo de incrustaciones y añadamos nuestros documentos producidos por fragmentación agéntica.

embeddings_model = HuggingFaceEmbeddings(model_name="ibm-granite/granite-embedding-30m-english")

Cree una base de datos vectorial Chroma

vector_db = Chroma(
collection_name="example_collection",
embedding_function=embeddings_model
)

Convierta cada fragmento de texto en un objeto de documento

documents = [Document(page_content=chunk) for chunk in chunks]

Añada los documentos a la base de datos vectorial.

vector_db.add_documents(documents)

Paso 7: Estructure la plantilla de instrucciones

Ahora podemos crear una plantilla de instrucción para nuestro LLM. Esta plantilla garantiza que podamos hacer varias preguntas manteniendo una estructura de instrucciones coherente. Además, podemos integrar nuestro almacén de vectores como el recuperador, finalizando el marco RAG.

prompt_template = """<|start_of_role|>user<|end_of_role|>Use the following pieces of context to answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer.
{context}
Question: {input}<|end_of_text|>
<|start_of_role|>assistant<|end_of_role|>"""
qa_chain_prompt = PromptTemplate.from_template(prompt_template)
combine_docs_chain = create_stuff_documents_chain(llm, qa_chain_prompt)
rag_chain = create_retrieval_chain(vector_db.as_retriever(), combine_docs_chain)

Paso 8: Inicie la cadena RAG

Usando estos fragmentos de agencia en el flujo de trabajo RAG, comencemos una consulta de usuario. En primer lugar, podemos estimular estratégicamente el modelo sin ningún contexto adicional del almacén de vectores que hemos creado para comprobar si el modelo está utilizando su conocimiento integrado o realmente el contexto RAG. Utilizando el explicador de machine learning de IBM, planteemos la pregunta ahora.

output = llm.invoke("What is Model optimization process")
output

Claramente, el modelo no se entrenó con información sobre el proceso de optimización del modelo y, sin herramientas o información externas, no puede proporcionarnos la información correcta. El modelo alucina. Ahora, intentemos proporcionar la misma consulta a la cadena RAG con los fragmentos de agencia que hemos creado.

rag_output = rag_chain.invoke({"input": "What is Model optimization process?"})
rag_output['answer']

¡Genial! El modelo Granite utilizó correctamente los fragmentos RAG agénticos como contexto para proporcionarnos información correcta sobre el proceso de optimización del modelo, preservando al mismo tiempo la coherencia semántica.

Resumen

En este tutorial, generamos piezas más pequeñas de información relevante utilizando agentes de IA en el proceso de fragmentación y construimos un pipeline de generación aumentada por recuperación (RAG).

Este método mejora la recuperación de información y la optimización de la ventana de contexto utilizando inteligencia artificial y procesamiento del lenguaje natural (PLN). Optimiza los fragmentos de datos para mejorar la eficiencia de recuperación al aprovechar los grandes modelos de lenguaje (LLM) como los modelos GPT de OpenAI para obtener mejores resultados.

Principales tendencias tecnológicas estratégicas para 2025: IA agentiva

Descargue este informe de investigación de Gartner para conocer las oportunidades y riesgos potenciales de la IA agéntica para los líderes de TI y cómo prepararse para esta próxima ola de innovación en IA.

Recursos

Agentes: watsonx Developer Hub

Comience a crear e implementar agentes con watsonx.ai.

Informe de Omdia sobre inteligencia potenciada: el impacto de los agentes de IA

Descubra cómo puede desbloquear todo el potencial de la IA generativa con agentes de IA.

Guía de compradores de agentes de IA 2025

Consulte esta completa guía que detalla los casos de uso clave, las capacidades principales y las recomendaciones paso a paso que le ayudarán a elegir las soluciones adecuadas para su empresa.

Tutoriales de InstructLab

Dé forma a la IA generativa haciendo aportaciones a los LLM de forma abierta y accesible.

Comunidad de IA de IBM

Únase a la comunidad de arquitectos y constructores de IA para aprender, compartir ideas y conectar con otros.

Reimagine business productivity with AI agents and assistants (Reinvente la productividad empresarial con agentes de IA y asistentes)

Explore la diferencia entre los agentes de IA y asistentes y descubra cómo pueden cambiar las reglas del juego de la productividad empresarial.

2024 Rewind: Breakthroughs in AI models, agents, hardware and products (Rewind de 2024: avances en modelos de IA, agentes, hardware y productos)

¿Será 2025 el año de los agentes de IA? En este episodio de Mixture of Experts, repasamos los modelos de IA, los agentes, el hardware y los lanzamientos de productos con algunos de los principales expertos del sector.

How AI agents will reinvent productivity (Cómo los agentes de IA reinventarán la productividad)

Aprenda formas de utilizar la IA para ser más creativo y eficiente. Empiece a adaptarse a un futuro que implique trabajar en estrecha colaboración con los agentes de IA.

Soluciones relacionadas

Desarrollo de agentes de IA de IBM

Permita a los desarrolladores crear, implementar y monitorizar agentes de IA con el estudio IBM watsonx.ai.

Explore watsonx.ai

Agentes y asistentes de IA de IBM

Cree una productividad sin precedentes con uno de los conjuntos de capacidades más completos del sector para ayudar a las empresas a crear, personalizar y gestionar agentes y asistentes de IA.

Explore los agentes de IA

IBM Granite

Ahorre más de un 90 % en costes con los modelos más pequeños y abiertos de Granite, diseñados para la eficiencia de los desarrolladores. Estos modelos listos para uso empresarial ofrecen un rendimiento excepcional frente a los puntos de referencia de seguridad y en una amplia gama de tareas empresariales, desde la ciberseguridad hasta RAG.

Explore Granite

Dé el siguiente paso

Automatice sus flujos de trabajo complejos y cree una productividad revolucionaria con uno de los conjuntos de capacidades más completos del sector para ayudar a las empresas a crear, personalizar y gestionar agentes de IA y asistentes.

Explore el desarrollo de agentes de watsonx.ai

Descubra watsonx Orchestrate