Implemente la fragmentación agéntica para optimizar las entradas de LLM con Langchain y watsonx.ai

Autor

Lead AI Advocate

¿Qué es la fragmentación agéntica?

La forma en que los modelos de lenguaje procesan y segmentan el texto está cambiando del enfoque estático tradicional a un proceso mejor y más receptivo. A diferencia de la fragmentación tradicional de tamaño fijo, que fragmenta documentos grandes en puntos fijos, la fragmentación agéntica emplea técnicas basadas en IA para analizar el contenido en un proceso dinámico y determinar la mejor manera de segmentar el texto.

La fragmentación agéntica utiliza métodos de división de texto basados en IA, fragmentación recursiva y métodos de superposición de fragmentos, que funcionan simultáneamente para pulir la capacidad de fragmentación, preservar los vínculos entre ideas notables y optimizar las ventanas contextuales en tiempo real. Con la fragmentación agéntica, cada fragmento se enriquece con metadatos para profundizar la precisión de recuperación y la eficiencia general del modelo. Esto es particularmente importante en aplicaciones RAG, donde la segmentación de datos puede afectar directamente la calidad de recuperación y la coherencia de la respuesta. El contexto significativo se conserva en todos los fragmentos más pequeños, lo que hace que este enfoque sea increíblemente importante para los chatbots, las bases de conocimiento y los casos de uso de IA generativa. Los marcos como Langchain o LlamaIndex mejoran aún más la eficiencia de recuperación, lo que hace que este método sea muy eficaz.

Elementos clave de la fragmentación agéntica

1. Estrategia de fragmentación adaptativa: elija dinámicamente el mejor método de fragmentación en función del tipo de contenido, la intención detrás de la consulta y las necesidades de recuperación para garantizar una segmentación efectiva.

2. Dimensionamiento dinámico de fragmentos: modifique los tamaños de fragmentos en tiempo real considerando la estructura semántica y el contexto, en lugar de ceñirse a límites fijos de token.

3. Superposición que preserva el contexto: evalúe de forma inteligente la superposición entre fragmentos para mantener la coherencia intacta y evitar perder información esencial para mejorar la eficiencia de la recuperación.

Boletín de la industria

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

Ventajas de la fragmentación agéntica sobre los métodos tradicionales

La fragmentación agéntica ofrece ventajas sobre la fragmentación tradicional:

a. Retiene el contexto: mantiene la información crucial sin interrupciones innecesarias.

b. Dimensionamiento inteligente: ajusta los límites de los fragmentos según el significado y la importancia.

c. Optimizada para consultas: refina continuamente fragmentos para que coincidan con consultas específicas.

d. Recuperación eficiente: mejora la búsqueda y los resultados de los sistemas RAG al minimizar la fragmentación innecesaria.

En este tutorial, experimentará con la estrategia de fragmentación agéntica mediante el modelo Granite-3.0-8B-Instruct de IBM, ahora disponible en watsonx.ai. El objetivo general es realizar una fragmentación eficiente para implementar RAG de manera efectiva.

Requisito previo

Necesita una cuenta de IBM Cloud para crear un watsonx.ai proyecto.

Pasos

Paso 1. Configure su entorno

Si bien puede elegir entre varias herramientas, este tutorial lo guiará a través de cómo configurar una cuenta de IBM para usar un Jupyter Notebook.

Inicie sesión en watsonx.ai con su cuenta de IBM Cloud.
Cree un proyecto watsonx.ai.
Puede obtener su ID de proyecto desde dentro de su proyecto. Haga clic en la pestaña Manage. Luego, copie el ID del proyecto de la sección Details de la página General. Necesita este ID para este tutorial.
Cree un Jupyter Notebook.

Este paso abre un entorno de notebook donde puede copiar el código de este tutorial. También puede descargar este Notebook en su sistema local y cargarlo en su proyecto watsonx.ai como activo. Para ver más tutoriales de Granite, consulte la comunidad de IBM Granite. Este Jupyter Notebook y los conjuntos de datos utilizados se pueden encontrar en GitHub.

Paso 2. Configure una instancia de watsonx.ai® de tiempo de ejecución y una clave de API

Cree una instancia de servicio watsonx.ai® tiempo de ejecución (seleccione la región adecuada y elija el plan Lite, que es una instancia gratuita).
Genere una clave de API.
Asocie la instancia del servicio watsonx.ai® tiempo de ejecución al proyecto que creó en watsonx.ai.

Paso 3. Instale e importe bibliotecas relevantes y configure sus credenciales

Necesitará pocas bibliotecas y módulos para este tutorial. Asegúrese de importar los siguientes y, si no están instalados, una instalación rápida de pip resuelve el problema.

Tenga en cuenta que este tutorial se creó con Python 3.12.7

!pip install -q langchain langchain-ibm langchain_experimental langchain-text-splitters langchain_chroma transformers bs4 langchain_huggingface sentence-transformers

import getpass
import requests
from bs4 import BeautifulSoup
from langchain_ibm import WatsonxLLM
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_community.document_loaders import WebBaseLoader
from langchain.schema import SystemMessage, HumanMessage
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain.prompts import ChatPromptTemplate
from langchain.vectorstores import Chroma
from langchain.tools import tool
from langchain.agents import AgentExecutor
from langchain.memory import ConversationBufferMemory
from transformers import AutoTokenizer
from ibm_watsonx_ai.foundation_models.utils.enums import EmbeddingTypes
from ibm_watsonx_ai.metanames import GenTextParamsMetaNames as GenParams
from langchain.output_parsers import CommaSeparatedListOutputParser
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.schema import Document
from langchain.chains.combine_documents import create_stuff_documents_chain

Para establecer nuestras credenciales, necesitamos "WATSONX_APIKEY" y "WATSONX_PROJECT_ID" . También estableceremos la URL que sirve como endpoint de la API.

load_dotenv(os.getcwd()+"/.env", override=True)
credentials = {
"url": "https://us-south.ml.cloud.ibm.com",
"apikey": os.getenv("WATSONX_APIKEY", ""),
}
project_id = os.getenv("PROJECT_ID", "")

Paso 4. Inicialice su modelo de lenguaje.

Para este tutorial, sugerimos utilizar Granite-3.0-8B-Instruct de IBM como el LLM para lograr resultados similares. Puede utilizar cualquier modelo de IA de su elección. Los modelos fundacionales disponibles a través de watsonx se pueden encontrar aquí.

llm = WatsonxLLM(
    model_id="ibm/granite-3-8b-instruct",
    url=credentials.get("url"),
    apikey=credentials.get("apikey"),
    project_id=project_id,
    params={
        GenParams.DECODING_METHOD: "greedy",
        GenParams.TEMPERATURE: 0,
        GenParams.MIN_NEW_TOKENS: 5,
        GenParams.MAX_NEW_TOKENS: 250,
        GenParams.STOP_SEQUENCES: ["Human:", "Observation"],
    },
)

Paso 5. Cargue su documento

Esta función extrae el contenido de texto del documento explicativo de IBM sobre machine learning. Esta función elimina elementos HTML no deseados (scripts, estilos) y devuelve texto limpio y legible.

def get_text_from_url(url):
  response = requests.get(url)
  if response.status_code != 200:
  raise ValueError(f"Failed to fetch the page, status code: {response.status_code}")
  soup = BeautifulSoup(response.text, "html.parser")
for script in soup(["script", "style"]):
  script.decompose()
  return soup.get_text(separator="\n", strip=True)

url = "https://www.ibm.com/mx-es/think/topics/machine-learning"
web_text = get_text_from_url(url)
web_text

En lugar de utilizar un método de fragmentación de longitud fija, utilizamos un LLM para dividir el texto en función del significado. Esta función aprovecha un LLM para dividir de forma inteligente el texto en fragmentos semánticamente significativos basados en temas.

def agentic_chunking(text):
  """
  Dynamically splits text into meaningful chunks using LLM.
  """
  system_message = SystemMessage(content="You are an AI assistant helping to split text into meaningful chunks based on topics.")

  human_message = HumanMessage(content=f"Please divide the following text into semantically different, separate and meaningful chunks:\n\n{text}")

  response = llm.invoke([system_message, human_message]) # LLM returns a string
  return response.split("\n\n") # Split based on meaningful sections

chunks = agentic_chunking(web_text)
chunks

Imprimamos los fragmentos para comprender mejor su estructura de salida.

for i, chunk in enumerate(chunks,1):
print(f"Chunk {i}:\n{chunk}\n{'-'*40}")

¡Excelente! Los agentes crearon correctamente los fragmentos en el resultado.

Paso 6: Cree un almacén de vectores

Ahora que hemos experimentado con la fragmentación agéntica en el texto, vamos a mover nuestra implementación de RAG.

Para este tutorial, elegimos los fragmentos producidos por los agentes y los convertimos en incorporaciones vectoriales. Un almacén de vectores de código abierto que podemos usar es Chroma DB. Podemos acceder fácilmente a la funcionalidad de Chroma a través del paquete langchain_chroma. Inicialicemos nuestra base de datos vectorial Chroma, proporcionemos nuestro modelo de incorporación y agreguemos nuestros documentos producidos por fragmentación agentiva.

embeddings_model = HuggingFaceEmbeddings(model_name="ibm-granite/granite-embedding-30m-english")

Cree una base de datos vectorial Chroma

vector_db = Chroma(
collection_name="example_collection",
embedding_function=embeddings_model
)

Convierta cada fragmento de texto en un objeto de documento

documents = [Document(page_content=chunk) for chunk in chunks]

Agregue los documentos a la base de datos vectorial.

vector_db.add_documents(documents)

Paso 7: Estructure la plantilla de instrucciones

Ahora, podemos crear una plantilla de instrucciones para nuestro LLM. Esta plantilla garantiza que podamos hacer varias preguntas mientras mantenemos una estructura de instrucciones coherente. Además, podemos integrar nuestro almacén de vectores como el recuperador y finalizar la infraestructura RAG.

prompt_template = """<|start_of_role|>user<|end_of_role|>Use the following pieces of context to answer the question at the end. If you don't know the answer, just say that you don't know, don't try to make up an answer.
{context}
Question: {input}<|end_of_text|>
<|start_of_role|>assistant<|end_of_role|>"""
qa_chain_prompt = PromptTemplate.from_template(prompt_template)
combine_docs_chain = create_stuff_documents_chain(llm, qa_chain_prompt)
rag_chain = create_retrieval_chain(vector_db.as_retriever(), combine_docs_chain)

Paso 8: Instrucción de la cadena RAG

Con estos fragmentos agénticos en el flujo de trabajo de RAG, comencemos una consulta de usuario. En primer lugar, podemos dar una instrucción estratégica al modelo sin ningún contexto adicional del almacén de vectores que construimos para probar si el modelo está utilizando su conocimiento incorporado o realmente el contexto RAG. Con el documento explicativo de machine learning de IBM, hagamos la pregunta ahora.

output = llm.invoke("What is Model optimization process")
output

Claramente, el modelo no se entrenó con información sobre el proceso de optimización del modelo y, sin herramientas o información externas, no puede proporcionarnos la información correcta. El modelo alucina. Ahora, intentemos proporcionar la misma consulta a la cadena RAG con los fragmentos agénticos que creamos.

rag_output = rag_chain.invoke({"input": "What is Model optimization process?"})
rag_output['answer']

¡Excelente! El modelo Granite utilizó correctamente los fragmentos agénticos de RAG como contexto para proporcionarnos información correcta sobre el proceso de optimización del modelo y mantener la coherencia semántica.

Resumen

En este tutorial, generamos partes más pequeñas de información relevante utilizando agentes de IA en el proceso de fragmentación y construimos un pipeline de generación aumentada por recuperación (RAG).

Este método mejora la recuperación de información y la optimización de la ventana de contexto mediante inteligencia artificial y procesamiento de lenguaje natural (PLN). Optimiza los fragmentos de datos para mejorar la eficiencia de recuperación al aprovechar los modelos de lenguaje extensos (LLM) como los modelos GPT de OpenAI para obtener mejores resultados.

Principales tendencias tecnológicas estratégicas para 2025: IA agéntica

Descargue este informe de investigación de Gartner® para conocer las oportunidades y riesgos potenciales de la IA agéntica para los líderes de TI y cómo prepararse para esta próxima ola de innovación en IA.

Recursos

Agentes: watsonx Developer Hub

Empiece a crear y desplegar agentes mediante watsonx.ai.

Informe de Omdia sobre inteligencia potenciada: el impacto de los agentes de IA

Descubra cómo puede desbloquear todo el potencial de la IA generativa con agentes de IA.

Guía del comprador de agentes de IA 2025

Esta guía completa desglosa casos de uso clave, capacidades principales y recomendaciones paso a paso para ayudarle a elegir las soluciones adecuadas para su negocio.

Tutoriales de InstructLab

Dé forma a la IA generativa mediante contribuciones a los LLM de una manera abierta y accesible.

Comunidad de IA de IBM

Únase a la comunidad de arquitectos y creadores de IA para aprender, compartir ideas y conectarse con otros.

Reinvente la productividad empresarial con agentes y asistentes de IA

Explore la diferencia entre los agentes y los asistentes de IA, y aprenda cómo pueden revolucionar la productividad empresarial.

2024 Rewind: avances en modelos de IA, agentes, hardware y productos

¿Será 2025 el año de los agentes de IA? En este episodio de Mixture of Experts, revisamos modelos de IA, agentes, hardware y lanzamientos de productos con algunos de los principales expertos de la industria.

Cómo los agentes de IA reinventarán la productividad

Aprenda formas de usar la IA para mayor creatividad y eficiencia. Comience a adaptarse a un futuro que implica trabajar en estrecha colaboración con agentes de IA.

Soluciones relacionadas

Desarrollo de agentes de IA de IBM

Permita a los desarrolladores crear, desplegar y monitorear agentes de IA con el estudio IBM watsonx.ai.

Explore watsonx.ai

Agentes de IA y asistentes de IBM

Cree una productividad revolucionaria con uno de los conjuntos de capacidades más completos de la industria para ayudar a las empresas a crear, personalizar y gestionar asistentes y agentes de IA.

Explore los agentes de IA

IBM Granite

Logre un ahorro de más del 90 % en costos de energía con los modelos más pequeños y abiertos de Granite, diseñados para mejorar la eficiencia de los desarrolladores. Estos modelos preparados para empresas ofrecen un rendimiento excepcional contra puntos de referencia de seguridad y en una amplia gama de tareas empresariales, desde la ciberseguridad hasta el RAG.

Explorar Granite

Dé el siguiente paso

Automatice sus complejos flujos de trabajo y cree una productividad revolucionaria con uno de los conjuntos de capacidades más completos de la industria para ayudar a las empresas a crear, personalizar y gestionar agentes y asistentes de IA.

Explore el desarrollo de agentes de watsonx.ai

Descubra watsonx Orchestrate