¿Qué es la fragmentación agéntica?

Autores

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

La fragmentación agéntica es el uso de inteligencia artificial (IA) para segmentar entradas de texto largas en bloques más pequeños y semánticamente coherentes conocidos como trozos. Mientras que muchas estrategias de fragmentación tradicionales tienden a utilizar fragmentos de tamaño fijo al dividir el texto, la fragmentación agentiva segmenta dinámicamente el texto en función del contexto.

Los modelos de lenguaje de gran tamaño (LLM) no pueden procesar una gran secuencia de entrada basada en texto en su totalidad. Una ventana contextual de un modelo de procesamiento del lenguaje natural (PLN) determina la cantidad máxima de contenido que el modelo puede admitir manteniendo la comprensión contextual. Los sistemas de machine learning (ML) utilizan técnicas de fragmentación para dividir los documentos en partes que se ajusten a la ventana de contexto del LLM.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Fragmentación y RAG

El desarrollo de la generación aumentada por recuperación (RAG), que conecta los LLM a fuentes de datos externas, requirió la creación de sistemas de fragmentación. Los sistemas de RAG surgieron para ayudar a contrarrestar el problema de las alucinaciones: cuando los LLM ofrecían respuestas que no reflejaban resultados o información del mundo real.

Los sistemas de RAG ayudan a los LLM a generar respuestas más precisas y útiles combinándolas con bases de conocimiento adicionales. En muchos casos, las bases de conocimiento de RAG son bases de datos vectoriales que contienen documentos que dan acceso al LLM conectado a conocimientos específicos del dominio. Los modelos de embedding convierten los documentos en vectores matemáticos, luego hacen lo mismo con las consultas de los usuarios.

El sistema de RAG encuentra embeddings dentro de su base de datos vectorial que representan información relevante y coinciden con la consulta del usuario. A continuación, el LLM utiliza los datos recuperados para proporcionar a los usuarios respuestas más relevantes y precisas.

Pero debido a las limitaciones de la ventana contextual, el LLM no puede procesar un solo documento a la vez. La fragmentación surgió como la solución. Al dividir un documento en partes, el LLM puede encontrar de manera eficiente fragmentos relevantes en tiempo real a la vez que mantiene la comprensión contextual.

AI Academy

Conviértase en un experto en IA

Obtenga los conocimientos necesarios para priorizar las inversiones en IA que impulsan el crecimiento empresarial. Dé sus primeros pasos hoy mismo con nuestra AI Academy gratuita y lidere el futuro de la IA en su organización.

Otros métodos de fragmentación

La fragmentación agéntica permite a los LLM crear fragmentos significativos que les ayuden a proporcionar mejores respuestas, como con el caso de uso de RAG. Algunos métodos de fragmentación también tienen en cuenta la semántica, mientras que otros dividen los documentos en fragmentos más pequeños de longitud fija.

Otros métodos de fragmentación incluyen:

Fragmentación de tamaño fijo

La estrategia de fragmentación más sencilla, la fragmentación de tamaño fijo, divide el texto en bloques del mismo tamaño, en función de un recuento preestablecido de caracteres o tokens. Un token es la cantidad mínima de texto que el LLM puede procesar, a menudo una palabra o una parte de ella.

Para evitar dividir las frases, muchas implementaciones de fragmentación de tamaño fijo incluyen una característica que repite el final de un fragmento al principio del siguiente. La fragmentación de tamaño fijo es simple y computacionalmente ligera, pero es rígida: no puede tener en cuenta la densidad del contenido o la estructura del documento y puede crear fragmentos semánticamente incoherentes.

Fragmentación recursiva

La fragmentación recursiva utiliza una lista jerárquica de separadores de texto predefinidos para dividir el texto de una manera que probablemente sea más coherente. Los separadores incluyen estructuras naturales como párrafos, frases o palabras. En un documento de codificación de Python, los separadores pueden incluir definiciones de clase y función.

En comparación con la fragmentación de tamaño fijo, la fragmentación recursiva crea fragmentos más coherentes siguiendo las separaciones naturales del texto. El uso de Markdown también puede ayudar al algoritmo de fragmentación, o fragmentador, a determinar dónde hacer divisiones. RecursiveCharacterTextSplitter es un fragmentador popular disponible en LangChain.

Pero si el texto carece de separadores claros, los algoritmos de fragmentación recursiva no sabrán dónde crear nuevos fragmentos. La fragmentación recursiva también es más intensiva desde el punto de vista computacional que la fragmentación de tamaño fijo.

Fragmentación semántica

La fragmentación semántica utiliza modelos de embedding para crear representaciones matemáticas de cada oración. Luego, el algoritmo de fragmentación crea fragmentos de oraciones semánticamente similares, creando un nuevo fragmento que detecta un cambio en la semántica. La fragmentación semántica se atribuye a Greg Kamradt, quien habló sobre la técnica en Github1.

La fragmentación semántica se basa en el contexto, creando fragmentos en torno al flujo natural y al significado semántico del documento. Cuando cambia el tema, se crea un nuevo fragmento. Sin embargo, pueden surgir problemas cuando los párrafos tratan varios temas o si el umbral de fragmentación no se establece correctamente para el tipo y la estructura del documento.

La fragmentación semántica es más intensiva desde el punto de vista computacional que la fragmentación recursiva y de tamaño fijo y requiere modelos avanzados para identificar el contenido semántico dentro del texto.

¿Cómo funciona la fragmentación agéntica?

La fragmentación agéntica es un ejemplo de automatización agéntica: el uso de agentes de IA para automatizar un flujo de trabajo. En este caso, el flujo de trabajo que se automatiza de forma inteligente es el proceso de determinar cómo dividir un documento en fragmentos más pequeños que encajen dentro de la ventana contextual de un LLM.

La IA agéntica se refiere al uso de sistemas de IA para tomar decisiones autónomas y actuar sin intervención humana. Con la fragmentación agéntica, el agente actúa por sí solo para determinar cómo separar el texto y etiquetar los fragmentos.

La fragmentación agéntica se basa en otros métodos de fragmentación para crear secciones superpuestas y división recursiva, y luego aplica IA generativa para etiquetar cada fragmento con metadatos para facilitar la recuperación de RAG.

La fragmentación agéntica se encuentra aún en fase de exploración. Los creadores comparten y debaten sus enfoques en GitHub. A menudo se crean con el lenguaje de codificación Python utilizando marcos LLM como Llamaindex y Langchain junto con LLM de código abierto disponibles en Huggingface. 

Un flujo de trabajo de IA típico para la fragmentación agéntica puede contener estos pasos:

1. Preparación del texto

Mediante herramientas de automatización inteligentes, el texto se extrae del documento de origen, como un PDF, y se limpia. La limpieza de texto implica la eliminación de elementos superfluos, como números de página y pies de página, para que el LLM solo reciba texto sin procesar.

2. División de texto

Los algoritmos de fragmentación recursiva dividen el texto en pequeños fragmentos para evitar cortar las oraciones en pedazos. Al igual que la fragmentación semántica, la fragmentación agéntica divide dinámicamente el texto en función del significado, la estructura y la conciencia del contexto mediante la técnica de superposición de fragmentos.

3. Etiquetado de fragmentos

Los LLM, como GPT de OpenAI, procesan, combinan y enriquecen los fragmentos. Los fragmentos más pequeños se combinan en otros más grandes que mantienen la coherencia semántica. El LLM enriquece cada fragmento con metadatos que incluyen un título y un resumen del contenido del fragmento. Los metadatos generados ayudan a los usos posteriores, como con los sistemas RAG agénticos.

4. Embedding

Cada fragmento se convierte en un embedding y se almacena en una base de datos vectorial. Los modelos de recuperación consultan la base de datos, utilizan la búsqueda semántica para encontrar fragmentos con metadatos relevantes y los incluyen en las instrucciones del LLM en el sistema de RAG.

La configuración prompt_template en LangChain determina la instrucción de entrada dada al LLM. Más información sobre cómo optimizar la fragmentación de RAG con LangChain y watsonx.ai.

Beneficios de la fragmentación agéntica

En comparación con los métodos tradicionales de fragmentación, el dinamismo de la fragmentación agéntica y el etiquetado de metadatos lo convierten en una excelente opción para la implementación de RAG. Los beneficios incluyen:

  • Recuperación eficiente: los títulos y resúmenes generados por IA para cada fragmento pueden ayudar a los sistemas RAG a encontrar información relevante más rápido en conjuntos de datos conectados.

  • Respuestas precisas: la fragmentación semánticamente coherente con metadatos generados por IA puede ayudar a los sistemas de RAG a aumentar las respuestas generadas con datos relevantes para obtener mejores respuestas.

  • Flexibilidad: la fragmentación impulsada por IA puede gestionar una amplia gama de tipos de documentos. Los sistemas de fragmentación de agentes pueden integrarse con varios LLM y cadenas RAG para seguir el ritmo del crecimiento y la expansión del proyecto.

  • Conservación del contenido: los sistemas de fragmentación agéntica se basan en métodos de fragmentación anteriores para crear fragmentos que preserven el significado semántico y la coherencia.

Soluciones relacionadas
Agentes de IA para empresas

Cree, implemente y gestione potentes asistentes y agentes de IA que automaticen flujos de trabajo y procesos con IA generativa.

    Explore watsonx Orchestrate
    Soluciones de agente de IA de IBM

    Construya el futuro de su empresa con soluciones de IA en las que puede confiar.

    Explore las soluciones de los agentes de IA
    Servicios de IA de IBM Consulting

    Los servicios de IA de IBM Consulting ayudan a reinventar la forma de trabajar de las empresas usando IA para la transformación.

    Explore los servicios de inteligencia artificial
    Dé el siguiente paso

    Tanto si opta por personalizar las aplicaciones y habilidades prediseñadas como si prefiere crear e implementar servicios agentivos personalizados mediante un estudio de IA, la plataforma IBM watsonx le ofrece todo lo que necesita.

    Explore watsonx Orchestrate Explore watsonx.ai