¿Qué es la generación aumentada de recuperación (RAG)?

Autores

Ivan Belcic

Staff writer

¿Qué es la generación aumentada por recuperación?

La generación aumentada por recuperación, o RAG, es una arquitectura para optimizar el rendimiento de un modelo de inteligencia artificial (IA) conectándolo con bases de conocimiento externas. La RAG ayuda a los modelos de lenguaje grandes (LLM) a ofrecer respuestas más relevantes con una mayor calidad.

Los modelos de IA generativa se entrenan en grandes conjuntos de datos y se refieren a esta información para generar resultados. Sin embargo, los conjuntos de datos de entrenamiento son finitos y se limitan a la información a la que puede acceder el desarrollador de IA: obras de dominio público, artículos de Internet, contenido de redes sociales y otros datos de acceso público.

La RAG permite que los modelos de IA generativa accedan a bases de conocimiento externas adicionales, como datos organizacionales internos, revistas académicas y conjuntos de datos especializados. Al integrar información relevante en el proceso de generación, los chatbots y otras herramientas de procesamiento de lenguaje natural (PLN) pueden crear contenido específico de dominio más preciso sin necesidad de entrenamiento adicional.

¿Cuáles son los beneficios de la RAG?

La RAG permite a las organizaciones evitar altos costos de reentrenamiento al adaptar los modelos de IA generativa a casos de uso específicos del dominio. Las empresas pueden usar la RAG para cerrar las brechas en la base de conocimientos de un modelo de machine learning para que pueda proporcionar mejores respuestas.

Los principales beneficios de la RAG incluyen:

  • Acceso a datos actuales específicos del dominio
  • Mayor confianza de los usuarios
  • Casos de uso ampliados
  • Control mejorado del desarrollador y mantenimiento de modelos
  • Mayor seguridad de los datos

Implementación y escalado de IA rentables

Al implementar la IA, la mayoría de las organizaciones seleccionan primero un modelo fundacional: los modelos de aprendizaje profundo que sirven como base para el desarrollo de versiones más avanzadas. Los modelos fundacionales suelen tener bases de conocimiento generalizadas pobladas con datos de entrenamiento disponibles públicamente, como contenido de Internet disponible en el momento del entrenamiento.

Volver a entrenar un modelo fundacional o ajustarlo, donde un modelo fundacional se entrena aún más en nuevos datos en un conjunto de datos más pequeño y específico de dominio, es costoso a nivel computacional y requiere muchos recursos. El modelo ajusta algunos de sus parámetros o todos para ajustar su rendimiento a los nuevos datos especializados.

Con la RAG, las empresas pueden utilizar fuentes de datos internas y autorizadas y obtener aumentos similares en el rendimiento del modelo sin volver a entrenar. Las empresas pueden escalar su implementación de aplicaciones de IA según sea necesario, al tiempo que mitigan los aumentos de costos y requisitos de recursos.

Acceso a datos actuales y específicos del dominio

Los modelos de IA generativa tienen un límite de conocimiento, el punto en el que se actualizaron por última vez sus datos de entrenamiento. A medida que un modelo envejece más allá de su límite de conocimiento, pierde relevancia con el tiempo. Los sistemas RAG conectan modelos con datos externos complementarios en tiempo real e incorporan información actualizada en las respuestas generadas.

Las empresas utilizan la RAG para equipar a los modelos con información específica, como datos de clientes patentados, investigaciones autorizadas y otros documentos relevantes.

Los modelos de RAG también pueden conectarse a Internet con interfaces de programación de aplicaciones y obtener acceso a fuentes de redes sociales en tiempo real y comentarios de consumidores para comprender mejor el sentimiento del mercado. Mientras tanto, el acceso a las noticias de última hora y a los motores de búsqueda puede dar lugar a respuestas más precisas a medida que los modelos incorporan la información recuperada en el proceso de generación de texto.

Menor riesgo de alucinaciones de la IA

Los modelos de IA generativa, como GPT de OpenAI, funcionan detectando patrones en sus datos y luego emplean esos patrones para predecir los resultados más probables de las entradas de los usuarios. A veces, los modelos detectan patrones que no existen. Una alucinación o confabulación ocurre cuando los modelos presentan información incorrecta o inventada como si fuera objetiva.

La RAG ancla los LLM en conocimientos específicos respaldados por datos fácticos, fidedignos y actuales. En comparación con un modelo generativo que opera solo con sus datos de entrenamiento, los modelos de RAG tienden a proporcionar respuestas más precisas dentro de los contextos de sus datos externos. Si bien la RAG puede reducir el riesgo de alucinaciones, no puede hacer que un modelo sea a prueba de errores.

Mayor confianza del usuario

Los chatbots, una implementación común de IA generativa, responden preguntas planteadas por usuarios humanos. Para que un chatbot como ChatGPT tenga éxito, los usuarios deben ver sus resultados como confiables. Los modelos de RAG pueden incluir citas a las fuentes de conocimiento en sus datos externos como parte de sus respuestas.

Cuando los modelos de RAG citan sus fuentes, los usuarios humanos pueden verificar esos resultados para confirmar la precisión mientras consultan los trabajos citados para obtener aclaraciones de seguimiento e información adicional. El almacenamiento de datos corporativos suele ser un laberinto complejo y aislado. Las respuestas de la RAG con citas dirigen a los usuarios directamente hacia los materiales que necesitan.

Casos de uso ampliados

El acceso a más datos significa que un modelo puede manejar una gama más amplia de instrucciones. Las empresas pueden optimizar los modelos y obtener más valor de ellos ampliando sus bases de conocimientos y, a su vez, los contextos en los que esos modelos generan resultados confiables.

Al combinar la IA generativa con los sistemas de recuperación, los modelos de RAG pueden recuperar e integrar información de múltiples fuentes de datos en respuesta a consultas complejas.

Control mejorado del desarrollador y mantenimiento de modelos

Las organizaciones modernas procesan constantemente cantidades masivas de datos, desde entradas de pedidos hasta proyecciones de mercado, rotación de empleados y más. La construcción eficaz de pipelines de datos y el almacenamiento de datos es primordial para una implementación sólida de la RAG.

Al mismo tiempo, los desarrolladores y científicos de datos pueden modificar las fuentes de datos a las que los modelos tienen acceso en cualquier momento. Reposicionar un modelo de una tarea a otra se convierte en una tarea de ajuste de sus fuentes de conocimiento externas en lugar de refinamiento o reentrenamiento. Si es necesario realizar ajustes, los desarrolladores pueden priorizar ese trabajo en lugar de gestionar las fuentes de datos del modelo.

Mayor seguridad de los datos

Debido a que la RAG conecta un modelo a fuentes de conocimiento externas en lugar de incorporar ese conocimiento a los datos de entrenamiento del modelo, mantiene una división entre el modelo y ese conocimiento externo. Las empresas pueden usar la RAG para preservar datos propios y, al mismo tiempo, otorgar acceso a los modelos, que puede revocarse en cualquier momento.

Sin embargo, las empresas deben estar atentas para mantener la seguridad de las propias bases de datos externas. La RAG utiliza bases de datos vectoriales, que emplea incorporaciones para convertir puntos de datos en representaciones numéricas. Si se vulneran estas bases de datos, los atacantes pueden revertir el proceso de incorporación vectorial y acceder a los datos originales, especialmente si la base de datos vectorial no está cifrada.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Casos de uso de RAG

Los sistemas de RAG esencialmente permiten a los usuarios consultar bases de datos con lenguaje conversacional. Las capacidades de respuesta a preguntas basadas en datos de los sistemas de RAG se han aplicado en una variedad de casos de uso, que incluyen:

  • Chatbots y asistentes virtuales especializados
     

  • Investigación
     

  • Generación de contenido
     

  • Análisis de mercado y desarrollo de productos
     

  • Motores de conocimiento
     

  • Servicios de recomendación

Chatbots y asistentes virtuales especializados

Las empresas que desean automatizar la atención al cliente pueden descubrir que sus modelos de IA carecen del conocimiento especializado necesario para ayudar adecuadamente a los clientes. Los sistemas de IA de RAG conectan modelos en datos internos para equipar a los chatbots de atención al cliente con los conocimientos más recientes sobre los productos, servicios y políticas de una empresa.

El mismo principio se aplica a los avatares y asistentes personales de IA. Conectar el modelo subyacente con los datos personales del usuario y hacer referencia a interacciones anteriores proporciona una experiencia de usuario más personalizada.

Investigación

Capaces de leer documentos internos e interactuar con motores de búsqueda, los modelos de RAG se destacan en la investigación. Los analistas financieros pueden generar informes específicos del cliente con información actualizada del mercado y actividad de inversión previa, mientras que los profesionales médicos pueden interactuar con los registros de pacientes e instituciones.

Generación de contenido

La capacidad de los modelos de RAG para citar fuentes autorizadas puede conducir a una generación de contenido más confiable. Si bien todos los modelos de IA generativa pueden alucinar, la RAG facilita a los usuarios verificar la precisión de los resultados.

Análisis de mercado y desarrollo de productos

Los líderes empresariales pueden consultar las tendencias de las redes sociales, la actividad de la competencia, las últimas noticias relevantes del sector y otras fuentes en línea para fundamentar mejor las decisiones empresariales. Mientras tanto, los gerentes de producto pueden consultar el feedback de los clientes y los comportamientos de los usuarios al considerar futuras opciones de desarrollo.

Motores de conocimiento

Los sistemas de RAG pueden empoderar a los empleados con información interna de la empresa. Los procesos de incorporación optimizados, el soporte de RR. HH. más rápido y la orientación bajo demanda para los empleados en el campo son solo algunas de las formas en que las empresas pueden utilizar la RAG para mejorar el rendimiento laboral.

Servicios de recomendación

Al analizar el comportamiento anterior de los usuarios y compararlo con las ofertas actuales, los sistemas de RAG impulsan servicios de recomendación más precisos. Una plataforma de comercio electrónico y un servicio de entrega de contenido pueden usar la RAG para mantener el compromiso y el gasto de los clientes.

AI Academy

El auge de la IA generativa para las empresas

Aprenda sobre el auge histórico de la IA generativa y lo que significa para las empresas.

¿Cómo funciona la RAG?

La RAG funciona combinando modelos de recuperación de información con modelos de IA generativa para producir contenido más fidedigno. Los sistemas de RAG consultan una base de conocimientos y agregan más contexto a una instrucción de usuario antes de generar una respuesta.

Los LLM estándar obtienen información de sus conjuntos de datos. La RAG agrega un componente al flujo de trabajo de IA, recopilando información relevante y alimentándola al modelo de IA generativa para mejorar la calidad y la utilidad de la respuesta.

Los sistemas de RAG siguen un proceso de cinco etapas:

  1. El usuario envía una instrucción.
     

  2. El modelo de recuperación de información consulta la base de conocimientos en busca de datos relevantes.
     

  3. La información relevante se devuelve desde la base de conocimientos a la capa de integración.
     

  4. El sistema de RAG diseña una instrucción aumentada para el LLM con contexto mejorado a partir de los datos recuperados.
     

  5. El LLM genera resultados y los devuelve al usuario.

Este proceso muestra cómo la RAG obtiene su nombre. El sistema de RAG recupera datos de la base de conocimientos, aumenta la instrucción con contexto agregado y genera una respuesta.

Componentes de un sistema de RAG

Los sistemas de RAG contienen cuatro componentes principales:

  • La base de conocimientos: el repositorio de datos externo para el sistema.
  • El recuperador: un modelo de IA que busca en la base de conocimiento datos relevantes.
  • La capa de integración: la porción de la arquitectura de RAG que coordina su funcionamiento general.
  • El generador: un modelo de IA generativa que crea resultados basados en la consulta del usuario y los datos recuperados.

Otro componente puede incluir un clasificador, que clasifica los datos recuperados en función de la relevancia, y un controlador de resultados, que da formato a la respuesta generada para el usuario.

La base de conocimientos

La primera etapa en la construcción de un sistema de RAG es crear una base de conocimientos consultable. El repositorio de datos externo puede contener datos de innumerables fuentes: PDF, documentos, guías, sitios web, archivos de audio y más. Gran parte de esto serán datos no estructurados, lo que significa que aún no se etiquetaron.

Los sistemas de RAG utilizan un proceso llamado incorporación para transformar los datos en representaciones numéricas llamadas vectores. El modelo de incorporación vectoriza los datos en un espacio matemático multidimensional, organizando los puntos de datos por similitud. Los puntos de datos que se consideran más relevantes entre sí se colocan muy juntos.

Las bases de conocimientos deben actualizarse continuamente para mantener la calidad y relevancia del sistema de RAG.

Las entradas del LLM se limitan a la ventana de contexto del modelo: la cantidad de datos que puede procesar sin perder el contexto. Fragmentar un documento en tamaños más pequeños ayuda a garantizar que las incorporaciones resultantes no abrumen la ventana de contexto del LLM en el sistema de RAG.

El tamaño del fragmento es un hiperparámetro importante para el sistema de RAG. Cuando los fragmentos son demasiado grandes, los puntos de datos pueden volverse demasiado generales y no corresponder directamente a las posibles consultas de los usuarios. Pero si los fragmentos son demasiado pequeños, los puntos de datos pueden perder coherencia semántica.

El recuperador

La vectorización de los datos prepara la base de conocimientos para la búsqueda vectorial semántica, una técnica que identifica puntos en la base de datos que son similares a la consulta del usuario. Los algoritmos de machine learning de búsqueda semántica pueden consultar bases de datos masivas e identificar rápidamente información relevante, lo que reduce la latencia en comparación con las búsquedas tradicionales de palabras clave.

El modelo de recuperación de información transforma la consulta del usuario en una incorporación y luego busca en la base de conocimientos incorporaciones similares. Luego, sus hallazgos se devuelven desde la base de conocimientos.

La capa de integración

La capa de integración es el centro de la arquitectura de RAG, coordinando los procesos y pasando datos por la red. Con los datos agregados de la base de conocimientos, el sistema de RAG crea una nueva instrucción para el componente de LLM. Esta instrucción consta de la consulta del usuario original más el contexto mejorado devuelto por el modelo de recuperación.

Los sistemas de RAG emplean varias técnicas de ingeniería rápida para automatizar la creación eficaz de instrucciones y ayudar al LLM a devolver la mejor respuesta posible. Mientras tanto, los marcos de orquestación de LLM,como LangChain y LlamaIndex de código abierto o IBM® watsonx Orchestrate, gobiernan el funcionamiento general de un sistema de IA.

El generador

El generador crea una salida basada en la instrucción aumentada que le proporciona la capa de integración. La instrucción sintetiza la entrada del usuario con los datos recuperados e indica al generador que considere estos datos en su respuesta. Los generadores suelen ser modelos de lenguaje previamente entrenados, como GPT, Claude o Llama.

¿Cuál es la diferencia entre RAG y ajuste?

La diferencia entre RAG y ajuste es que la RAG permite que un LLM consulte una fuente de datos externa, mientras que el ajuste entrena un LLM en datos específicos del dominio. Ambos tienen el mismo objetivo general: hacer que un LLM funcione mejor en un dominio específico.

La RAG y el ajuste a menudo se contrastan, pero se pueden usar en conjunto. El ajuste aumenta la familiaridad de un modelo con el dominio previsto y los requisitos de salida, mientras que la RAG ayuda al modelo a generar resultados relevantes y de alta calidad.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo