¿Qué es la generación aumentada por recuperación (RAG)?

¿Qué es la generación aumentada por recuperación (RAG)?

La generación aumentada por recuperación, o RAG, es una arquitectura para optimizar el rendimiento de un modelo de inteligencia artificial (IA) conectándolo con bases de conocimiento externas. El RAG ayuda a los modelos de lenguaje de gran tamaño (LLM) a ofrecer respuestas más relevantes con una mayor calidad.

Los modelos de IA generativa se entrenan en grandes conjuntos de datos y se refieren a esta información para generar resultados. Sin embargo, los conjuntos de datos de entrenamiento son finitos y se limitan a la información a la que puede acceder el desarrollador de IA: obras de dominio público, artículos de Internet, contenido de redes sociales y otros datos de acceso público.

El RAG permite que los modelos de IA generativa accedan a bases de conocimiento externas adicionales, como datos organizativos internos, revistas académicas y conjuntos de datos especializados. Al integrar información relevante en el proceso de generación, los chatbots y otras herramientas de procesamiento del lenguaje natural (PLN) pueden crear contenidos específicos de dominio más precisos sin necesidad de formación adicional.

¿Cuáles son los beneficios del RAG?

El RAG permite a las organizaciones evitar altos costes de reentrenamiento al adaptar los modelos de IA generativa a casos de uso específicos del dominio. Las empresas pueden utilizar RAG para completar las lagunas en la base de conocimientos de un modelo de machine learning para que pueda proporcionar mejores respuestas.

Los principales beneficios del RAG incluyen:

  • Acceso a datos actuales específicos del dominio
  • Aumento de la confianza de los usuarios
  • Casos de uso ampliados
  • Control mejorado del desarrollador y mantenimiento de modelos
  • Mayor seguridad de datos

Implementación y escalado rentables de la IA

Al implementar la IA, la mayoría de las organizaciones seleccionan primero un modelo fundacional: los modelos de deep learning que sirven de base para el desarrollo de versiones más avanzadas. Los modelos fundacionales suelen tener bases de conocimiento generalizadas rellenadas con datos de entrenamiento disponibles públicamente, como el contenido de Internet disponible en el momento del entrenamiento.

Volver a entrenar un modelo fundacional o afinarlo (donde un modelo fundacional se entrena aún más con nuevos datos en un conjunto de datos más pequeño y específico del dominio) es costoso desde el punto de vista computacional y requiere muchos recursos. El modelo ajusta algunos o todos sus parámetros para ajustar su rendimiento a los nuevos datos especializados.

Con el RAG, las empresas pueden utilizar fuentes de datos internas y autorizadas y obtener aumentos similares en el rendimiento del modelo sin necesidad de volver a entrenar. Las empresas pueden escalar su implementación de aplicaciones de IA según sea necesario, al tiempo que mitigan los aumentos de costes y requisitos de recursos.

Acceso a datos actuales y específicos del dominio

Los modelos de IA generativa tienen un límite de conocimiento, el punto en el que se actualizaron por última vez sus datos de entrenamiento. A medida que un modelo envejece más allá de su límite de conocimiento, pierde relevancia con el tiempo. Los sistemas RAG conectan modelos con datos externos complementarios en tiempo real e incorporan información actualizada en las respuestas generadas.

Las empresas utilizan RAG para equipar los modelos con información específica, como datos propios de los clientes, investigaciones autorizadas y otros documentos relevantes.

Los modelos RAG también pueden conectarse a internet con interfaces de programación de aplicaciones (API) y obtener acceso a fuentes de redes sociales en tiempo real y reseñas de consumidores para comprender mejor el sentimiento del mercado. Por otra parte, el acceso a las noticias de última hora y a los motores de búsqueda puede dar lugar a respuestas más precisas a medida que los modelos incorporan la información recuperada en el proceso de generación de texto.

Menor riesgo de alucinaciones de IA

Los modelos de IA generativa, como el GPT de OpenAI, funcionan detectando patrones en sus datos y, a continuación, utilizando esos patrones para predecir los resultados más probables de las entradas de los usuarios. A veces, los modelos detectan patrones que no existen. Una alucinación o confabulación ocurre cuando los modelos presentan información incorrecta o inventada como si fuera objetiva.

El RAG ancla los LLM en conocimientos específicos respaldados por datos fácticos, fidedignos y actuales. En comparación con un modelo generativo que opera solo con sus datos de entrenamiento, los modelos RAG tienden a proporcionar respuestas más precisas dentro del contexto de sus datos externos. Aunque el RAG puede reducir el riesgo de alucinaciones, no puede hacer que un modelo sea a prueba de errores.

Mayor confianza del usuario

Los chatbots, una implementación común de IA generativa, responden a las preguntas planteadas por los usuarios humanos. Para que un chatbot como ChatGPT tenga éxito, los usuarios deben ver su output como fiable. Los modelos RAG pueden incluir citas a las fuentes de conocimiento en sus datos externos como parte de sus respuestas.

Cuando los modelos RAG citan sus fuentes, los usuarios humanos pueden verificar esos resultados para confirmar la precisión mientras consultan los trabajos citados para obtener aclaraciones de seguimiento e información adicional. El almacenamiento de datos corporativos suele ser un laberinto complejo y aislado. Las respuestas de RAG con citas dirigen a los usuarios directamente hacia los materiales que necesitan.

Casos de uso ampliados

El acceso a más datos significa que un modelo puede manejar una gama más amplia de instrucciones. Las empresas pueden optimizar los modelos y obtener más valor de ellos ampliando sus bases de conocimientos, ampliando a su vez los contextos en los que esos modelos generan resultados fiables.

Al combinar la IA generativa con los sistemas de recuperación, los modelos RAG pueden recuperar e integrar información de múltiples fuentes de datos en respuesta a consultas complejas.

Control mejorado del desarrollador y mantenimiento de modelos

Las organizaciones modernas procesan constantemente cantidades masivas de datos, desde entradas de pedidos hasta proyecciones de mercado, rotación de empleados y más. La creación eficaz de pipelines de datos y el almacenamiento de datos es primordial para una implementación sólida de RAG.

Al mismo tiempo, los desarrolladores y los científicos de datos pueden modificar las fuentes de datos a las que tienen acceso los modelos en cualquier momento. Reposicionar un modelo de una tarea a otra se convierte en una tarea de ajuste de sus fuentes de conocimiento externas en lugar de ajuste o reentrenamiento. Si es necesario realizar ajustes, los desarrolladores pueden priorizar ese trabajo en lugar de gestionar las fuentes de datos del modelo.

Mayor seguridad de datos

Dado que el RAG conecta un modelo con fuentes de conocimiento externas en lugar de incorporar ese conocimiento a los datos de entrenamiento del modelo, mantiene una división entre el modelo y ese conocimiento externo. Las empresas pueden utilizar RAG para conservar los datos de origen y, al mismo tiempo, conceder acceso a los modelos, acceso que puede revocarse en cualquier momento.

Sin embargo, las empresas deben estar atentas para mantener la seguridad de las propias bases de datos externas. El RAG utiliza bases de datos vectoriales, que utilizan embeddings para convertir puntos de datos en representaciones numéricas. Si se vulneran estas bases de datos, los atacantes pueden revertir el proceso de embedding de vectores y acceder a los datos originales, especialmente si la base de datos vectorial no está cifrada.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Casos de uso del RAG

Los sistemas RAG esencialmente permiten a los usuarios consultar bases de datos con lenguaje conversacional. Las capacidades de respuesta a preguntas basadas en datos de los sistemas RAG se han aplicado en una variedad de casos de uso, que incluyen:

  • Chatbots y asistentes virtuales especializados
     

  • Investigación
     

  • Generación de contenido
     

  • Análisis de mercado y desarrollo de productos
     

  • Motores de conocimiento
     

  • Servicios de recomendación

Chatbots y asistentes virtuales especializados

Las empresas que desean automatizar la atención al cliente pueden descubrir que sus modelos de IA carecen de los conocimientos especializados necesarios para ayudar adecuadamente a los clientes. Los sistemas de IA de RAG conectan modelos en datos internos para equipar a los chatbots de atención al cliente con los últimos conocimientos sobre los productos, servicios y políticas de una empresa.

El mismo principio se aplica a los avatares y asistentes personales de IA. Conectar el modelo subyacente con los datos personales del usuario y hacer referencia a interacciones anteriores proporciona una experiencia de usuario más personalizada.

Investigación

Capaces de leer documentos internos e interactuar con motores de búsqueda, los modelos RAG destacan en la investigación. Los analistas financieros pueden generar informes específicos del cliente con información actualizada del mercado y la actividad de inversión previa, mientras que los profesionales médicos pueden interactuar con los registros de pacientes e instituciones.

Generación de contenido

La capacidad de los modelos RAG para citar fuentes autorizadas puede conducir a una generación de contenidos más fiable. Aunque todos los modelos de IA generativa pueden alucinar, RAG facilita a los usuarios la verificación de los outputs para la precisión.

Análisis de mercado y desarrollo de productos

Los líderes empresariales pueden consultar las tendencias en las redes sociales, la actividad de la competencia, las noticias de última hora relevantes para el sector y otras fuentes en línea para informar mejor las decisiones empresariales. Mientras tanto, los gerentes de producto pueden consultar el feedback de los clientes y los comportamientos de los usuarios al considerar futuras opciones de desarrollo.

Motores de conocimiento

Los sistemas RAG pueden capacitar a los empleados con información interna de la empresa. Los procesos de incorporación optimizados, un soporte de RR. HH. más rápido y la orientación bajo demanda para los empleados sobre el terreno son solo algunas de las formas en que las empresas pueden utilizar RAG para mejorar el rendimiento laboral.

Servicios de recomendación

Al analizar el comportamiento anterior de los usuarios y compararlo con las ofertas actuales, los sistemas RAG impulsan servicios de recomendación más precisos. Tanto una plataforma de comercio electrónico como un servicio de entrega de contenidos pueden utilizar RAG para mantener a los clientes comprometidos y gastando.

AI Academy

El auge de la IA generativa para empresas

Conozca el auge histórico de la IA generativa y lo que significa para las empresas.

¿Cómo funciona el RAG?

RAG funciona combinando modelos de recuperación de información con modelos de IA generativa para producir contenidos más fidedignos. Los sistemas RAG consultan una base de conocimientos y añaden más contexto a una instrucción de usuario antes de generar una respuesta.

Los LLM estándar obtienen información de sus conjuntos de datos de entrenamiento. El RAG añade un componente de recuperación de información al flujo de trabajo de IA, recopilando información relevante y alimentándola al modelo de IA generativa para mejorar la calidad y la utilidad de la respuesta.

Los sistemas RAG siguen un proceso de cinco etapas:

Un diagrama que muestra un proceso RAG (generación aumentada por recuperación)
  1. El usuario envía una instrucción.
     

  2. El modelo de recuperación de información consulta la base de conocimientos en busca de datos relevantes.
     

  3. La información relevante se devuelve desde la base de conocimientos a la capa de integración.
     

  4. El sistema RAG diseña una instrucción aumentada para el LLM con un contexto mejorado a partir de los datos recuperados.
     

  5. El LLM genera un resultado y lo devuelve al usuario.

Este proceso muestra cómo el RAG recibe su nombre. El sistema RAG recupera datos de la base de conocimientos, aumenta la instrucción con contexto añadido y genera una respuesta.

Componentes de un sistema RAG

Los sistemas RAG contienen cuatro componentes principales:

  • La base de conocimientos: el repositorio de datos externo para el sistema.
  • El recuperador: un modelo de IA que busca en la base de conocimientos datos relevantes.
  • La capa de integración: la parte de la arquitectura RAG que coordina su funcionamiento general.
  • El generador: un modelo de IA generativa que crea un resultado basado en la consulta del usuario y los datos recuperados.

Otros componentes pueden incluir un clasificador, que clasifica los datos recuperados en función de su relevancia, y un controlador de resultados, que formatea la respuesta generada para el usuario.

La base de conocimientos

La primera etapa en la creación de un sistema RAG es crear una base de conocimiento consultable. El repositorio de datos externo puede contener datos de innumerables fuentes: PDF, documentos, guías, sitios web, archivos de audio y mucho más. Gran parte de ellos serán datos no estructurados, lo que significa que aún no se han etiquetado.

Los sistemas RAG utilizan un proceso llamado embedding para transformar los datos en representaciones numéricas llamadas vectores. El modelo de embedding vectoriza los datos en un espacio matemático multidimensional, organizando los puntos de datos por similitud. Los puntos de datos que se consideran más relevantes entre sí se colocan muy juntos.

Las bases de conocimientos deben actualizarse continuamente para mantener la calidad y relevancia del sistema RAG.

Las entradas de LLM se limitan a la ventana de contexto del modelo: la cantidad de datos que puede procesar sin perder contexto. La fragmentación de un documento en tamaños más pequeños ayuda a garantizar que las embeddings resultantes no abrumen la ventana de contexto del LLM en el sistema RAG.

El tamaño del fragmento es un hiperparámetro importante para el sistema RAG. Cuando los fragmentos son demasiado grandes, los puntos de datos pueden volverse demasiado generales y no corresponder directamente a las posibles consultas de los usuarios. Pero si los fragmentos son demasiado pequeños, los puntos de datos pueden perder coherencia semántica.

El recuperador

La vectorización de los datos prepara la base de conocimientos para la búsqueda vectorial semántica, una técnica que identifica puntos en la base de datos que son similares a la consulta del usuario. Los algoritmos de machine learning de búsqueda semántica pueden consultar bases de datos masivas e identificar rápidamente información relevante, reduciendo la latencia en comparación con las búsquedas tradicionales por palabras clave.

El modelo de recuperación de información transforma la consulta del usuario en un embedding y, a continuación, busca en la base de conocimientos embeddings similares. A continuación, sus hallazgos se devuelven desde la base de conocimientos.

La capa de integración

La capa de integración es el centro de la arquitectura RAG, coordinando los procesos y pasando datos por la red. Con los datos añadidos de la base de conocimientos, el sistema RAG crea una nueva instrucción para el componente LLM. Esta instrucción consta de la consulta original del usuario más el contexto mejorado devuelto por el modelo de recuperación.

Los sistemas RAG emplean varias técnicas de prompt engineering para automatizar la creación efectiva de instrucciones y ayudar al LLM a devolver la mejor respuesta posible. Mientras tanto, los marcos de coordinación LLM, como el código abierto LangChain y LlamaIndex o IBM® watsonx Orchestrate, regulan el funcionamiento general de un sistema de IA.

El generador

El generador crea un resultado basado en la instrucción aumentada que le proporciona la capa de integración. La instrucción sintetiza la entrada del usuario con los datos recuperados e indica al generador que tenga en cuenta estos datos en su respuesta. Los generadores suelen ser modelos de lenguaje preentrenados, como GPT, Claude o Llama.

¿Cuál es la diferencia entre el RAG y la afinación?

La diferencia entre RAG y la afinación es que RAG permite a un LLM consultar una fuente de datos externa, mientras que la afinación entrena un LLM en datos específicos del dominio. Ambos tienen el mismo objetivo general: hacer que un LLM funcione mejor en un dominio específico.

El RAG y la afinación suelen contrastarse, pero pueden utilizarse conjuntamente. La afinación aumenta la familiaridad de un modelo con el dominio previsto y los requisitos de resultado, mientras que el RAG ayuda al modelo a generar resultados relevantes y de alta calidad.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo