¿Qué es el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF)?

Publicado: 10 de noviembre de 2023
Colaboradores: Dave Bergmann

¿Qué es RLHF?

El aprendizaje por refuerzo a partir de comentarios humanos (RLHF) es una técnica de machine learning en la que un "modelo de recompensa" se entrena con comentarios humanos directos y luego se utiliza para optimizar el rendimiento de un agente de inteligencia artificial mediante el aprendizaje por refuerzo.

RLHF, también llamado aprendizaje por refuerzo a partir de las preferencias humanas, es especialmente adecuado para tareas con objetivos complejos, mal definidos o difíciles de especificar. Por ejemplo, sería poco práctico (o incluso imposible) que una solución algorítmica defina “divertido” en términos matemáticos, pero sería fácil para los humanos calificar los chistes generados por un modelo grande de lenguaje (LLM). Esa retroalimentación humana, sintetizada en una función de recompensa, podría utilizarse para mejorar las habilidades de redacción de chistes del LLM.

En un artículo de 2017, Paul F. Christiano, de OpenAI, junto con otros investigadores de OpenAI y DeepMind, detallaron el éxito de RLHF en el entrenamiento de modelos de IA para realizar tareas complejas como los juegos de Atari y la locomoción robótica simulada.¹Tras este avance, los videojuegos siguieron siendo un importante campo de pruebas para la RLHF: en 2019, los sistemas de IA entrenados por RLHF, como OpenAI Five y AlphaStar de DeepMind, habían derrotado a los mejores jugadores profesionales humanos en Dota 2² y StarCraft³, mucho más complejos, respectivamente.

Quizás lo más importante es que el documento de OpenAI de 2017 señaló que su metodología, en particular la introducción del algoritmo de optimización de políticas proximales (PPO) para actualizar las ponderaciones de los modelos, redujo en gran medida el coste de recopilar y sintetizar la retroalimentación humana necesaria. Esto allanó el camino para la eventual integración de RLHF con el campo del procesamiento del lenguaje natural (NLP), y los avances resultantes ayudaron a introducir tanto a los LLM como a RLHF a la vanguardia de la investigación en IA.

La primera versión de código que detalla el uso de RLHF en modelos de lenguaje llegó en 2019 de la mano de OpenAI⁴, que lanzó InstructGPT entrenado por RLHF a principios de 2022.⁵ Este fue un paso crucial para cerrar la brecha entre el GPT-3 y el GPT-3.5-turbo; modelos que impulsaron el lanzamiento de ChatGPT.

Desde entonces, RLHF se ha utilizado en la formación de LLM de última generación de OpenAI, DeepMind, Google⁶ y Anthropic.⁷

Cree flujos de trabajo de IA responsables con gobernanza de IA

Descubra los componentes básicos y las buenas prácticas para ayudar a sus equipos a acelerar la IA responsable.

Contenido relacionado

Regístrese para recibir la guía sobre modelos fundacionales

Cómo funciona el aprendizaje por refuerzo

Conceptualmente, el aprendizaje por refuerzo (RL) tiene como objetivo emular la forma en que aprenden los seres humanos: los agentes de IA aprenden de manera holística a través de prueba y error, motivados por fuertes incentivos para tener éxito.

Para poner en práctica esa estrategia, un marco matemático para reforzar el aprendizaje comprende los siguientes componentes:

Espacio de estados

El espacio de estados es toda la información disponible sobre la tarea en cuestión que es relevante para las decisiones que pueda tomar el agente de IA, incluidas las variables conocidas y desconocidas. El espacio de estados suele cambiar con cada decisión que toma el agente.

Espacio de acción

El espacio de acción contiene todas las decisiones que podría tomar el agente de IA. En el contexto de un juego de mesa, por ejemplo, el espacio de acción es discreto y está bien definido: consiste en todos los movimientos legales disponibles para el jugador de IA en un momento dado. En el contexto de la generación de texto, el espacio de acción es enorme y comprende todo el "vocabulario" de los tokens disponibles para un LLM.

Función de recompensa

La recompensa es la medida del éxito o el progreso que incentiva al agente de IA. En algunos casos, como en los juegos de mesa, definir el éxito (en este caso, ganar la partida) es objetivo y sencillo. Pero cuando la definición de "éxito" es vaga, diseñar una función de recompensa efectiva puede ser un desafío significativo. En un marco matemático, esta retroalimentación debe traducirse en una señal de recompensa: una cuantificación escalar de comentarios positivos (o negativos).

Restricciones

La función de recompensa podría complementarse con penalizaciones (recompensas negativas) por acciones que se consideren contraproducentes para la tarea en cuestión. Por ejemplo, una empresa podría querer prohibir que un chatbot utilice lenguaje vulgar u obsceno; un modelo de coche autónomo podría ser penalizado por colisiones o desvío fuera de un carril.

Política

Una política es, esencialmente, la estrategia o el "proceso de pensamiento" que impulsa el comportamiento de un agente de IA. En términos matemáticos sencillos, una política ("π") es una función que toma un estado ("s") como entrada y devuelve una acción("a"): π (s) →a .

El objetivo de un algoritmo RL es optimizar una política para obtener la máxima recompensa. En el aprendizaje de refuerzo profundo, la política se representa como una red neuronal que se actualiza continuamente, según la función de recompensa, durante el proceso de entrenamiento. El agente de IA aprende de la experiencia, al igual que los humanos.

Aunque la RL convencional ha logrado impresionantes resultados en el mundo real en muchos campos, puede tener dificultades para construir eficazmente una función de recompensa para tareas complejas en las que es difícil establecer una definición clara de éxito. La principal ventaja de RLHF es su capacidad para captar matices y subjetividad mediante el uso de comentarios humanos positivos en lugar de objetivos formalmente definidos.

RLHF para grandes modelos lingüísticos

Una de las aplicaciones más destacadas de RLHF ha sido mejorar la relevancia, la precisión y la ética de los LLM, especialmente para su uso como chatbots.

Los LLM, como todos los modelos de IA generativa, tienen como objetivo replicar la distribución de probabilidad de los datos de entrenamiento. Si bien los avances recientes han fomentado el uso de los LLM como motores para los chatbots, o incluso como motores de razonamiento para la IA de uso general, estos modelos de lenguaje simplemente utilizan patrones aprendidos de sus datos de entrenamiento para predecir las siguientes palabras en una secuencia determinada que se inicia con un prompt. A nivel fundamental, estos modelos en realidad no responden a un prompt: le añaden texto. 

Sin instrucciones muy específicas, los modelos de lenguaje tienen poca capacidad para comprender la intención del usuario. Aunque el prompt engineering puede ayudar a proporcionar el contexto necesario para que un LLM adapte su respuesta a las necesidades de un usuario, no es práctico exigir una ingeniería rápida para cada intercambio con un chatbot.

Además, mientras que los LLM listos para usar se han entrenado con métodos convencionales para producir resultados gramaticalmente coherentes, entrenar a los LLM para que produzcan "buenos"resultados es un problema enigmático. Conceptos como la verdad, la utilidad, la creatividad o incluso lo que hace que un fragmento de código sea ejecutable dependen mucho más del contexto que los significados de las palabras y la estructura lingüística.

Para conseguir que los modelos lingüísticos sean mejores en cuanto a interacción humana, los científicos de datos recurrieron al aprendizaje por refuerzo con comentarios humanos. Los modelos InstructGPT mejorados con RLHF superaron significativamente a sus predecesores GPT-3, sobre todo en cuanto a seguir instrucciones, mantener la precisión de los hechos y evitar las alucinaciones del modelo.⁵ Del mismo modo, la investigación publicada por OpenAI tras el lanzamiento de GPT-4 mostró que RLHF duplicó la precisión en las preguntas adversarias.⁸

Los beneficios de RLHF pueden incluso reemplazar el valor de los conjuntos de datos de entrenamiento más grandes, lo que permite un desarrollo de modelos más eficiente en cuanto a los datos: OpenAI señaló que sus etiquetadores preferían los resultados de la versión de 1.3B de parámetros de InstructGPT sobre los resultados pares de la versión de 175B de parámetros de GPT-3.⁵

¿Cómo funciona RLHF?

El entrenamiento de un LLM con RLHF suele ocurrir en cuatro fases:

Modelos de preentrenamiento

RLHF se emplea generalmente para afinar y optimizar un modelo preentrenado, más que como método de entrenamiento integral. Por ejemplo, InstructGPT utilizó RLHF para mejorar el modelo GPT preexistente, es decir, el modelo de transformador generativo preentrenado . En su anuncio de lanzamiento de InstructGPT, OpenAI declaró que "una forma de pensar en este proceso es que 'desbloquea' capacidades que GPT-3 ya tenía, pero que eran difíciles de obtener solo a través de la ingeniería rápida".⁵

El entrenamiento previo sigue siendo, con diferencia, la fase más intensiva de recursos de RLHF. OpenAI señaló que el proceso de formación RLHF para InstructGPT implicó menos del 2 por ciento del cálculo y los datos necesarios para la formación previa de GPT-3.

Ajuste fino supervisado

Antes del inicio del aprendizaje explícito de refuerzo, se utiliza el ajuste preciso supervisado (SFT) para preparar el modelo para generar sus respuestas en el formato esperado por los usuarios.

Como ya se ha mencionado, el proceso de preentrenamiento del LLM optimiza los modelos para la finalización: predecir las siguientes palabras de una secuencia iniciada con las indicaciones del usuario replicando los patrones lingüísticos aprendidos durante el preentrenamiento del modelo. A veces, los LLM no completan una secuencia de la manera que el usuario desea: por ejemplo, si la pregunta del usuario es "enséñame a hacer un currículum", el LLM podría responder "usando Microsoft Word". Es una forma válida de completar la frase, pero no está alineada con el objetivo del usuario.

Por ello, SFT utiliza el aprendizaje supervisado para entrenar modelos para responder adecuadamente a diferentes tipos de indicaciones. Los expertos humanos crean ejemplos etiquetados, siguiendo el formato (prompt, respuesta), para demostrar cómo responder a prompts para diferentes casos de uso, como respuesta a preguntas, resúmenes o traducción.

Estos datos de demostración, aunque potentes, son lentos y caros de generar. En lugar de crear nuevos ejemplos personalizados, DeepMind introdujo el enfoque de "aplicar una heurística de filtrado basada en un formato de diálogo escrito común (estilo 'transcripción de entrevistas')” para aislar pares de ejemplos de pregunta/respuesta adecuados dentro de su conjunto de datos MassiveWeb .⁹

Entrenamiento del modelo de recompensa

Para que la retroalimentación humana potencie una función de recompensa en el aprendizaje por refuerzo, se necesita un modelo de recompensa para traducir la preferencia humana en una señal numérica de recompensa. El diseño de un modelo de recompensa eficaz es un paso crucial en RLHF, ya que no existe una fórmula matemática o lógica sencilla para definir de forma factible los valores humanos subjetivos.

El objetivo principal de esta fase es proporcionar al modelo de recompensa suficientes datos de entrenamiento, compuestos por comentarios directos de evaluadores humanos, para ayudar al modelo a aprender a imitar la forma en que las preferencias humanas asignan recompensas a diferentes tipos de respuestas del modelo. Esto permite que la capacitación continúe fuera de línea sin que haya un ser humano al tanto.

Un modelo de recompensa debe ingerir una secuencia de texto y emitir un valor de recompensa escalar que prediga, numéricamente, cuánto recompensaría (o penalizaría) ese texto un usuario humano. Este producto es un valor escalar y es esencial para que el producto del modelo de recompensa se integre con otros componentes del algoritmo RL.

Si bien puede parecer más intuitivo simplemente hacer que los evaluadores humanos expresen su opinión sobre cada respuesta del modelo de forma escalar (como calificar la respuesta en una escala del uno (peor) al diez (mejor), es prohibitivamente difícil lograr que todos los evaluadores humanos se alineen en el valor relativo de una puntuación determinada, y mucho menos lograr que los evaluadores humanos se alineen sobre lo que constituye una respuesta “buena” o “mala”. Esto puede hacer que la clasificación escalar directa sea variopinta y difícil de calibrar.

En cambio, un sistema de calificación generalmente se construye comparando la retroalimentación humana para diferentes resultados del modelo. Un método habitual consiste en pedir a los usuarios que comparen dos secuencias de texto análogas -como el resultado de dos modelos lingüísticos diferentes que responden a la misma pregunta- en enfrentamientos directos y, a continuación, utilizar un sistema de clasificación Elo para generar una clasificación global de cada fragmento de texto generado en relación con el otro. Un sistema sencillo podría permitir a los usuarios dar un "pulgar arriba" o un "pulgar abajo" a cada resultado, clasificándolos en función de su preferencia relativa. Los sistemas más complejos podrían pedir a los etiquetadores que proporcionaran una calificación general y respondieran a preguntas categóricas sobre los defectos de cada respuesta, y luego sumaran algorítmicamente esta retroalimentación en una puntuación de calidad ponderada.

Los resultados de los sistemas de clasificación se normalizan en última instancia en una señal de recompensa escalar para informar al entrenamiento del modelo de recompensas.

Optimización de políticas

El último obstáculo de RLHF es determinar cómo y cuánto se debe utilizar el modelo de recompensa para actualizar la política del agente de IA. Uno de los algoritmos más exitosos utilizados para la función de recompensa que actualiza los modelos RL es la optimización proximal de políticas (PPO).

A diferencia de la mayoría de arquitecturas de modelos de machine learning y de redes neuronales, que utilizan el descenso de gradiente para minimizar su función de pérdida y producir el error más pequeño posible, los algoritmos de aprendizaje de refuerzo suelen utilizar el gradiente de ascenso para maximizar la recompensa.

Sin embargo, si la función de recompensa se utiliza para entrenar el LLM sin ningún control, el modelo lingüístico puede cambiar drásticamente sus pesos hasta el punto de producir un galimatías en un esfuerzo por "jugar" con el modelo de recompensa. PPO proporciona un medio más estable para actualizar la política del agente de IA limitando cuánto se puede actualizar la política en cada iteración de formación.

En primer lugar, se crea una copia del modelo inicial y se congelan sus pesos entrenables. El algoritmo PPO calcula un intervalo de [1-ε, 1+ε], en el que ε es un hiperparámetro que determina aproximadamente hasta qué punto se permite que la nueva política (actualizada) se desvíe de la antigua (congelada). Luego, calcula una relación de probabilidad: la relación entre la probabilidad de que la política anterior tome una acción determinada y la probabilidad de que la política nueva tome esa acción. Si la relación de probabilidad es superior a1+ε (o inferior a1-ε), la magnitud de la actualización de la política puede recortarse para evitar cambios bruscos que puedan desestabilizar todo el modelo.

La introducción de la PPO supuso una alternativa atractiva a su predecesora, la optimización de políticas de región de confianza (TRPO), que ofrece beneficios similares, pero es más complicada y costosa desde el punto de vista computacional que la PPO. Si bien otros marcos de optimización de políticas, como Advantage Actor-Critic (A2C), también son viables, a menudo se prefiere la PPO como una metodología simple y rentable.

Limitaciones de RLHF

Aunque los modelos RLHF han demostrado resultados impresionantes en el entrenamiento de agentes de IA para tareas complejas, desde robótica y videojuegos hasta PNL, el uso de RLHF no está exento de limitaciones.

Los datos de preferencias humanas son caros. La necesidad de recopilar información humana de primera mano puede crear un costoso cuello de botella que limita la escalabilidad del proceso de RLHF. Tanto Anthropic¹⁰ como Google¹¹ han propuesto métodos de aprendizaje por refuerzo a partir de la retroalimentación de la IA (RLAIF), que sustituyen parte o la totalidad de la retroalimentación humana haciendo que otro LLM evalúe las respuestas del modelo, lo que ha arrojado resultados comparables a los de la RLHF.

La intervención humana es muy subjetiva. Es difícil, si no imposible, establecer un consenso firme sobre lo que constituye un resultado de "alta calidad", ya que los anotadores humanos a menudo no solo no estarán de acuerdo en hechos supuestos, sino también en el comportamiento del modelo "apropiado". Por lo tanto, el desacuerdo humano impide la realización de una verdadera "verdad absoluta" contra la cual el rendimiento del modelo puede juzgarse.

Los evaluadores humanos pueden ser falibles o incluso intencionadamente adversarios y maliciosos. Ya sea como reflejo de opiniones contrarias genuinas o como trolling intencionado del proceso de aprendizaje, la orientación humana del modelo no siempre se proporciona de buena fe. En un artículo de 2016, Wolf y otros postularon que el comportamiento tóxico debería ser una expectativa fundamental de las interacciones entre humanos y robots y sugirieron la necesidad de un método para evaluar la credibilidad de los aportes humanos.¹² En 2022, Meta AI publicó un artículo sobre la participación de personas contrarias (enlace externo a ibm.com) en el que se estudiaban métodos automatizados "para obtener la máxima eficiencia de aprendizaje a partir de datos de alta calidad y, al mismo tiempo, ofrecer la máxima solidez frente a datos contradictorios y de baja calidad". El documento identifica varios arquetipos "troll" y las diferentes formas en que distorsionan los datos de comentarios.

RLHF corre el riesgo de sobreajuste y sesgo.Si las opiniones de las personas proceden de un grupo demográfico demasiado reducido, el modelo puede presentar problemas de rendimiento cuando lo utilicen grupos diferentes o cuando se trate de temas sobre los que los evaluadores humanos tengan ciertos prejuicios.

Soluciones relacionadas

watsonx.ai

Entrenar, validar, ajustar e implementar IA generativa, modelos fundacionales y capacidades de aprendizaje automático con facilidad y crear aplicaciones de IA en una fracción del tiempo con una fracción de los datos.

Explore watsonx.ai

Recursos de RLHF

Primeros pasos con las API de aprendizaje por refuerzo en línea

Esta ruta de aprendizaje proporciona una visión general del aprendizaje automatizado de refuerzo y demuestra el uso de IA automatizada para API de toma de decisiones para respaldar casos de uso de aprendizaje de refuerzo general en línea.

Entrene a un agente de software para que se comporte racionalmente con aprendizaje por refuerzo

Aprenda la historia y los principios esenciales del aprendizaje por refuerzo y, a continuación, construya una demostración sencilla utilizando la técnica "Q learning". Incluye implementación de muestra.

Cómo IBM Consulting aporta un enfoque valioso y responsable a la IA

En la primera y segunda parte de esta serie de tres partes, vimos definiciones y casos de uso de IA generativa. Esta entrega explora el enfoque que adopta IBM Consulting cuando se embarca en proyectos de IA.

Dé el siguiente paso

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para constructores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai

Solicite una demostración en directo

Notas a pie de página