¿Qué es el aprendizaje reforzado a partir de la retroalimentación humana (RLHF)?

Autores

Senior Staff Writer, AI Models

IBM Think

¿Qué es el RLHF?

El aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) es una técnica de aprendizaje automático en la que se entrena a un “modelo de recompensa” con retroalimentación humana directa y luego se utiliza para optimizar el rendimiento de un agente de inteligencia artificial a través del aprendizaje por refuerzo.

El RLHF, también llamado aprendizaje por refuerzo a partir de preferencias humanas, es especialmente adecuado para tareas con objetivos complejos, que están mal definidos o son difíciles de especificar. Por ejemplo, sería poco práctico (o incluso imposible) que una solución algorítmica definiera “divertido” en términos matemáticos, pero sería fácil para los humanos calificar los chistes generados por un modelo de lenguaje de gran tamaño (LLM). Esa retroalimentación humana, vertida en una función de recompensa, podría usarse para mejorar las habilidades de escritura de bromas de los LLM.

En un artículo de 2017, Paul F. Christiano, de OpenAI, junto con otros investigadores de OpenAI y DeepMind, detalló el éxito de RLHF en el entrenamiento de modelos de IA para realizar tareas intrincadas, como juegos de Atari y locomoción robótica simulada^.1 Ampliando este avance, los videojuegos continuaron siendo un importante campo de pruebas para RLHF: en 2019, los sistemas de IA entrenados por RLHF, como OpenAI Five y AlphaStar de DeepMind, habían derrotado a los mejores jugadores profesionales humanos en los mucho más complejos Dota²² y^StarCraft3, respectivamente.

Quizás lo más importante es que el documento de OpenAI de 2017 señalaba que su metodología, en particular la introducción del algoritmo de optimización de política proximal (PPO) para actualizar las ponderaciones del modelo, reducía enormemente el costo de recopilar y verter la información humana necesaria. Esto allanó el camino para la integración final del RLHF con el campo del procesamiento de lenguaje natural (PLN), y los avances resultantes ayudaron a situar tanto a las LLM como al RLHF en la vanguardia de la investigación sobre IA.

La primera versión del código que detalla el uso del RLHF en modelos de lenguaje fue en 2019 y provenía de OpenAI⁴, quien lanzó InstructGPT entrenado con RLHF a principios de 2022.⁵ Este fue un paso crucial para cerrar la brecha entre GPT-3 y el GPT-3.5-turbo, los modelos que impulsaron el lanzamiento de ChatGPT.

Desde entonces, RLHF se ha utilizado en el entrenamiento de LLM de última generación de OpenAI, DeepMind, Google⁶ y Anthropic.⁷

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

Cómo funciona el aprendizaje por refuerzo

Conceptualmente, el aprendizaje por refuerzo (RL) tiene como objetivo emular la forma en que aprenden los seres humanos: los agentes de IA aprenden de manera holística a través de prueba y error, motivados por fuertes incentivos para tener éxito.

Para poner en práctica esta estrategia, se requiere un marco matemático para el aprendizaje por refuerzo, que comprende los siguientes elementos:

Espacio de estado

El espacio de estado es toda la información disponible sobre la tarea que es relevante para las decisiones que el agente de IA puede tomar, incluidas las variables conocidas y desconocidas. El espacio de estado suele cambiar con cada decisión que toma el agente.

Espacio de acción

El espacio de acción contiene todas las decisiones que puede tomar el agente de IA. En el contexto de un juego de mesa, por ejemplo, el espacio de acción es discreto y está bien definido: consiste en todos los movimientos legales disponibles para el jugador de IA en un momento dado. En el contexto de la generación de texto, el espacio de acción es masivo, ya que integra todo el “vocabulario” de los tokens disponibles para un LLM.

Función de recompensa

La recompensa es la medida del éxito o el progreso que incentiva al agente de IA. En algunos casos, como en los juegos de mesa, definir el éxito (en este caso, ganar la partida) es objetivo y sencillo. Pero cuando la definición de “éxito” es confusa, diseñar una función de recompensa efectiva puede ser un desafío significativo.En un marco matemático, esta retroalimentación debe traducirse en una señal de recompensa: una cuantificación escalar de retroalimentación positiva (o negativa).

Restricciones

Una función de recompensa podría complementarse con sanciones (recompensas negativas) por acciones consideradas contraproducentes para la tarea en cuestión.Por ejemplo, una empresa podría querer prohibir a un chatbot el uso de blasfemias u otro lenguaje vulgar; un modelo de coche autoconducido puede ser penalizado por colisiones o por salirse de un carril.

Policy

Una política es, básicamente, la estrategia o “proceso de pensamiento” que impulsa el comportamiento de un agente AI .En términos matemáticos simples, una política (“π”) es una función que toma un estado (“s”) como entrada y devuelve una acción(“a”): π (s) →a .

El objetivo de un algoritmo de RL es optimizar una política para obtener una recompensa máxima. En el aprendizaje profundo por refuerzo, la política se representa como una red neural que se actualiza continuamente, según la función de recompensa, durante el proceso de capacitación. El agente de IA aprende de la experiencia, al igual que los humanos.

Si bien el RL convencional ha logrado resultados impresionantes en el mundo real en muchos campos, puede resultar difícil construir de manera efectiva una función de recompensa para tareas complejas donde es difícil establecer una definición clara de éxito. La principal ventaja del RLHF es su capacidad para capturar matices y subjetividad mediante el uso de comentarios positivos humanos en lugar de objetivos definidos formalmente.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Vea todos los episodios de Mixture of Experts

RLHF para los modelos de lenguaje de gran tamaño

Una de las aplicaciones más destacadas del RLHF ha sido mejorar la relevancia, precisión y ética de los LLM, sobre todo para su uso como chatbots.

Los LLM, como todos los modelos de IA generativa, tienen como objetivo replicar la distribución de probabilidad de los datos de entrenamiento. Aunque los recientes avances han dado lugar al uso de LLM como motores para chatbots, o incluso como motores de razonamiento para IA de propósito general, estos modelos de lenguaje simplemente utilizan patrones aprendidos de sus datos de entrenamiento para predecir las siguientes palabras en una secuencia dada es una indicación. En un nivel fundamental, estos modelos no responden realmente a una indicación: están agregando texto a ella.

Sin instrucciones muy específicas, los modelos de lenguaje tienen poca capacidad para comprender la intención del usuario. Aunque la ingeniería de indicaciones puede ayudar a proporcionar el contexto necesario para que un LLM responda a las necesidades de un usuario, no es práctico exigir ingeniería de indicaciones para cada intercambio con un chatbot.

Además, si bien los LLM innovadores han sido entrenados con métodos convencionales para producir resultados gramaticalmente coherentes, capacitar a los LLM para que produzcan resultados “buenos” es un problema enigmático.Conceptos como verdad, utilidad, creatividad o incluso lo que hace que un fragmento de código sea ejecutable dependen mucho más del contexto que el significado de las palabras y la estructura lingüística.

Para mejorar los modelos de lenguaje en la interacción humana, los científicos de datos recurrieron al aprendizaje por refuerzo a partir de la información humana. Los modelos de InstructGPT mejorados con RLHF superaron significativamente a sus predecesores GPT-3, particularmente en términos de seguir instrucciones, mantener la precisión de los hechos y evitar las alucinaciones del modelo.⁵ De igual manera, la investigación publicada por OpenAI al lanzar GPT-4 mostró que el RLHF duplicó la precisión en cuestiones adversas.⁸

Los beneficios del RLHF pueden incluso reemplazar el valor de conjuntos de datos de entrenamiento más grandes, lo que permite un desarrollo de modelos más eficiente en datos: OpenAI señaló que sus etiquetadoras preferían los resultados de la versión de parámetro 1.3B de InstructGPT en lugar de los de la versión 175B de GPT-3.⁵

¿Cómo funciona el RLHF?

El entrenamiento de un LLM con RLHF suele ocurrir en cuatro fases:

Modelos previos al entrenamiento

El RLHF generalmente se emplea para ajustar y optimizar un modelo previamente entrenado, en lugar de como un método de entrenamiento de extremo a extremo. Por ejemplo, InstructGPT utilizó RLHF para mejorar el GPT preexistente, es decir, el modelo de transformador generativo entrenado previamente. En su anuncio de lanzamiento de InstructGPT, OpenAI declaró que “una forma de pensar en este proceso es que 'desbloquea' capacidades que GPT-3 ya tenía, pero que eran difíciles de obtener solo a través de la ingeniería de indicaciones”.⁵

El entrenamiento previo sigue siendo, por mucho, la fase del RLHF que requiere más recursos. OpenAI observó que el proceso de entrenamiento de RLHF para InstructGPT implicó menos del 2 por ciento del cálculo y los datos necesarios para la capacitación previa de GPT-3.

Ajuste supervisado

Antes del inicio del aprendizaje por refuerzo explícito, se utiliza el ajuste supervisado (SFT) para preparar el modelo para generar sus respuestas en el formato que esperan los usuarios.

Como se mencionó anteriormente, el proceso de preentrenamiento de LLM optimiza los modelos para su finalización: la predicción de las siguientes palabras en una secuencia comenzó con la indicación del usuario al replicar los patrones lingüísticos aprendidos durante el preentrenamiento del modelo. A veces, los LLM no completan una secuencia de la manera que el usuario desea: por ejemplo, si el mensaje de un usuario es “enséñame cómo hacer un currículum”, el LLM podría responder con “con Microsoft Word”. Es una forma válida de completar la oración, pero no está alineada con el objetivo del usuario.

Por lo tanto, SFT utiliza el aprendizaje supervisado para entrenar a los modelos a fin de responder adecuadamente a diferentes tipos de mensajes. Los expertos humanos crean ejemplos etiquetados, siguiendo el formato (mensaje, respuesta), para demostrar cómo responder a mensajes para diferentes casos de uso, como respuesta a preguntas, resúmenes o traducción.

Estos datos de demostración, si bien son poderosos, requieren mucho tiempo y son costosos de generar.En lugar de crear nuevos ejemplos personalizados, DeepMind introdujo el enfoque de “aplicar una heurística de filtrado basada en un formato de diálogo escrito común (estilo 'transcripción de la entrevista')” para aislar pares de ejemplos de pregunta/respuesta adecuados dentro de su conjunto de datos MassiveWeb .⁹

Entrenamiento del modelo de recompensas

Para que la retroalimentación humana alimente una función de recompensa en el aprendizaje por refuerzo, se necesita un modelo de recompensa que traduzca la preferencia humana en una señal numérica de recompensa. Diseñar un modelo de recompensa eficaz es un paso crucial en el RLHF, ya que no existe una fórmula matemática u lógica directa para definir valores humanos subjetivos y factibles.

El objetivo principal de esta fase es proporcionar el modelo de recompensa con suficientes datos de entrenamiento, compuestos por comentarios directos de los evaluadores humanos, para ayudar al modelo a imitar la forma en que las preferencias humanas asignan recompensas a diferentes tipos de respuestas del modelo. Esto permite que el entrenamiento continúe fuera de línea sin que haya un ser humano al tanto.

Un modelo de recompensa debe ingerir una secuencia de texto y emitir un valor de recompensa escalar que prediga, numéricamente, cuánto recompensaría (o penalizaría) ese texto un usuario humano. El hecho de que el resultado sea un valor escalar es esencial para que el resultado del modelo de recompensa se integre con otros componentes del algoritmo RL.

Aunque pueda parecer más intuitivo pedir a los evaluadores humanos que expresen su opinión sobre cada respuesta del modelo de forma escalar (como calificar la respuesta en una escala de uno [peor] a diez [mejor]), es extremadamente difícil conseguir que todos los evaluadores humanos coincidan en el valor relativo de una puntuación dada, y mucho menos conseguir que los evaluadores humanos coincidan en lo que constituye una respuesta “buena” o “mala” en el vacío. Esto puede hacer que la clasificación escalar directa sea ruidosa y difícil de calibrar.

En cambio, un sistema de calificación generalmente se construye comparando la retroalimentación humana para diferentes resultados del modelo. Un método común es hacer que los usuarios comparen dos secuencias de texto análogas (como el resultado de dos modelos de lenguaje diferentes que responden al mismo mensaje) en enfrentamientos cara a cara, y luego usar un sistema de clasificación Elo para generar una clasificación agregada de cada bit de texto generado entre sí. Un sistema sencillo podría permitir a los usuarios “aceptar” o “rechazar” cada resultado, y los resultados se clasificarán por su relativa favorabilidad. Los sistemas más complejos podrían pedir a los etiquetadores que proporcionen una calificación general y respondan preguntas categóricas sobre los defectos de cada respuesta, luego agregar algorítmicamente esta retroalimentación en una puntuación de calidad ponderada.

Los resultados de cualquier sistema de clasificación se normalizan finalmente en una señal de recompensa escalar para informar el entrenamiento del modelo de recompensa.

Optimización de políticas

El obstáculo final del RLHF es determinar cómo se debe utilizar el modelo de recompensa para actualizar la política del agente de IA. Uno de los algoritmos más exitosos utilizados para la función de recompensa que actualiza los modelos de RL es la optimización de políticas cercanas (PPO).

A diferencia de la mayoría de las arquitecturas de modelos de aprendizaje automático y redes neuronales, que utilizan el descenso de gradiente para minimizar su función de pérdida y producir el menor error posible, los algoritmos de aprendizaje por refuerzo suelen utilizar el ascenso de gradiente para maximizar la recompensa.

Sin embargo, si la función de recompensa se utiliza para entrenar el LLM sin barreras de seguridad, el modelo de lenguaje puede cambiar dramáticamente sus ponderaciones hasta el punto de generar texto incomprensible en un esfuerzo por “jugar” con el modelo de recompensa. PPO proporciona un medio más estable para actualizar la política del agente de IA al limitar cuánto se puede actualizar la política en cada iteración de entrenamiento.

En primer lugar, se crea una copia del modelo inicial y sus ponderaciones entrenables se congelan. El algoritmo de PPO calcula un rango de [1-ε, 1+ε], en el que ε es un hiperparámetro que determina aproximadamente qué tan lejos se permite que la nueva política (actualizada) se desvíe de la política anterior (congelada).A continuación, calcula un cociente de probabilidades: el cociente entre la probabilidad de que una determinada acción sea llevada a cabo por la antigua política y la probabilidad de que esa acción sea llevada a cabo por la nueva política. Si la relación de probabilidad es superior a 1+ε (o inferior a -1ε), la magnitud de la actualización de la política puede recortarse para evitar cambios bruscos que puedan desestabilizar todo el modelo.

La introducción de PPO proporcionó una alternativa atractiva a su predecesora, la optimización de políticas de región de confianza (TRPO), que proporciona beneficios similares pero es más complicada y costosa que PPO desde el punto de vista computacional. Aunque también son viables otros marcos de optimización de políticas, como la ventaja actor-crítica (A2C), a menudo se favorece la PPO por ser una metodología sencilla y rentable.

Limitaciones del RLHF

Aunque los modelos de RLHF han demostrado resultados impresionantes en entrenamiento de agentes de IA para tareas complejas, desde robótica y videojuegos hasta NLP, el uso de RLHF no está libre de limitaciones.

Los datos sobre preferencias humanas son costosos. La necesidad de recopilar información humana de primera mano puede crear un costoso cuello de botella que limita la escalabilidad del proceso de RLHF. Tanto Anthropic¹⁰ como Google¹¹ han propuesto métodos de aprendizaje por refuerzo a partir de la retroalimentación de IA (RLAIF), reemplazando parte o toda la retroalimentación humana al hacer que otro LLM evalúe las respuestas del modelo, que han arrojado resultados comparables a los de RLHF.

El aporte humano es muy subjetivo. Es difícil, si no imposible, establecer un consenso firme sobre lo que constituye un resultado de “alta calidad”, ya que los anotadores humanos a menudo no estarán de acuerdo no solo en los supuestos hechos, sino también en lo que debería significar el comportamiento “apropiado” del modelo.Por lo tanto, el desacuerdo humano impide la realización de una “verdad fundamental” genuina contra la cual se puede juzgar el desempeño del modelo.

Los evaluadores humanos pueden ser falibles, o incluso intencionalmente adversarios y maliciosos. Ya sea que refleje perspectivas contrarias genuinas o que troleé intencionalmente el proceso de aprendizaje, la orientación humana al modelo no siempre se proporciona de buena fe. En un artículo de 2016, Wolf et al plantearon que el comportamiento tóxico debería ser una expectativa fundamental de las interacciones entre humanos y robots y sugirieron la necesidad de un método para evaluar la credibilidad de la información humana.¹² En 2022, Meta AI publicó un artículo sobre la información humana adversa estudiando métodos automatizados “para obtener la máxima eficiencia de aprendizaje a partir de datos de alta calidad, al mismo tiempo que se maximiza la robustez frente a datos adversos y de baja calidad”. El artículo identifica varios arquetipos de “trolls” y las diferentes formas en que distorsionan los datos de retroalimentación.

El RLHF corre el riesgo de sobreajuste y sesgo. Si la retroalimentación humana se obtiene de un grupo demográfico demasiado estrecho, el modelo puede demostrar problemas de desempeño cuando lo utilizan diferentes grupos o se le hacen solicitudes sobre temas para los cuales los evaluadores humanos tienen ciertos sesgos.

Ciencia de datos y MLOps para líderes de datos

Una fuerzas con otros líderes para impulsar los tres pilares esenciales de MLOps y la IA confiable: confianza en los datos, confianza en los modelos y confianza en los procesos.

Recursos

Amplíe sus conocimientos de aprendizaje automático (ML)

Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Explicación del machine learning

Techsplainers de IBM desglosa los fundamentos del machine learning, desde conceptos clave hasta casos de uso del mundo real. Los episodios claros y rápidos le ayudan a aprender los fundamentos rápidamente.

Ponga la IA a trabajar: Impulso del retorno de la inversión (ROI) con IA generativa

¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Explorar IBM Granite

IBM Granite es nuestra familia de modelos de IA abiertos, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.

Cómo prosperar en esta nueva era de la IA con confianza y seguridad

Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA

Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA

Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.