RLHF, también llamado aprendizaje por refuerzo a partir de las preferencias humanas, es especialmente adecuado para tareas con objetivos complejos, mal definidos o difíciles de especificar. Por ejemplo, sería poco práctico (o incluso imposible) que una solución algorítmica defina “divertido” en términos matemáticos, pero sería fácil para los humanos calificar los chistes generados por un modelo grande de lenguaje (LLM). Esa retroalimentación humana, sintetizada en una función de recompensa, podría utilizarse para mejorar las habilidades de redacción de chistes del LLM.
En un artículo de 2017, Paul F. Christiano, de OpenAI, junto con otros investigadores de OpenAI y DeepMind, detallaron el éxito de RLHF en el entrenamiento de modelos de IA para realizar tareas complejas como los juegos de Atari y la locomoción robótica simulada.1 Tras este avance, los videojuegos siguieron siendo un importante campo de pruebas para la RLHF: en 2019, los sistemas de IA entrenados por RLHF, como OpenAI Five y AlphaStar de DeepMind, habían derrotado a los mejores jugadores profesionales humanos en Dota 22 y StarCraft3, mucho más complejos, respectivamente.
Quizás lo más importante es que el documento de OpenAI de 2017 señaló que su metodología, en particular la introducción del algoritmo de optimización de políticas proximales (PPO) para actualizar las ponderaciones de los modelos, redujo en gran medida el coste de recopilar y sintetizar la retroalimentación humana necesaria. Esto allanó el camino para la eventual integración de RLHF con el campo del procesamiento del lenguaje natural (NLP), y los avances resultantes ayudaron a introducir tanto a los LLM como a RLHF a la vanguardia de la investigación en IA.
La primera versión de código que detalla el uso de RLHF en modelos de lenguaje llegó en 2019 de la mano de OpenAI4, que lanzó InstructGPT entrenado por RLHF a principios de 2022.5 Este fue un paso crucial para cerrar la brecha entre el GPT-3 y el GPT-3.5-turbo; modelos que impulsaron el lanzamiento de ChatGPT.
Desde entonces, RLHF se ha utilizado en la formación de LLM de última generación de OpenAI, DeepMind, Google6 y Anthropic.7