El RLHF, también llamado aprendizaje por refuerzo a partir de preferencias humanas, es especialmente adecuado para tareas con objetivos complejos, que están mal definidos o son difíciles de especificar. Por ejemplo, sería poco práctico (o incluso imposible) que una solución algorítmica definiera “divertido” en términos matemáticos, pero sería fácil para los humanos calificar los chistes generados por un modelo de lenguaje de gran tamaño (LLM). Esa retroalimentación humana, vertida en una función de recompensa, podría usarse para mejorar las habilidades de escritura de bromas de los LLM.
En un artículo de 2017, Paul F. Christiano, de OpenAI, junto con otros investigadores de OpenAI y DeepMind, detalló el éxito de RLHF en el entrenamiento de modelos de IA para realizar tareas intrincadas, como juegos de Atari y locomoción robótica simulada. 1 Ampliando este avance, los videojuegos continuaron siendo un importante campo de pruebas para RLHF: en 2019, los sistemas de IA entrenados por RLHF, como OpenAI Five y AlphaStar de DeepMind, habían derrotado a los mejores jugadores profesionales humanos en los mucho más complejos Dota22 yStarCraft3, respectivamente.
Quizás lo más importante es que el documento de OpenAI de 2017 señalaba que su metodología, en particular la introducción del algoritmo de optimización de política proximal (PPO) para actualizar las ponderaciones del modelo, reducía enormemente el costo de recopilar y verter la información humana necesaria. Esto allanó el camino para la integración final del RLHF con el campo del procesamiento de lenguaje natural (PLN), y los avances resultantes ayudaron a situar tanto a las LLM como al RLHF en la vanguardia de la investigación sobre IA.
La primera versión del código que detalla el uso del RLHF en modelos de lenguaje fue en 2019 y provenía de OpenAI4, quien lanzó InstructGPT entrenado con RLHF a principios de 2022.5 Este fue un paso crucial para cerrar la brecha entre GPT-3 y el GPT-3.5-turbo, los modelos que impulsaron el lanzamiento de ChatGPT.
Desde entonces, RLHF se ha utilizado en el entrenamiento de LLM de última generación de OpenAI, DeepMind, Google6 y Anthropic.7