¿Qué es el aprendizaje de refuerzo?

25 de marzo de 2024

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

En el aprendizaje por refuerzo, un agente aprende a tomar decisiones interactuando con un entorno. Se utiliza en robótica y otros entornos de toma de decisiones.

El aprendizaje por refuerzo (RL) es un tipo de proceso de machine learning que se centra en la toma de decisiones por parte de agentes autónomos. Un agente autónomo es cualquier sistema que puede tomar decisiones y actuar en respuesta a su entorno independientemente de las instrucciones directas de un usuario humano. Los robots y los coches autónomos son ejemplos de agentes autónomos. En el aprendizaje por refuerzo, un agente autónomo aprende a realizar una tarea por ensayo y error en ausencia de cualquier orientación por parte de un usuario humano¹. Aborda especialmente los problemas de toma de decisiones secuenciales en entornos inciertos, y se muestra prometedor en el desarrollo de la inteligencia artificial.

Aprendizaje supervisado y aprendizaje no supervisado

La literatura a menudo contrasta el aprendizaje por refuerzo con el aprendizaje supervisado y no supervisado. El aprendizaje supervisado utiliza datos etiquetados de forma manual para producir predicciones o clasificaciones. El aprendizaje no supervisado tiene como objetivo descubrir y aprender patrones ocultos a partir de datos no etiquetados. A diferencia del aprendizaje supervisado, el aprendizaje por refuerzo no utiliza ejemplos etiquetados de comportamiento correcto o incorrecto. Pero el aprendizaje por refuerzo también se diferencia del aprendizaje no supervisado en que el primero aprende por ensayo y error y por función de recompensa en lugar de extraer información de patrones ocultos².

Los métodos de aprendizaje supervisado y no supervisado suponen que cada registro de datos de entrada es independiente de otros registros del conjunto de datos, pero que cada registro actualiza un modelo común subyacente de distribución de datos. Estos métodos aprenden a predecir con el rendimiento del modelo medido de acuerdo con la maximización de la precisión de la predicción.

En cambio, el aprendizaje por refuerzo aprende a actuar. Asume que los datos de entrada son tuplas interdependientes, es decir, una secuencia ordenada de datos, organizada como estado-acción-recompensa. Muchas aplicaciones de los algoritmos de aprendizaje por refuerzo pretenden imitar los métodos de aprendizaje biológico del mundo real mediante el refuerzo positivo.

Tenga en cuenta que, aunque los dos no se comparan a menudo en la literatura, el aprendizaje por refuerzo también es distinto del aprendizaje autosupervisado. Este último es una forma de aprendizaje no supervisado que utiliza pseudoetiquetas derivadas de datos de entrenamiento no etiquetados como verdad de base para medir la precisión del modelo. Sin embargo, el aprendizaje por refuerzo no produce pseudoetiquetas ni mide en función de una verdad fundamental: no es un método de clasificación, sino un aprendiz de acciones. Sin embargo, ambos se han combinado con resultados prometedores³.

Las últimas noticias + conocimientos de IA  

Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think.

Suscríbase hoy

Proceso de aprendizaje por refuerzo

El aprendizaje por refuerzo consiste esencialmente en la relación entre un agente, el entorno y el objetivo. La literatura formula ampliamente esta relación en términos del proceso de decisión de Markov (MDP).

Proceso de decisión de Markov

El agente de aprendizaje por refuerzo aprende sobre un problema al interactuar con su entorno. El entorno proporciona información sobre su estado actual. A continuación, el agente utiliza esa información para determinar qué acciones tomar. Si esa acción obtiene una señal de recompensa del entorno, se anima al agente a repetirla cuando se encuentre en un estado futuro similar. Este proceso se repite para cada nuevo estado a partir de entonces. Con el tiempo, el agente aprende de las recompensas y los castigos para tomar medidas dentro del entorno que cumplan un objetivo específico⁴.

En los procesos de decisión de Markov, el espacio de estados se refiere a toda la información proporcionada por el estado de un entorno. El espacio de acción denota todas las acciones posibles que el agente puede realizar dentro de un estado⁵.

El equilibrio entre exploración y explotación

Dado que un agente de RL no tiene datos de entrada etiquetados manualmente que guíen su comportamiento, debe explorar su entorno, intentando nuevas acciones para descubrir las que reciben recompensas. A partir de estas señales de recompensa, el agente aprende a preferir acciones por las que fue recompensado para maximizar su ganancia. Pero el agente también debe seguir explorando nuevos estados y acciones. Al hacerlo, puede luego utilizar esa experiencia para mejorar su toma de decisiones.

Por tanto, los algoritmos de RL requieren que un agente explote el conocimiento de estados-acciones previamente recompensados y explore otros estados-acciones. El agente no puede dedicarse en exclusiva a la exploración o explotación. Debe probar continuamente nuevas acciones y, al mismo tiempo, preferir acciones únicas (o cadenas de) que produzcan la mayor recompensa acumulativa⁶.

Componentes del aprendizaje por refuerzo

Más allá del triunvirato agente-entorno-objetivo, cuatro subelementos principales caracterizan los problemas de aprendizaje por refuerzo.

- Política. Esto define el comportamiento del agente de RL mapeando los estados ambientales percibidos a acciones específicas que el agente debe tomar cuando se encuentra en esos estados. Puede adoptar la forma de una función rudimentaria o de un proceso computacional más complejo. Por ejemplo, una política que guíe un vehículo autónomo puede asignar la detección de peatones a una acción de parada.

- Señal de recompensa. Designa el objetivo del problema de RL. Cada una de las acciones del agente RL recibe o no una recompensa del entorno. El único objetivo del agente es maximizar sus recompensas acumulativas del entorno. Para los vehículos autónomos, la señal de recompensa puede ser reducir el tiempo de viaje, disminuir las colisiones, permanecer en la carretera y en el carril adecuado, evitar aceleraciones extremas, etc. Este ejemplo muestra que RL puede incorporar múltiples señales de recompensa para guiar a un agente.

- Función de valor. La señal de recompensa difiere de la función de valor en que la primera denota un beneficio inmediato, mientras que la segunda especifica un beneficio a largo plazo. El valor se refiere a la conveniencia de un estado por todos los estados (con sus recompensas) que probablemente le sigan. Un vehículo autónomo puede reducir el tiempo de viaje si se sale de su carril, circula por el arcén y acelera rápidamente, pero estas tres últimas acciones pueden reducir su función de valor global. Por lo tanto, el vehículo como agente de RL puede intercambiar un tiempo de viaje marginalmente más largo para aumentar su recompensa en las últimas tres áreas.

- Modelo. Este es un subelemento opcional de los sistemas de aprendizaje por refuerzo. Los modelos permiten a los agentes predecir el comportamiento del entorno para posibles acciones. A continuación, los agentes utilizan las predicciones del modelo para determinar posibles líneas de actuación en función de los resultados potenciales. Este puede ser el modelo que guíe al vehículo autónomo y le ayude a predecir las mejores rutas, qué esperar de los vehículos circundantes dada su posición y velocidad, etc.⁷ Algunos enfoques basados en modelos utilizan el feedback humano directo en el aprendizaje inicial y luego pasan al aprendizaje autónomo.

Mixture of Experts | Pódcast

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Ver los episodios

Aprendizaje en línea frente a aprendizaje fuera de línea

Hay dos métodos generales por los que un agente recopila datos para políticas de aprendizaje:

- En línea. En este caso, un agente recopila datos directamente al interactuar con el entorno que lo rodea. Estos datos se procesan y recopilan de forma iterativa a medida que el agente sigue interactuando con ese entorno.

- Sin conexión. Cuando un agente no tiene acceso directo a un entorno, puede aprender a través de los datos registrados de ese entorno. Esto se conoce como aprendizaje sin conexión. Un gran subconjunto de investigaciones se ha volcado en el aprendizaje sin conexión debido a las dificultades prácticas para entrenar modelos a través de la interacción directa con los entornos⁸.

Tipos de aprendizaje por refuerzo

El aprendizaje por refuerzo es un área de investigación vibrante y en curso, y como tal, los desarrolladores han producido una miríada de enfoques para el aprendizaje por refuerzo. No obstante, tres métodos de aprendizaje por refuerzo muy debatidos y fundamentales son la programación dinámica, el monte carlo y el aprendizaje por diferencia temporal.

Programación dinámica

La programación dinámica descompone las tareas más grandes en tareas más pequeñas. Así, modela los problemas como flujos de trabajo de decisiones secuenciales tomadas en pasos temporales discretos. Cada decisión se toma en función del posible siguiente estado resultante. La recompensa de un agente (r) por una acción determinada se define en función de esa acción (a), de los estados ambientales actualess y de los posibles siguientes estados s':

Esta función de recompensa se puede utilizar como (parte de) la política que rige las acciones de un agente. Determinar la política óptima para el comportamiento de los agentes es un componente principal de los métodos de programación dinámica para el aprendizaje por refuerzo. Introduzca la ecuación de Bellman.

La ecuación de Bellman es

En resumen, esta ecuación define v_t(s) como la recompensa total esperada desde el momento t hasta el final de un flujo de trabajo de decisión. Supone que el agente comienza ocupando el estado s en el tiempo t. En última instancia, la ecuación divide la recompensa en el momento t en la recompensa inmediata r_t(s,a) (es decir, la fórmula de recompensa) y la recompensa total esperada del agente. De este modo, un agente maximiza su función de valor (que es el valor total de la ecuación de Bellman) al elegir sistemáticamente la acción que recibe una señal de recompensa en cada estado⁹.

Método Monte Carlo

La programación dinámica se basa en modelos, lo que significa que construye un modelo de su entorno para percibir las recompensas, identificar patrones y navegar por el entorno. Sin embargo, Montecarlo asume un entorno de caja negra, por lo que no tiene modelos.

Mientras que la programación dinámica predice posibles estados futuros y señales de recompensa en la toma de decisiones, los métodos de Montecarlo se basan exclusivamente en la experiencia, lo que significa que muestrean secuencias de estados, acciones y recompensas únicamente a través de la interacción con el entorno. Así pues, los métodos de Montecarlo aprenden mediante ensayo y error en lugar de mediante distribuciones probabilísticas.

Montecarlo se diferencia aún más de la programación dinámica en la determinación de funciones de valor. La programación dinámica busca la mayor recompensa acumulada mediante la selección sistemática de acciones recompensadas en estados sucesivos. Montecarlo, por el contrario, calcula la media de los rendimientos de cada par estado-acción. Esto, a su vez, significa que el método de Montecarlo debe esperar a que se hayan completado todas las acciones de un episodio (u horizonte de planificación) determinado antes de calcular su función de valores y, a continuación, actualizar su política¹⁰.

Aprendizaje por diferencia temporal

La literatura describe ampliamente el aprendizaje por diferencias temporales (DT) como una combinación de programación dinámica y Montecarlo. Como en el primer caso, DT actualiza su política y, por lo tanto, las estimaciones para los estados futuros, después de cada paso sin esperar al valor final. Sin embargo, al igual que en Montecarlo, DT aprende a través de la interacción bruta con su entorno en lugar de utilizar un modelo del mismo¹¹.

Según su nombre, el agente de aprendizaje DT revisa su política en función de la diferencia entre las recompensas previstas y las reales recibidas en cada estado. Es decir, mientras que la programación dinámica y Montecarlo solo consideran la recompensa recibida, DT sopesa aún más la diferencia entre su expectativa y la recompensa recibida. Con esta diferencia, el agente actualiza sus estimaciones para el siguiente paso sin esperar al horizonte de planificación de eventos, en contra de Monte carlo¹².

El modelo DT tiene muchas variantes. Dos destacadas son estado–acción–recompensa–estado–acción (SARSA) y el aprendizaje Q. El SARSA es un método de DT basado en la política, lo que significa que evalúa e intenta mejorar su política de gobierno de toma de decisiones. El Q-learning no se ajusta a la política. Los métodos que no se ajustan a la política son aquellos que utilizan dos políticas: una para la explotación (política objetivo) y otra para la exploración para generar comportamiento (política de comportamiento)¹³.

Métodos adicionales

Existe una gran cantidad de métodos adicionales de aprendizaje por refuerzo. La programación dinámica es un método basado en valores, lo que significa que selecciona las acciones en función de sus valores estimados según una política que pretende maximizar su función de valor. Por el contrario, los métodos de gradiente de políticas aprenden una política parametrizada que puede seleccionar acciones sin consultar una función de valor. Estas se denominan basadas en políticas y se consideran más efectivas en entornos de alta dimensión¹⁴.

Los métodos actor-crítico se basan tanto en los valores como en las políticas. El llamado "actor" es un gradiente de políticas que determina qué acciones tomar, mientras que el "crítico" es una función de valor para evaluar acciones. Los métodos actor-crítico son, en esencia, una forma de DT. En concreto, el actor-crítico evalúa el valor de una acción determinada basándose no solo en su propia recompensa, sino en el posible valor del siguiente estado, que suma a la recompensa de la acción. La ventaja del actor-crítico es que, debido a la implementación de una función de valor y una política en la toma de decisiones, requiere efectivamente menos interacción con el entorno¹⁵.

Ejemplos de aprendizaje por refuerzo

Robótica

Dado que el aprendizaje por refuerzo se ocupa fundamentalmente de la toma de decisiones en entornos impredecibles, ha sido un área de interés central en la robótica. Para realizar tareas simples y repetitivas, la toma de decisiones puede ser sencilla. Pero tareas más complicadas, como los intentos de simular el comportamiento humano o automatizar la conducción, implican la interacción con entornos del mundo real altamente variables y mutables. Las investigaciones muestran que el aprendizaje por refuerzo profundo con redes neuronales profundas ayuda a estas tareas, especialmente con respecto a la generalización y la asignación de entradas sensoriales de alta dimensión a salidas de sistemas controlados¹⁶. Los estudios sugieren que el aprendizaje por refuerzo profundo con robots se basa en gran medida en los conjuntos de datos recopilados, por lo que trabajos recientes exploran las vías para recopilar datos del mundo real¹⁷ y reutilizar los datos anteriores¹⁸ para mejorar los sistemas de aprendizaje por refuerzo.

Procesamiento del lenguaje natural

Investigaciones recientes sugieren que el aprovechamiento de técnicas y herramientas de procesamiento del lenguaje natural (p. ej. modelos de lenguaje de gran tamaño o LLM) puede mejorar la generalización en sistemas de aprendizaje por refuerzo a través de la representación textual de entornos del mundo real¹⁹. Muchos estudios muestran cómo los entornos textuales interactivos proporcionan alternativas rentables a los entornos tridimensionales al instruir a los agentes de aprendizaje en tareas sucesivas de toma de decisiones²⁰. El aprendizaje por refuerzo profundo también sustenta la toma de decisiones textual en los chatbots. De hecho, el aprendizaje por refuerzo supera a otros métodos para mejorar la respuesta de diálogo de los chatbots²¹.

Cómo elegir el modelo fundacional adecuado

Aprenda a elegir el enfoque correcto en la preparación de conjuntos de datos y el empleo de modelos fundacionales.

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA

Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA

Recursos

IA en Acción 2024

Hemos encuestado a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo puede adelantarse.

Explore IBM Granite

IBM Granite es nuestra familia de modelos de IA abiertos, eficaces y de confianza, adaptados a la empresa y optimizados para escalar sus aplicaciones de IA. Explore las opciones de idioma, código, series de tiempo y salvaguardas.

Aumente sus conocimientos sobre IA

Acceda a nuestro catálogo completo de más de 100 cursos en línea al adquirir hoy mismo una suscripción individual o multiusuario, que le permitirá ampliar sus conocimientos en una amplia gama de nuestros productos a un precio reducido.

IBM AI Academy

Dirigido por los principales líderes de opinión de IBM, el plan de estudios está diseñado para ayudar a los líderes empresariales a conseguir el conocimiento necesario para priorizar las inversiones en IA que pueden impulsar el crecimiento.

Ponga la IA a trabajar: cómo impulsar el ROI con la IA generativa

¿Quiere obtener un mayor rendimiento de sus inversiones en IA? Descubra cómo escalar la IA generativa en áreas clave impulsa el cambio ayudando a sus mentes más brillantes a crear y ofrecer nuevas soluciones innovadoras.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el machine learning a su negocio.

Cómo prosperar en la era de la IA con seguridad y confianza

Profundice en los tres elementos cruciales de una estrategia de IA sólida: crear una ventaja competitiva, ampliar la IA en toda la empresa y promover una IA fiable.

Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai

Solicite una demostración en directo

Notas a pie de página

¹ Ian Goodfellow, Yoshua Bengio y Aaron Courville. Deep Learning. MIT Press. 2016.

² Peter Stone. “Reinforcement Learning”. Encyclopedia of Machine Learning and Data Mining. Springer. 2017.

³ Xiang Li, Jinghuan Shang, Srijan Das, Michael Ryoo. "Does Self-supervised Learning Really Improve Reinforcement Learning from Pixels?" Advances in Neural Information Processing Systems. Vol. 35. 2022. Pp. 30865-30881. https://proceedings.neurips.cc/paper_files/paper/2022/hash/c75abb33341363ee874a71f81dc45a3a-Abstract-Conference.html.

⁴ Richard Sutton y Andrew Barto. Introduction to Reinforcement Learning. 2^a edición. MIT Press. 2018. Michael Hu. The Art of Reinforcement Learning: Fundamentals, Mathematics, and Implementations with Python. Apress. 2023.

⁵ Brandon Brown y Alexander Zai. Deep Reinforcement Learning in Action. Manning Publications. 2020.

⁶ Richard Sutton y Andrew Barto. Introduction to Reinforcement Learning. 2^a edición. MIT Press. 2018.
Brandon Brown y Alexander Zai. Deep Reinforcement Learning in Action. Manning Publications. 2020.

⁷ Richard Sutton y Andrew Barto. Introduction to Reinforcement Learning. 2^a edición. MIT Press. 2018. B Ravi Kiran, Ibrahim Sobh, Victor Talpaert, Patrick Mannion, Ahmad A. Al Sallab, Senthil Yogamani y Patrick Pérez. "Deep Reinforcement Learning for Autonomous Driving: A Survey". IEEE Transactions on Intelligent Transportation Systems. Vol. 23. Nº. 6. 2022. Pp. 4909-4926. https://ieeexplore.ieee.org/document/9351818.

⁸ Sergey Levine, Aviral Kumar, George Tucker y Justin Fu. "Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems". 2020. https://arxiv.org/abs/2005.01643. Julian Schrittwieser, Thomas Hubert, Amol Mandhane, Mohammadamin Barekatain, Ioannis Antonoglou y David Silver. "Online and Offline Reinforcement Learning by Planning with a Learned Model". Advances in Neural Information Processing Systems. Vol. 34. 2021. Pp. 27580-27591. https://proceedings.neurips.cc/paper_files/paper/2021/hash/e8258e5140317ff36c7f8225a3bf9590-Abstract.html.

⁹ Martin Puterman y Jonathan Patrick. “Dynamic Programming”. Encyclopedia of Machine Learning and Data Mining. Springer. 2017.

¹⁰ Richard Sutton y Andrew Barto. Introduction to Reinforcement Learning. 2^a edición. MIT Press. 2018. Phil Winder. Reinforcement Learning: Industrial Applications of Intelligent Agents. O’Reilly. 2020.

¹¹ Richard Sutton y Andrew Barto. Introduction to Reinforcement Learning. 2^a edición. MIT Press. 2018.

¹² Michael Hu. The Art of Reinforcement Learning: Fundamentals, Mathematics, and Implementations with Python. Apress. 2023.

¹³ Richard Sutton y Andrew Barto. Introduction to Reinforcement Learning. 2^a edición. MIT Press. 2018.

¹⁴ Richard Sutton y Andrew Barto. Introduction to Reinforcement Learning. 2^a edición. MIT Press. 2018. Michael Hu. The Art of Reinforcement Learning: Fundamentals, Mathematics, and Implementations with Python. Apress. 2023.

¹⁵ Richard Sutton y Andrew Barto. Introduction to Reinforcement Learning. 2^a edición. MIT Press. 2018.

¹⁶ Julian Ibarz, Jie Tan, Chelsea Finn, Mrinal Kalakrishnan, Peter Pastor y Sergey Levine. "How to train your robot with deep reinforcement learning: lessons we have learned". The International Journal of Robotics Research. Vol. 40. 2021. Pp. 969-721. https://journals.sagepub.com/doi/full/10.1177/0278364920987859.

¹⁷ Saminda Wishwajith Abeyruwan, Laura Graesser, David B D’Ambrosio, Avi Singh, Anish Shankar, Alex Bewley, Deepali Jain, Krzysztof Marcin Choromanski y Pannag R Sanketi. "i-Sim2Real: Reinforcement Learning of Robotic Policies in Tight Human-Robot Interaction Loops". Actas de la 6.ª Conferencia sobre Aprendizaje de Robots. PMLR. Nº. 205. 2023. Pp. 212-224. https://proceedings.mlr.press/v205/abeyruwan23a.html.

¹⁸ Homer Rich Walke, Jonathan Heewon Yang, Albert Yu, Aviral Kumar, Jędrzej Orbik, Avi Singh y Sergey Levine. "Don’t Start From Scratch: Leveraging Prior Data to Automate Robotic Reinforcement Learning". Actas de la 6.ª Conferencia sobre Aprendizaje de Robots. PMLR. Nº. 205. 2023. 1652-1662. https://proceedings.mlr.press/v205/walke23a.html.

¹⁹ Nikolaj Goodger, Peter Vamplew, Cameron Foale y Richard Dazeley. "Language Representations for Generalization in Reinforcement Learning". Actas de la 13.ª Conferencia Asiática sobre Machine Learning. PMLR. Nº. 157. 2021. Pp. 390-405. https://proceedings.mlr.press/v157/goodger21a.html. Yuqing Du, Olivia Watkins, Zihan Wang, Cédric Colas, Trevor Darrell, Pieter Abbeel, Abhishek Gupta y Jacob Andreas. "Guiding Pretraining in Reinforcement Learning with Large Language Models". Actas de la 40.ª Conferencia Internacional sobre Machine Learning. PMLR. Nº. 202. 2023. Pp. 8657-8677. https://proceedings.mlr.press/v202/du23f.html. Kolby Nottingham, Prithviraj Ammanabrolu, Alane Suhr, Yejin Choi, Hannaneh Hajishirzi, Sameer Singh y Roy Fox. "Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling". Actas de la 40.ª Conferencia Internacional sobre Machine Learning. PMLR. 202. 2023. Pp. 26311-26325. https://proceedings.mlr.press/v202/nottingham23a.html.

²⁰ Ruoyao Wang y Peter Jansen and Marc-Alexandre Côté y Prithviraj Ammanabrolu. "ScienceWorld: Is your Agent Smarter than a 5th Grader?". Actas de la Conferencia sobre Métodos Empíricos en el Procesamiento del Lenguaje Natural 2022. 2022. Pp. 11279-11298. https://aclanthology.org/2022.emnlp-main.775/. Peter Jansen. "A Systematic Survey of Text Worlds as Embodied Natural Language Environments". Actas del 3er taller de Wordplay: Cuando el lenguaje se encuentra con los juegos. 2022. Pp. 1-15. https://aclanthology.org/2022.wordplay-1.1.

²¹ Paloma Sodhi, Felix Wu, Ethan R. Elenberg, Kilian Q Weinberger y Ryan Mcdonald. "On the Effectiveness of Offline RL for Dialogue Response Generation". Actas de la 40.ª Conferencia Internacional sobre Machine Learning. PMLR. Nº. 202. 2023. Pp. 32088-32104. https://proceedings.mlr.press/v202/sodhi23a.html. Siddharth Verma, Justin Fu, Sherry Yang y Sergey Levine. "CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement Learning". Actas de la Conferencia del Chapter Norteamericano de la Asociación de Lingüística Computacional 2022: Tecnologías del Lenguaje Humano. 2022. Pp. 4471-4491. https://aclanthology.org/2022.naacl-main.332/.