Qué es el aprendizaje por refuerzo

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

¿Qué es el aprendizaje por refuerzo?

El aprendizaje por refuerzo (RL) es un tipo de proceso de machine learning en el que los agentes autónomos aprenden a tomar decisiones interactuando con su entorno.

Un agente autónomo es cualquier sistema que puede tomar decisiones y actuar en respuesta a su entorno independientemente de las instrucciones directas de un usuario humano. Los robots y los automóviles autónomos son ejemplos de agentes autónomos.

En el aprendizaje por refuerzo, un agente autónomo aprende a realizar una tarea por prueba y error en ausencia de cualquier guía de un usuario humano. 1 Aborda particularmente los problemas de toma de decisiones secuenciales en entornos inciertos y se muestra prometedor en el desarrollo de inteligencia artificial .

Aprendizaje supervisado y no supervisado

La literatura a menudo contrasta el aprendizaje por refuerzo con el aprendizaje supervisado y no supervisado. El aprendizaje supervisado emplea datos etiquetados manualmente para producir predicciones o clasificaciones. El aprendizaje no supervisado tiene como objetivo descubrir y aprender patrones ocultos a partir de datos no etiquetados. A diferencia del aprendizaje supervisado, el aprendizaje de refuerzo no emplea ejemplos etiquetados de comportamiento correcto o incorrecto. Pero el aprendizaje por refuerzo también se diferencia del aprendizaje no supervisado en que el aprendizaje por refuerzo aprende por ensayo y error y por función de recompensa en lugar de extraer información de patrones ocultos.2

Los métodos de aprendizaje supervisado y no supervisado suponen que cada registro de datos de entrada es independiente de otros registros del conjunto de datos, pero que cada registro actualiza un modelo común subyacente de distribución de datos. Estos métodos aprenden a predecir con el rendimiento del modelo medido según la maximización de la precisión de la predicción.

Por el contrario, el aprendizaje por refuerzo aprende a actuar. Supone que los datos de entrada son tuplas interdependientes, es decir, una secuencia ordenada de datos, organizadas como estado-acción-recompensa. Muchas aplicaciones de los algoritmos de aprendizaje por refuerzo tienen como objetivo imitar los métodos de aprendizaje biológico del mundo real a través del refuerzo positivo.

Tenga en cuenta que, aunque los dos no se comparan a menudo en la literatura, el aprendizaje por refuerzo también es distinto del aprendizaje autosupervisado . Este último es una forma de aprendizaje no supervisado que emplea pseudoetiquetas derivadas de datos de entrenamiento no etiquetados como verdad fundamental para medir la precisión del modelo. Sin embargo, el aprendizaje por refuerzo no produce pseudoetiquetas ni mide contra una verdad fundamental: no es un método de clasificación sino un aprendiz de acciones. Sin embargo, los dos se combinaron con resultados prometedores.3

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Proceso de aprendizaje por refuerzo

El aprendizaje por refuerzo consiste esencialmente en la relación entre un agente, el entorno y el objetivo. La literatura formula ampliamente esta relación en términos del proceso de decisión de Markov (MDP).

Proceso de decisión de Markov

El agente de aprendizaje por refuerzo aprende sobre un problema interactuando con su entorno. El entorno proporciona información sobre su estado actual. A continuación, el agente emplea esa información para determinar qué acciones debe emprender. Si esa acción obtiene una señal de recompensa del entorno, el agente se ve animado a volver a realizar esa acción cuando se encuentre en un estado futuro similar. Este proceso se repite para cada nuevo estado a partir de entonces. Con el tiempo, el agente aprende de las recompensas y los castigos a realizar acciones dentro del entorno que cumplen un objetivo especificado4

Diagrama de la página temática del aprendizaje por refuerzo

En los procesos de decisión de Markov, el espacio de estado se refiere a toda la información proporcionada por el estado de un entorno. El espacio de acción denota todas las acciones posibles que el agente puede realizar dentro de un estado.5

Compensación entre exploración y explotación

Debido a que un agente de RL no tiene datos de entrada etiquetados manualmente que guíen su comportamiento, debe explorar su entorno, intentando nuevas acciones para descubrir aquellos que reciben recompensas. A partir de estas señales de recompensa, el agente aprende a preferir las acciones por las que fue recompensado para maximizar su ganancia. Pero el agente también debe seguir explorando nuevos estados y acciones. Al hacerlo, puede emplear esa experiencia para mejorar su toma de decisiones.

Por lo tanto, los algoritmos de RL requieren que un agente explote el conocimiento de las acciones de estado previamente recompensadas y explore otras acciones de estado. El agente no puede dedicarse exclusivamente a la exploración o explotación. Debe probar continuamente nuevas acciones y, al mismo tiempo, preferir acciones únicas (o cadenas) que produzcan la mayor recompensa acumulativa.6

Componentes del aprendizaje por refuerzo

Más allá del triunvirato agente-entorno-objetivo, cuatro subelementos principales caracterizan los problemas de aprendizaje por refuerzo.

-Política. Esto define el comportamiento del agente de RL mediante la asignación de estados ambientales percibidos a acciones específicas que el agente debe realizar cuando se encuentra en esos estados. Puede tomar la forma de una función rudimentaria o un proceso computacional más complicado. Por ejemplo, una política que guíe a un vehículo autónomo puede asignar la detección de peatones a una acción de pausa.

- Señal de recompensa. Esto designa el objetivo del problema de RL. Cada una de las acciones del agente RL recibe una recompensa del entorno o no. El único objetivo del agente es maximizar sus recompensas acumulativas del entorno. Para los vehículos autónomos, la señal de recompensa puede ser reducir el tiempo de viaje, disminuir las colisiones, permanecer en la carretera y en el carril adecuado, evitar aceleramientos extremos, etc. Este ejemplo muestra que RL puede incorporar múltiples señales de recompensa para guiar a un agente.

- Función de valor. La señal de recompensa difiere de la función de valor en que la primera denota un beneficio inmediato, mientras que la segunda especifica un beneficio a largo plazo. El valor se refiere a la conveniencia de un estado por todos los estados (con sus recompensas correspondientes) que es probable que sigan. Un vehículo autónomo puede reducir el tiempo de viaje saliendo de su carril, manejando por la acera y acelerando rápidamente, pero estas tres últimas acciones pueden reducir su función de valor general. Por lo tanto, el vehículo como agente de RL puede intercambiar un tiempo de viaje marginalmente más largo para aumentar su recompensa en las últimas tres áreas.

- Modelo. Este es un subelemento opcional de los sistemas de aprendizaje por refuerzo. Los modelos permiten a los agentes predecir el comportamiento del entorno para posibles acciones. Luego, los agentes utilizan predicciones de modelos para determinar posibles cursos de acción basados en los resultados potenciales. Este puede ser el modelo que guía al vehículo autónomo y que le ayuda a predecir las mejores rutas, qué esperar de los vehículos circundantes dada su posición y velocidad, y así sucesivamente.7 Algunos enfoques basados en modelos utilizan retroalimentación humana directa en el aprendizaje inicial y luego cambian al aprendizaje autónomo.

Aprendizaje en línea versus aprendizaje fuera de línea

Hay dos métodos generales mediante los cuales un agente recopila datos para políticas de aprendizaje:

- En línea. Aquí, un agente recopila datos directamente de la interacción con su entorno circundante. Estos datos se procesan y recopilan iterativamente a medida que el agente continúa interactuando con ese entorno.

- Fuera de línea. Cuando un agente no tiene atajo a un entorno, puede aprender a través de los datos registrados de ese entorno. Esto es aprendizaje fuera de línea. Un gran subconjunto de investigaciones recurrió al aprendizaje fuera de línea dadas las dificultades prácticas en el entrenamiento de modelos a través de la interacción directa con los entornos.8

Diagrama de la página temática del aprendizaje por refuerzo

Tipos de aprendizaje por refuerzo

El aprendizaje por refuerzo es un área de investigación vibrante y continua y, como tal, los desarrolladores produjeron una gran variedad de enfoques para el aprendizaje por refuerzo. Sin embargo, tres métodos de aprendizaje por refuerzo ampliamente discutidos y fundacionales son la programación dinámica, Monte Carlo y el aprendizaje por diferencia temporal.

Programación dinámica

La programación dinámica desglosa las tareas más grandes en tareas más pequeñas. Por lo tanto, modela los problemas como flujos de trabajo de decisiones secuenciales realizadas en pasos de tiempo discretos. Cada decisión se toma en términos del posible siguiente estado resultante. La recompensa de un agente (r) por una acción determinada se define en función de esa acción (a), el estado ambiental actual (s) y el siguiente estado potencial (s'):

Fórmula de programación dinámica

Esta función de recompensa se puede emplear como (parte de) la política que rige las acciones de un agente. Determinar la política óptima para el comportamiento de los agentes es un componente principal de los métodos de programación dinámica para el aprendizaje por refuerzo. Ingrese la ecuación de Bellman.

La ecuación de Bellman es:

Fórmula de la ecuación de Bellman

En resumen, esta ecuación define vt(s) como la recompensa total esperada desde el momento t hasta el final de un flujo de trabajo de decisión. Asume que el agente comienza ocupando el estado s en el tiempo t. En última instancia, la ecuación divide la recompensa en el momento t en la recompensa inmediata rt(s,a) (es decir, la fórmula de recompensa) y la recompensa total que se espera del agente. De este modo, un agente maximiza su función de valor, que es el valor total de la ecuación de Bellman, eligiendo sistemáticamente esa acción que recibe una señal de recompensa en cada estado.9

Método Monte Carlo

La programación dinámica se basa en modelos, lo que significa que construye un modelo de su entorno para percibir recompensas, identificar patrones y navegar por el entorno. Monte Carlo, sin embargo, asume un entorno de caja negra, lo que lo hace libre de modelos.

Si bien la programación dinámica predice posibles estados futuros y señales de recompensa en la toma de decisiones, los métodos de Monte Carlo se basan exclusivamente en la experiencia, lo que significa que muestrean secuencias de estados, acciones y recompensas únicamente a través de la interacción con el entorno. Por lo tanto, los métodos de Monte Carlo aprenden a través de prueba y error en lugar de distribuciones probabilísticas.

Monte Carlo se diferencia además de la programación dinámica en la determinación de la función de valor. La programación dinámica busca la mayor recompensa acumulativa seleccionando consistentemente acciones recompensadas en estados sucesivos. Monte Carlo, por el contrario, promedia los rendimientos de cada par estado-acción. Esto, a su vez, significa que el método Monte Carlo debe esperar hasta que se completen todas las acciones en un episodio determinado (u horizonte de planeación) antes de calcular su función de valor y luego actualizar su política.10

Aprendizaje de diferencias temporales

La literatura describe ampliamente el aprendizaje por diferencia temporal (TD) como una combinación de programación dinámica y Monte Carlo. Al igual que en el primero, TD actualiza su política y, por lo tanto, estima los estados futuros luego de cada paso sin esperar un valor final. Sin embargo, al igual que en Monte Carlo, TD aprende a través de la interacción sin procesar con su entorno en lugar de emplear un modelo del mismo.11

Por su nombre, el agente de aprendizaje TD revisa su política en función de la diferencia entre las recompensas previstas y las reales recibidas en cada estado. Es decir, mientras que la programación dinámica y Montecarlo sólo tienen en cuenta la recompensa recibida, TD pondera además la diferencia entre su expectativa y la recompensa recibida. Con esta diferencia, el agente actualiza sus estimaciones para el siguiente paso sin esperar hasta el horizonte de planeación de eventos, contra Monte Carlo.12

La TD tiene muchas variantes. Dos variantes destacadas son Estado-acción-recompensa-estado-acción (SARSA) y Q-learning. SARSA es un método de TD on-policy, lo que significa que evalúa e intenta mejorar su política de toma de decisiones. Q-learning está fuera de la política. Los métodos fuera de política son los que emplean dos políticas: una de explotación (política de objetivos) y otra de exploración para generar comportamientos (política de comportamientos)13

Métodos adicionales

Hay una gran cantidad de métodos adicionales de aprendizaje por refuerzo. La programación dinámica es un método basado en valores, lo que significa que selecciona acciones en función de sus valores estimados de acuerdo con una política que tiene como objetivo maximizar su función de valor. Por el contrario, los métodos de gradiente de políticas aprenden una política parametrizada que puede seleccionar acciones sin consultar una función de valor. Estos se denominan 'basados en políticas' y se consideran más eficaces en entornos de alta dimensión.14

Los métodos de actor-crítico utilizan tanto el valor como el basado en políticas. El llamado “actor” es un gradiente político que determina qué acciones tomar, mientras que el “crítico” es una función de valor para evaluar acciones. Los métodos actor-críticos son, esencialmente, una forma de TD. Más específicamente, el actor-crítico evalúa el valor de una acción determinada con base no solo en su propia recompensa sino en el posible valor del siguiente estado, que agrega a la recompensa de la acción. La ventaja del actor-crítico es que, debido a su implementación de una función de valor y política en la toma de decisiones, efectivamente requiere menos interacción ambiental.15

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Ejemplos de aprendizaje por refuerzo

Robótica

Dado que el aprendizaje por refuerzo se ocupa centralmente de la toma de decisiones en entornos impredecibles, ha sido un área central de interés en robótica. Para realizar tareas simples y repetitivas, la toma de decisiones puede ser sencilla. Pero las tareas más complicadas, como los intentos de simular el comportamiento humano o automatizar la conducción, implican la interacción con entornos del mundo real altamente variables y mutables. Las investigaciones muestran que el aprendizaje de refuerzo profundo con neural networks profundas facilita estas tareas, especialmente con respecto a la generalización y el mapeo de entradas sensoriales de alta dimensión a resultados de sistemas controlados.16 Los estudios sugieren que el aprendizaje de refuerzo profundo con robots depende en gran medida de conjuntos de datos recopilados, por lo que trabajos recientes exploran vías para recopilar datos del mundo real17 y reutilizar datos anteriores18 para mejorar los sistemas de aprendizaje de refuerzo.

Procesamiento del lenguaje natural

Investigaciones recientes sugieren aprovechar las técnicas y herramientas de procesamiento de lenguaje natural, por ejemplo, los modelos de lenguaje grandes (LLM) pueden mejorar la generalización en sistemas de aprendizaje por refuerzo a través de la representación textual de entornos del mundo real.19 Muchos estudios muestran cómo los entornos textuales interactivos proporcionan alternativas rentables a los entornos tridimensionales cuando instruyen a los agentes de aprendizaje en tareas sucesivas de toma de decisiones.20 El aprendizaje por refuerzo profundo también sustenta la toma de decisiones textuales en los chatbots. De hecho, el aprendizaje por refuerzo supera a otros métodos para mejorar la respuesta al diálogo del chatbot.21

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo