¿Qué es el aprendizaje de refuerzo?

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

¿Qué es el aprendizaje de refuerzo?

El aprendizaje por refuerzo (RL) es un tipo de proceso de machine learning en el que los agentes autónomos aprenden a tomar decisiones interactuando con su entorno.

Un agente autónomo es cualquier sistema que puede tomar decisiones y actuar en respuesta a su entorno independientemente de las instrucciones directas de un usuario humano. Los robots y los coches autónomos son ejemplos de agentes autónomos.

En el aprendizaje por refuerzo, los agentes autónomos aprendem a realizar una tarea por ensayo y error en ausencia de cualquier orientación por parte de un usuario humano. 1 Aborda especialmente los problemas de toma de decisiones secuenciales en entornos inciertos, y se muestra prometedor en el desarrollo de la inteligencia artificial.

Aprendizaje supervisado y aprendizaje no supervisado

La literatura a menudo contrasta el aprendizaje por refuerzo con el aprendizaje supervisado y no supervisado. El aprendizaje supervisado utiliza datos etiquetados de forma manual para producir predicciones o clasificaciones. El aprendizaje no supervisado tiene como objetivo descubrir y aprender patrones ocultos a partir de datos no etiquetados. A diferencia del aprendizaje supervisado, el aprendizaje por refuerzo no utiliza ejemplos etiquetados de comportamiento correcto o incorrecto. Pero el aprendizaje por refuerzo también se diferencia del aprendizaje no supervisado en que el primero aprende por ensayo y error y por función de recompensa en lugar de extraer información de patrones ocultos2.

Los métodos de aprendizaje supervisado y no supervisado suponen que cada registro de datos de entrada es independiente de otros registros del conjunto de datos, pero que cada registro actualiza un modelo común subyacente de distribución de datos. Estos métodos aprenden a predecir con el rendimiento del modelo medido de acuerdo con la maximización de la precisión de la predicción.

En cambio, el aprendizaje por refuerzo aprende a actuar. Asume que los datos de entrada son tuplas interdependientes, es decir, una secuencia ordenada de datos, organizada como estado-acción-recompensa. Muchas aplicaciones de los algoritmos de aprendizaje por refuerzo pretenden imitar los métodos de aprendizaje biológico del mundo real mediante el refuerzo positivo.

Tenga en cuenta que, aunque los dos no se comparan a menudo en la literatura, el aprendizaje por refuerzo también es distinto del aprendizaje autosupervisado. Este último es una forma de aprendizaje no supervisado que utiliza pseudoetiquetas derivadas de datos de entrenamiento no etiquetados como verdad de base para medir la precisión del modelo. Sin embargo, el aprendizaje por refuerzo no produce pseudoetiquetas ni mide en función de una verdad fundamental: no es un método de clasificación, sino un aprendiz de acciones. Sin embargo, ambos se han combinado con resultados prometedores3.

Las últimas tendencias en IA, presentadas por expertos

Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.

¡Gracias! Está suscrito.

Su suscripción se enviará en inglés. Encontrará un enlace para darse de baja en cada boletín. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

Proceso de aprendizaje por refuerzo

El aprendizaje por refuerzo consiste esencialmente en la relación entre un agente, el entorno y el objetivo. La literatura formula ampliamente esta relación en términos del proceso de decisión de Markov (MDP).

Proceso de decisión de Markov

El agente de aprendizaje por refuerzo aprende sobre un problema al interactuar con su entorno. El entorno proporciona información sobre su estado actual. A continuación, el agente utiliza esa información para determinar qué acciones tomar. Si esa acción obtiene una señal de recompensa del entorno, se anima al agente a repetirla cuando se encuentre en un estado futuro similar. Este proceso se repite para cada nuevo estado a partir de entonces. Con el tiempo, el agente aprende de las recompensas y los castigos para tomar medidas dentro del entorno que cumplan un objetivo específico4.

Diagrama para la página de temas de aprendizaje por refuerzo

En los procesos de decisión de Markov, el espacio de estados se refiere a toda la información proporcionada por el estado de un entorno. El espacio de acción denota todas las acciones posibles que el agente puede realizar dentro de un estado5.

El equilibrio entre exploración y explotación

Dado que un agente de RL no tiene datos de entrada etiquetados manualmente que guíen su comportamiento, debe explorar su entorno, intentando nuevas acciones para descubrir las que reciben recompensas. A partir de estas señales de recompensa, el agente aprende a preferir acciones por las que fue recompensado para maximizar su ganancia. Pero el agente también debe seguir explorando nuevos estados y acciones. Al hacerlo, puede luego utilizar esa experiencia para mejorar su toma de decisiones.

Por tanto, los algoritmos de RL requieren que un agente explote el conocimiento de estados-acciones previamente recompensados y explore otros estados-acciones. El agente no puede dedicarse en exclusiva a la exploración o explotación. Debe probar continuamente nuevas acciones y, al mismo tiempo, preferir acciones únicas (o cadenas de) que produzcan la mayor recompensa acumulativa6.

Componentes del aprendizaje por refuerzo

Más allá del triunvirato agente-entorno-objetivo, cuatro subelementos principales caracterizan los problemas de aprendizaje por refuerzo.

- Política. Esto define el comportamiento del agente de RL mapeando los estados ambientales percibidos a acciones específicas que el agente debe tomar cuando se encuentra en esos estados. Puede adoptar la forma de una función rudimentaria o de un proceso computacional más complejo. Por ejemplo, una política que guíe un vehículo autónomo puede asignar la detección de peatones a una acción de parada.

- Señal de recompensa. Designa el objetivo del problema de RL. Cada una de las acciones del agente RL recibe o no una recompensa del entorno. El único objetivo del agente es maximizar sus recompensas acumulativas del entorno. Para los vehículos autónomos, la señal de recompensa puede ser reducir el tiempo de viaje, disminuir las colisiones, permanecer en la carretera y en el carril adecuado, evitar aceleraciones extremas, etc. Este ejemplo muestra que RL puede incorporar múltiples señales de recompensa para guiar a un agente.

- Función de valor. La señal de recompensa difiere de la función de valor en que la primera denota un beneficio inmediato, mientras que la segunda especifica un beneficio a largo plazo. El valor se refiere a la conveniencia de un estado por todos los estados (con sus recompensas) que probablemente le sigan. Un vehículo autónomo puede reducir el tiempo de viaje si se sale de su carril, circula por el arcén y acelera rápidamente, pero estas tres últimas acciones pueden reducir su función de valor global. Por lo tanto, el vehículo como agente de RL puede intercambiar un tiempo de viaje marginalmente más largo para aumentar su recompensa en las últimas tres áreas.

- Modelo. Este es un subelemento opcional de los sistemas de aprendizaje por refuerzo. Los modelos permiten a los agentes predecir el comportamiento del entorno para posibles acciones. A continuación, los agentes utilizan las predicciones del modelo para determinar posibles líneas de actuación en función de los resultados potenciales. Este puede ser el modelo que guíe al vehículo autónomo y le ayude a predecir las mejores rutas, qué esperar de los vehículos circundantes dada su posición y velocidad, etc.7 Algunos enfoques basados en modelos utilizan el feedback humano directo en el aprendizaje inicial y luego pasan al aprendizaje autónomo.

Aprendizaje en línea frente a aprendizaje fuera de línea

Hay dos métodos generales por los que un agente recopila datos para políticas de aprendizaje:

- En línea. En este caso, un agente recopila datos directamente al interactuar con el entorno que lo rodea. Estos datos se procesan y recopilan de forma iterativa a medida que el agente sigue interactuando con ese entorno.

- Sin conexión. Cuando un agente no tiene acceso directo a un entorno, puede aprender a través de los datos registrados de ese entorno. Esto se conoce como aprendizaje sin conexión. Un gran subconjunto de investigaciones se ha volcado en el aprendizaje sin conexión debido a las dificultades prácticas para entrenar modelos a través de la interacción directa con los entornos8.

Diagrama para la página de temas de aprendizaje por refuerzo

Tipos de aprendizaje por refuerzo

El aprendizaje por refuerzo es un área de investigación vibrante y en curso, y como tal, los desarrolladores han producido una miríada de enfoques para el aprendizaje por refuerzo. No obstante, tres métodos de aprendizaje por refuerzo muy debatidos y fundamentales son la programación dinámica, el monte carlo y el aprendizaje por diferencia temporal.

Programación dinámica

La programación dinámica descompone las tareas más grandes en tareas más pequeñas. Así, modela los problemas como flujos de trabajo de decisiones secuenciales tomadas en pasos temporales discretos. Cada decisión se toma en función del posible siguiente estado resultante. La recompensa de un agente (r) por una acción determinada se define en función de esa acción (a), de los estados ambientales actualess y de los posibles siguientes estados s':

Fórmula de programación dinámica

Esta función de recompensa se puede utilizar como (parte de) la política que rige las acciones de un agente. Determinar la política óptima para el comportamiento de los agentes es un componente principal de los métodos de programación dinámica para el aprendizaje por refuerzo. Introduzca la ecuación de Bellman.

La ecuación de Bellman es

Fórmula de la ecuación de Bellman

En resumen, esta ecuación define vt(s) como la recompensa total esperada desde el momento t hasta el final de un flujo de trabajo de decisión. Supone que el agente comienza ocupando el estado s en el tiempo t. En última instancia, la ecuación divide la recompensa en el momento t en la recompensa inmediata rt(s,a) (es decir, la fórmula de recompensa) y la recompensa total esperada del agente. De este modo, un agente maximiza su función de valor (que es el valor total de la ecuación de Bellman) al elegir sistemáticamente la acción que recibe una señal de recompensa en cada estado9.

Método Monte Carlo

La programación dinámica se basa en modelos, lo que significa que construye un modelo de su entorno para percibir las recompensas, identificar patrones y navegar por el entorno. Sin embargo, Montecarlo asume un entorno de caja negra, por lo que no tiene modelos.

Mientras que la programación dinámica predice posibles estados futuros y señales de recompensa en la toma de decisiones, los métodos de Montecarlo se basan exclusivamente en la experiencia, lo que significa que muestrean secuencias de estados, acciones y recompensas únicamente a través de la interacción con el entorno. Así pues, los métodos de Montecarlo aprenden mediante ensayo y error en lugar de mediante distribuciones probabilísticas.

Montecarlo se diferencia aún más de la programación dinámica en la determinación de funciones de valor. La programación dinámica busca la mayor recompensa acumulada mediante la selección sistemática de acciones recompensadas en estados sucesivos. Montecarlo, por el contrario, calcula la media de los rendimientos de cada par estado-acción. Esto, a su vez, significa que el método de Montecarlo debe esperar a que se hayan completado todas las acciones de un episodio (u horizonte de planificación) determinado antes de calcular su función de valores y, a continuación, actualizar su política10.

Aprendizaje por diferencia temporal

La literatura describe ampliamente el aprendizaje por diferencias temporales (DT) como una combinación de programación dinámica y Montecarlo. Como en el primer caso, DT actualiza su política y, por lo tanto, las estimaciones para los estados futuros, después de cada paso sin esperar al valor final. Sin embargo, al igual que en Montecarlo, DT aprende a través de la interacción bruta con su entorno en lugar de utilizar un modelo del mismo11.

Según su nombre, el agente de aprendizaje DT revisa su política en función de la diferencia entre las recompensas previstas y las reales recibidas en cada estado. Es decir, mientras que la programación dinámica y Montecarlo solo consideran la recompensa recibida, DT sopesa aún más la diferencia entre su expectativa y la recompensa recibida. Con esta diferencia, el agente actualiza sus estimaciones para el siguiente paso sin esperar al horizonte de planificación de eventos, en contra de Monte carlo12.

El modelo DT tiene muchas variantes. Dos destacadas son estado–acción–recompensa–estado–acción (SARSA) y el aprendizaje Q. El SARSA es un método de DT basado en la política, lo que significa que evalúa e intenta mejorar su política de gobierno de toma de decisiones. El Q-learning no se ajusta a la política. Los métodos que no se ajustan a la política son aquellos que utilizan dos políticas: una para la explotación (política objetivo) y otra para la exploración para generar comportamiento (política de comportamiento)13.

Métodos adicionales

Existe una gran cantidad de métodos adicionales de aprendizaje por refuerzo. La programación dinámica es un método basado en valores, lo que significa que selecciona las acciones en función de sus valores estimados según una política que pretende maximizar su función de valor. Por el contrario, los métodos de gradiente de políticas aprenden una política parametrizada que puede seleccionar acciones sin consultar una función de valor. Estas se denominan basadas en políticas y se consideran más efectivas en entornos de alta dimensión14.

Los métodos actor-crítico se basan tanto en los valores como en las políticas. El llamado "actor" es un gradiente de políticas que determina qué acciones tomar, mientras que el "crítico" es una función de valor para evaluar acciones. Los métodos actor-crítico son, en esencia, una forma de DT. En concreto, el actor-crítico evalúa el valor de una acción determinada basándose no solo en su propia recompensa, sino en el posible valor del siguiente estado, que suma a la recompensa de la acción. La ventaja del actor-crítico es que, debido a la implementación de una función de valor y una política en la toma de decisiones, requiere efectivamente menos interacción con el entorno15.

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Ejemplos de aprendizaje por refuerzo

Robótica

Dado que el aprendizaje por refuerzo se ocupa fundamentalmente de la toma de decisiones en entornos impredecibles, ha sido un área de interés central en la robótica. Para realizar tareas simples y repetitivas, la toma de decisiones puede ser sencilla. Pero tareas más complicadas, como los intentos de simular el comportamiento humano o automatizar la conducción, implican la interacción con entornos del mundo real altamente variables y mutables. Las investigaciones muestran que el aprendizaje por refuerzo profundo con redes neuronales profundas ayuda a estas tareas, especialmente con respecto a la generalización y la asignación de entradas sensoriales de alta dimensión a salidas de sistemas controlados16. Los estudios sugieren que el aprendizaje por refuerzo profundo con robots se basa en gran medida en los conjuntos de datos recopilados, por lo que trabajos recientes exploran las vías para recopilar datos del mundo real17 y reutilizar los datos anteriores18 para mejorar los sistemas de aprendizaje por refuerzo.

Procesamiento del lenguaje natural

Investigaciones recientes sugieren que el aprovechamiento de técnicas y herramientas de procesamiento del lenguaje natural (p. ej. modelos de lenguaje de gran tamaño o LLM) puede mejorar la generalización en sistemas de aprendizaje por refuerzo a través de la representación textual de entornos del mundo real19. Muchos estudios muestran cómo los entornos textuales interactivos proporcionan alternativas rentables a los entornos tridimensionales al instruir a los agentes de aprendizaje en tareas sucesivas de toma de decisiones20. El aprendizaje por refuerzo profundo también sustenta la toma de decisiones textual en los chatbots. De hecho, el aprendizaje por refuerzo supera a otros métodos para mejorar la respuesta de diálogo de los chatbots21.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo