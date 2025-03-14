El aprendizaje por refuerzo destaca en videojuegos y simulaciones, pero tiene dificultades en el mundo real. ¿El problema? Estos sistemas aprenden explorando diferentes acciones, una fortaleza en entornos virtuales pero un riesgo importante en la realidad. "La exploración es tanto el mayor punto de venta de RL como su mayor factor limitante para el uso en el mundo real", explica Riemer, destacando por qué ambos investigadores ven esta transición como un desafío crítico.

"En el mundo real, fuera de la simulación, la exploración puede llevar al agente a hacer cosas impredecibles, que son una preocupación importante para la seguridad de la IA", explica Riemer. "Además, incluso para casos de uso en los que podemos tolerar la exploración, hay un problema con la eficiencia de la muestra de RL. A menudo parece que necesita explorar mucho más de lo que lo haría un humano en la misma situación”.

Barto señala desafíos similares: "Va a llevar mucho más tiempo porque las simulaciones pueden ejecutarse mucho, mucho más rápido que la experiencia física en el mundo". Y añade: "Si es un robot, aprende a través de prueba y error, y si un error provoca una caída o algo que daña la máquina, entonces ese es el problema".

Este enfoque cauteloso de la implementación en el mundo real se deriva de consideraciones tanto prácticas como de seguridad. Barto enfatiza la necesidad de una especificación cuidadosa de las funciones de recompensa "para que el sistema no presente algo realmente inesperado y posiblemente problemático".

El desafío va más allá de la mera implementación. Como señala Riemer, los sistemas de aprendizaje por refuerzo también deben adaptarse a entornos cambiantes: "El RL continuo estudia la cuestión de cómo los agentes del RL pueden adaptarse a la naturaleza cambiante de los entornos del mundo real, es decir, cuando el mundo es diferente de lo que era antes durante el preentrenamiento o cuando se entrena en un simulador".

Esta adaptabilidad presenta lo que Riemer llama “el problema clásico del ‘dilema estabilidad-plasticidad’, donde el agente debe decidir cómo priorizar el rendimiento en sus nuevas experiencias y el rendimiento en sus experiencias antiguas”. Este equilibrio entre conservar los conocimientos previos y adaptarse a las nuevas condiciones representa un desafío continuo en este campo.

A pesar de estos obstáculos, los investigadores están encontrando soluciones prometedoras combinando el aprendizaje por refuerzo con otros enfoques de IA. Riemer ve especialmente prometedora la integración con los grandes modelos lingüísticos: "Lo que realmente le faltaba al RL era la capacidad de entender el mundo lo suficiente como para poder estructurar su exploración de forma más lógica. Estamos empezando a ver pruebas de que los LLM se pueden utilizar como una base sólida de conocimiento mundial para construir formación sobre RL, lo cual es muy emocionante desde la perspectiva de permitir casos de uso reales para RL".

La integración entre el aprendizaje por refuerzo y otras técnicas de IA está evolucionando rápidamente. "La principal tendencia que observamos es la forma en que otros métodos pueden ayudar al RL a construir una representación del mundo que pueda utilizar para explorar de manera más eficiente", afirma Riemer. "Por ejemplo, en los dominios lingüísticos, el RL se ha convertido en una herramienta muy eficaz que se utiliza además de los LLM preentrenados".

Esta relación complementaria funciona en ambos sentidos: el aprendizaje por refuerzo mejora los modelos de lenguaje, mientras que los modelos proporcionan a los sistemas de aprendizaje por refuerzo mejores representaciones del mundo. "Estamos empezando a ver cosas similares para casos de uso como la robótica o la creación de agentes de IA en los que el RL se está volviendo más eficaz cuando se combina con el conocimiento incorporado en los VLM que también tienen capacidades de visión", explica Riemer.

Cuando la conversación gira en torno a la inteligencia artificial general (AGI), sistemas con capacidades cognitivas similares a las humanas en todos los dominios, Barto expresa su escepticismo sobre su probabilidad y conveniencia como objetivo de investigación.

"No veo la utilidad de convertir la inteligencia a nivel humano en un objetivo", afirma con franqueza. "El objetivo de intentar comprender cómo funciona la inteligencia humana es diferente al de intentar crear máquinas que alcancen el nivel humano".

Una frontera particularmente intrigante que Barto identifica es el aprendizaje de refuerzo de múltiples agentes: sistemas donde múltiples agentes de aprendizaje interactúan, potencialmente con diferentes objetivos. Este enfoque no solo tiene implicaciones para el desarrollo de la IA, sino que también podría iluminar el funcionamiento de nuestros propios cerebros.

"La hipótesis de que las neuronas son agentes de aprendizaje por refuerzo y que el cerebro es una sociedad de agentes que interactúan y que podrían tener diferentes objetivos entre sí" sigue siendo una "hipótesis inusual", reconoce, pero con implicaciones potenciales para la neurociencia.

Para Barto, las contribuciones más valiosas del aprendizaje por refuerzo pueden no estar en la creación de una inteligencia similar a la humana, sino en la resolución de problemas específicos que mejoran la vida de las personas, un legado quizás más significativo que el propio Premio Turing.