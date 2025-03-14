A medida que la inteligencia artificial moldea cada vez más nuestro mundo, uno de sus padres fundadores advierte contra la exageración y el miedo.
Andrew Barto, recientemente galardonado con el Premio Turing, el mayor honor de la informática, ha pasado décadas desarrollando el aprendizaje por refuerzo, la tecnología que ahora impulsa todo, desde los campeones de la IA en los juegos hasta los sistemas de descubrimiento de fármacos y las capacidades de razonamiento detrás de los grandes modelos lingüísticos actuales. En una entrevista con IBM Think, Barto ofrece una evaluación mesurada del progreso, el potencial y las limitaciones de la IA que supera el tecnooptimismo y los escenarios apocalípticos.
El aprendizaje por refuerzo, el enfoque computacional para aprender a partir de la interacción que Barto ayudó a desarrollar, se ha vuelto omnipresente en el panorama actual de la IA. Aunque muchos lo asocian con logros que acaparan titulares, como derrotar a campeones del mundo en juegos complejos, Barto ve sus aplicaciones más significativas en ámbitos más prácticos.
"Ya se está utilizando en varios lugares, mucho en robótica", explica. "Hay grandes posibilidades de que los robots utilicen el aprendizaje por refuerzo para permitirles realizar movimientos muy detallados y útiles que podrían ayudar a las personas en casa o a las personas con discapacidades".
Barto destaca aplicaciones médicas donde el aprendizaje por refuerzo optimiza los protocolos de tratamiento durante períodos prolongados, precisamente el tipo de problemas de toma de decisiones secuenciales donde la tecnología destaca.
"Una de las características del aprendizaje por refuerzo es que puede abordar problemas de decisión secuencial en los que se toman varias decisiones a lo largo del tiempo y, en cada caso, el estado del sistema depende de la decisión anterior", afirma. Esta capacidad para manejar recompensas retrasadas —consecuencias que solo se materializan tras una secuencia de acciones— representa un desafío fundamental que los algoritmos de aprendizaje por refuerzo abordan.
Matt Riemer, ingeniero de investigación en deep learning en el IBM IA Foundations Lab, señala aplicaciones aún más recientes.
"Los investigadores han aplicado con éxito enfoques basados en el aprendizaje por refuerzo al problema del descubrimiento de fármacos, donde apenas están empezando a ver algunos resultados muy prometedores", dijo a Think en una entrevista. "Recientemente también ha tenido éxito en problemas importantes como la optimización y automatización del proceso de tratamiento del agua".
Detrás de las impresionantes capacidades de los chatbots actuales se esconde el aprendizaje por refuerzo. Riemer explica: "Con el reciente éxito de los LLM, hemos visto casos de uso de alto perfil de RL que mejoran sus capacidades". La primera aplicación importante se denominó RLHF (aprendizaje por refuerzo a partir de la retroalimentación humana), que ayuda a estos sistemas a producir respuestas que se ajustan mejor a lo que la gente quiere.
Si bien los grandes modelos lingüísticos han captado la atención del público por su capacidad de generar textos similares a los humanos, su desarrollo se debe en gran medida al aprendizaje por refuerzo. Como explica Riemer, "Más recientemente, hemos visto surgir el RL como el enfoque más destacado para entrenar los llamados modelos de 'pensamiento' que aprenden una cadena de procesos de pensamiento que mejora las capacidades de razonamiento de los LLM".
Los problemas matemáticos son el campo de entrenamiento ideal para estos sistemas. "Para problemas como el razonamiento matemático, es fácil construir recompensas verificables, es decir, '¿el agente respondió correctamente al problema o no?'", explica Riemer. Estas claras respuestas correctas o incorrectas crean lo que él llama un "entorno de pseudosimulación" en el que la IA puede aprender a través de la práctica repetida.
El impacto del aprendizaje por refuerzo se extiende más allá de la investigación académica o las aplicaciones especializadas. Su influencia se siente cada vez más en las tecnologías que interactúan con los usuarios cotidianos. "Una vez más, esto es probablemente solo el principio, ya que es probable que veamos que el RL desempeña un papel aún más destacado a medida que el campo comienza a desarrollar 'agentes de IA' que interactúan con navegadores web y otras herramientas para ayudar mejor a los usuarios", predice Riemer.
Barto mantiene el optimismo cauteloso de un científico que ha sido testigo de numerosos ciclos de exageración tecnológica. Reconoce el reto cuando se le pregunta por la seguridad y la alineación de la IA: garantizar que los sistemas de IA actúen según los valores humanos.
"El problema de la alineación no es un problema trivial", afirma. "Uno esperaría que un sistema de RL pueda dirigir una IA para incorporar los valores de los humanos que están utilizando el sistema. Así que ojalá eso pueda suceder. No tengo la receta para ello".
En busca de inspiración sobre las recompensas de la IA, Barto recurre a nuestros cerebros. "Nuestras funciones de recompensa provienen de mecanismos que evolucionaron a lo largo de millones de años", explica. A diferencia de las simples recompensas de los ordenadores, la motivación humana surge de las complejas presiones evolutivas que mantuvieron a nuestros antepasados vivos y reproduciéndose.
Esta perspectiva evolutiva informa su pensamiento sobre el aprendizaje por refuerzo multicriterio, donde los sistemas responden a varias señales de recompensa en lugar de solo una, lo que podría reflejar cómo diferentes partes del cerebro humano procesan distintas formas de feedback.
"Creo que el aprendizaje por refuerzo multicriterio es algo realmente muy importante", señala Barto. “En lugar de tener una función de recompensa, puede haber varias y… diferentes partes del cerebro, por ejemplo, probablemente recibieron señales diferentes”.
El aprendizaje por refuerzo destaca en videojuegos y simulaciones, pero tiene dificultades en el mundo real. ¿El problema? Estos sistemas aprenden explorando diferentes acciones, una fortaleza en entornos virtuales pero un riesgo importante en la realidad. "La exploración es tanto el mayor punto de venta de RL como su mayor factor limitante para el uso en el mundo real", explica Riemer, destacando por qué ambos investigadores ven esta transición como un desafío crítico.
"En el mundo real, fuera de la simulación, la exploración puede llevar al agente a hacer cosas impredecibles, que son una preocupación importante para la seguridad de la IA", explica Riemer. "Además, incluso para casos de uso en los que podemos tolerar la exploración, hay un problema con la eficiencia de la muestra de RL. A menudo parece que necesita explorar mucho más de lo que lo haría un humano en la misma situación”.
Barto señala desafíos similares: "Va a llevar mucho más tiempo porque las simulaciones pueden ejecutarse mucho, mucho más rápido que la experiencia física en el mundo". Y añade: "Si es un robot, aprende a través de prueba y error, y si un error provoca una caída o algo que daña la máquina, entonces ese es el problema".
Este enfoque cauteloso de la implementación en el mundo real se deriva de consideraciones tanto prácticas como de seguridad. Barto enfatiza la necesidad de una especificación cuidadosa de las funciones de recompensa "para que el sistema no presente algo realmente inesperado y posiblemente problemático".
El desafío va más allá de la mera implementación. Como señala Riemer, los sistemas de aprendizaje por refuerzo también deben adaptarse a entornos cambiantes: "El RL continuo estudia la cuestión de cómo los agentes del RL pueden adaptarse a la naturaleza cambiante de los entornos del mundo real, es decir, cuando el mundo es diferente de lo que era antes durante el preentrenamiento o cuando se entrena en un simulador".
Esta adaptabilidad presenta lo que Riemer llama “el problema clásico del ‘dilema estabilidad-plasticidad’, donde el agente debe decidir cómo priorizar el rendimiento en sus nuevas experiencias y el rendimiento en sus experiencias antiguas”. Este equilibrio entre conservar los conocimientos previos y adaptarse a las nuevas condiciones representa un desafío continuo en este campo.
A pesar de estos obstáculos, los investigadores están encontrando soluciones prometedoras combinando el aprendizaje por refuerzo con otros enfoques de IA. Riemer ve especialmente prometedora la integración con los grandes modelos lingüísticos: "Lo que realmente le faltaba al RL era la capacidad de entender el mundo lo suficiente como para poder estructurar su exploración de forma más lógica. Estamos empezando a ver pruebas de que los LLM se pueden utilizar como una base sólida de conocimiento mundial para construir formación sobre RL, lo cual es muy emocionante desde la perspectiva de permitir casos de uso reales para RL".
La integración entre el aprendizaje por refuerzo y otras técnicas de IA está evolucionando rápidamente. "La principal tendencia que observamos es la forma en que otros métodos pueden ayudar al RL a construir una representación del mundo que pueda utilizar para explorar de manera más eficiente", afirma Riemer. "Por ejemplo, en los dominios lingüísticos, el RL se ha convertido en una herramienta muy eficaz que se utiliza además de los LLM preentrenados".
Esta relación complementaria funciona en ambos sentidos: el aprendizaje por refuerzo mejora los modelos de lenguaje, mientras que los modelos proporcionan a los sistemas de aprendizaje por refuerzo mejores representaciones del mundo. "Estamos empezando a ver cosas similares para casos de uso como la robótica o la creación de agentes de IA en los que el RL se está volviendo más eficaz cuando se combina con el conocimiento incorporado en los VLM que también tienen capacidades de visión", explica Riemer.
Cuando la conversación gira en torno a la inteligencia artificial general (AGI), sistemas con capacidades cognitivas similares a las humanas en todos los dominios, Barto expresa su escepticismo sobre su probabilidad y conveniencia como objetivo de investigación.
"No veo la utilidad de convertir la inteligencia a nivel humano en un objetivo", afirma con franqueza. "El objetivo de intentar comprender cómo funciona la inteligencia humana es diferente al de intentar crear máquinas que alcancen el nivel humano".
Una frontera particularmente intrigante que Barto identifica es el aprendizaje de refuerzo de múltiples agentes: sistemas donde múltiples agentes de aprendizaje interactúan, potencialmente con diferentes objetivos. Este enfoque no solo tiene implicaciones para el desarrollo de la IA, sino que también podría iluminar el funcionamiento de nuestros propios cerebros.
"La hipótesis de que las neuronas son agentes de aprendizaje por refuerzo y que el cerebro es una sociedad de agentes que interactúan y que podrían tener diferentes objetivos entre sí" sigue siendo una "hipótesis inusual", reconoce, pero con implicaciones potenciales para la neurociencia.
Para Barto, las contribuciones más valiosas del aprendizaje por refuerzo pueden no estar en la creación de una inteligencia similar a la humana, sino en la resolución de problemas específicos que mejoran la vida de las personas, un legado quizás más significativo que el propio Premio Turing.
