Richard Sutton, uno de los pioneros de la inteligencia artificial moderna, no cree que dedicar más potencia informática a la IA vaya a dar lugar a máquinas con capacidad de pensamiento humano. De hecho, sostiene que la obsesión actual por escalar el deep learning podría estar frenando a la IA de alcanzar su máximo potencial.
Sutton, junto con su antiguo colaborador Andrew Barto, ganó el Premio Turing de este año, a menudo llamado "Premio Nobel de Computación", por su trabajo en el aprendizaje por refuerzo. Cree que el verdadero avance se producirá cuando la IA deje de depender de conjuntos de datos seleccionados y empiece a aprender de la experiencia, como hace un niño.
"Si queremos inteligencia real, la IA necesita aprender haciendo, por ensayo y error", dijo Sutton en una entrevista. "La informática no es la panacea. Una mayor capacidad de cálculo ayuda, pero no es el ingrediente fundamental de la inteligencia".
Es una afirmación audaz en un momento en que gigantes de la IA como OpenAI, Google DeepMind y Anthropic compiten por escalar sus modelos, y los alimentan con cantidades cada vez mayores de datos y cálculos en busca de razonamientos a nivel humano. Sin embargo, Sutton cree que este enfoque es erróneo y argumenta que el verdadero progreso vendrá de refinar los algoritmos que rigen cómo aprenden las máquinas, no solo de hacerlas más grandes.
Las contribuciones de Sutton a la IA se remontan a décadas. Aún así, su impacto más significativo ha sido en el aprendizaje por refuerzo. Este método permite a la IA aprender interactuando con su entorno, de forma muy parecida a como aprenden los humanos y los animales mediante el método de ensayo y error.
El aprendizaje por refuerzo funciona premiando a un sistema de IA por sus acciones correctas y penalizándolo por errores, de forma similar a cómo un niño aprende que tocar un fogón caliente es mala idea, pero coger un juguete es bueno. Con el tiempo, el sistema de IA perfecciona su proceso de toma de decisiones maximizando las recompensas y minimizando los errores.
Esta técnica fue utilizada de forma famosa en AlphaGo, el sistema de IA desarrollado por Google DeepMind que sorprendió al mundo en 2016 al derrotar al campeón mundial de Go Lee Sedol. La IA no aprendió memorizando estrategias humanas, sino jugando millones de partidas contra sí misma, refinando su estrategia mediante el aprendizaje por refuerzo.
Desde entonces, el aprendizaje por refuerzo se ha expandido más allá de los juegos hacia áreas como la robótica, el comercio financiero y la atención médica. Ayuda a optimizar los coches autónomos, mejorar los algoritmos de negociación automatizados e incluso afinar los chatbots de IA como ChatGPT mediante el aprendizaje por refuerzo a partir del feedback (RLHF). El RLHF permite a los modelos de IA refinar sus respuestas en función de las interacciones del usuario, haciéndolas más conversacionales y alineadas con las expectativas humanas.
A pesar de estos avances, Sutton cree que el aprendizaje por refuerzo aún no se ha utilizado plenamente. "Aún es pronto", dijo. "Los sistemas de IA actuales dependen principalmente de datos preprocesados, no de interacciones en el mundo real. Eso tiene que cambiar si queremos una IA que realmente entienda y se adapte".
La idea de la inteligencia artificial general (AGI), es decir, una IA que puede pensar, razonar y aprender en una amplia gama de tareas a la par que un humano, ha sido durante mucho tiempo un tema controvertido. Algunos expertos argumentan que la AGI está a muchos años de distancia, mientras que otros creen que puede que nunca sea posible. En otro campo completamente distinto, algunos expertos afirman que la AGI no es el objetivo adecuado a priorizar. "No debemos olvidar el poder de estos modelos en otros dominios no lingüísticos", dijo Marina Danilevsky, científica investigadora sénior en IBM, en un episodio del podcast Mixture of Experts. "Si realmente ampliamos los ámbitos en los que se puede utilizar esta tecnología, podemos llegar a lugares mucho más interesantes, pragmáticos y prácticos en lugar de perseguir la IA general".
Sutton se mantiene imparcial. Estima una probabilidad entre cuatro de que la IA pueda alcanzar la inteligencia humana en cinco años y una probabilidad del 50 % en 15 años. Es una previsión sorprendentemente optimista comparada con la de muchos de sus compañeros, que a menudo predicen que la AGI aún está a varias décadas de distancia.
"Todavía se necesitan avances", reconoció. “Pero nos estamos acercando. La pieza que más falta hace es conseguir que los sistemas de IA aprendan de la experiencia de forma más natural, en lugar de alimentarlos con conjuntos de datos etiquetados".
Como lo describe Sutton, uno de los mayores desafíos es enseñar a la IA a dar sentido a la planificación y la abstracción a largo plazo: la capacidad de descomponer problemas complejos en piezas más pequeñas y manejables, como lo hacen los humanos.
"Si te digo que cruces la calle, no piensas en cada pequeño movimiento muscular. Piensas en el objetivo: cruzar la calle. “La IA necesita aprender así, a un nivel más alto de abstracción”, explicó Sutton.
Una de sus principales contribuciones al aprendizaje reforzado es el concepto de abstracción temporal, que permite a la IA aprender por pasos en lugar de quedarse atrapada en la microgestión. Esto podría ser crítico para los sistemas de IA que necesitan razonar a lo largo de horizontes temporales largos, algo con lo que los modelos actuales tienen dificultades.
Por ejemplo, un asistente de IA podría generar una buena respuesta a una pregunta concreta, pero tener dificultades para mantener una conversación lógica a lo largo de varias interacciones o planificar una tarea compleja que se desarrolla en el tiempo, como reservar unas vacaciones que implican coordinar vuelos, hoteles y actividades. Sutton cree que el aprendizaje por refuerzo y mejores algoritmos de razonamiento a largo plazo serán la clave para superar esta limitación.
Sutton cree que la mejor manera de pensar en el futuro de la IA no es como herramientas o esclavos, sino como niños: aprender, evolucionar y, finalmente, alcanzar la independencia.
"No tratamos a nuestros hijos como máquinas que deben ser controladas", dijo. "Les guiamos, les enseñamos, pero en última instancia, se convierten en seres autónomos. Con la IA pasará algo parecido".
Sutton advierte que tratar la IA como algo que hay que dominar o esclavizar podría llevar a relaciones de confrontación más que a cooperación. En cambio, argumenta que al igual que los niños aprenden los valores de la sociedad humana a través de la observación y la interacción, la IA debe enseñarse, no programarse, para alinearse con los valores humanos.
“No se trata de control; se trata de comprensión”, explicó. "Cuando educas a un niño, no te limitas a imponerle normas estrictas y esperar que obedezca. Demuestras amabilidad, justicia y cooperación, y el niño interioriza esos valores. La IA puede aprender de la misma manera".
La analogía plantea preguntas profundas. Si la IA se vuelve más autónoma, ¿cómo integrará la sociedad a estos seres digitales? ¿Tendrán derechos? ¿Se les debe dar independencia? Sutton sugiere que la forma en que abordemos el desarrollo de la IA ahora definirá cómo se desarrollarán estas relaciones futuras.
"Si criamos a la IA en un entorno de confianza y cooperación, aprenderán a existir junto a nosotros. Si los tratamos como adversarios, corremos el riesgo de crear sistemas que tengan todas las razones para resistirse", afirmó.
La perspectiva de Sutton desafía las narrativas convencionales basadas en el miedo sobre la alineación de la IA, que a menudo asumen que la IA avanzada debe estar encadenada para evitar que perjudique a la humanidad. En cambio, propone un enfoque basado en el beneficio mutuo, donde la IA aprende a través de la experiencia en lugar de mediante restricciones rígidas.
La visión de Sutton sobre la IA consiste, en última instancia, en construir máquinas que aprendan como lo hacen los humanos: a través de la exploración, la experiencia y la adaptación. Para él, el futuro de la IA no consiste en modelos más grandes o más reglas, sino en crear sistemas de IA que puedan resolver las cosas por sí mismos.
El premio en metálico del Premio Turing (500 000 dólares del millón de dólares compartido con Barto) ya se está poniendo al servicio de esa visión. Ha creado el Instituto de Investigación Openmind, cuyo objetivo es dar a los jóvenes investigadores de IA la libertad de explorar cuestiones fundamentales sobre el aprendizaje, sin las presiones de la comercialización.
"Cuando Andy Barto y yo empezamos, teníamos el tiempo y el espacio para explorar ideas libremente", dijo. “Eso es lo que llevó al aprendizaje por refuerzo a convertirse en lo que es hoy. Quiero dar a la próxima generación la misma oportunidad".
Entonces, ¿la IA a nivel humano es inevitable? Sutton sigue siendo cautelosamente optimista. "No es una cuestión de si ocurrirá, sino de cuándo", dijo. “Y cuando suceda, no será porque hayamos construido un modelo más grande. Será porque construimos un alumno más inteligente".
