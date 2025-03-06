Richard Sutton, uno de los pioneros detrás de la inteligencia artificial moderna, no está convencido de que simplemente arrojar más potencia informática a la IA conducirá a máquinas que piensen como humanos. De hecho, argumenta que la obsesión actual por escalar el aprendizaje profundo podría estar frenando a la IA de todo su potencial.
Sutton, junto con su antiguo colaborador Andrew Barto, ganó el Premio Turing de este año,a menudo llamado "Premio Nobel de Computación", por su trabajo en el aprendizaje por refuerzo. Él cree que el verdadero avance llegará cuando la IA deje de depender de conjuntos de datos curados y comience a aprender de la experiencia, al igual que un niño.
“Si queremos inteligencia real, la IA debe aprender haciendo, por prueba y error”, dijo Sutton en una entrevista. “La computación no es una panacea. Más computación ayuda, pero no es el ingrediente central de la inteligencia”.
Es una afirmación audaz en un momento en que gigantes de la IA como OpenAI, Google DeepMind y Anthropic compiten por escalar sus modelos a escala, alimentándolos con cantidades cada vez mayores de datos y cálculos en busca de razonamientos a nivel humano. Sin embargo, Sutton cree que este enfoque es defectuoso, argumentando que el verdadero progreso vendrá de refinar los algoritmos que gobiernan la forma en que aprenden las máquinas, no solo de hacerlas más grandes.
Las contribuciones de Sutton a la IA se remontan a décadas. Aun así, su impacto más significativo ha sido en el aprendizaje por refuerzo. Este método permite que la IA aprenda interactuando con su entorno, al igual que los humanos y los animales aprenden a través de prueba y error.
El aprendizaje por refuerzo funciona recompensando a un sistema de IA por las acciones correctas y penalizándolo por los errores, de manera similar a como un niño aprende que tocar una estufa caliente es una mala idea, pero alcanzar un juguete es bueno. Con el tiempo, el sistema de IA refina su proceso de toma de decisiones maximizando las recompensas y minimizando los errores.
Esta técnica fue empleada de forma famosa en AlphaGo, el sistema de IA desarrollado por Google DeepMind que sorprendió al mundo en 2016 al derrotar al campeón mundial de Go Lee Sedol. La IA no aprendió memorizando estrategias humanas, sino jugando millones de juegos contra sí misma, refinando su estrategia a través del aprendizaje por refuerzo.
Desde entonces, el aprendizaje por refuerzo se ha expandido más allá de los juegos hacia áreas como la robótica, el comercio financiero y la atención médica. Ayuda a optimizar los automóviles autónomos, mejorar los algoritmos de comercio automatizado e incluso ajustar los chatbots de IA como ChatGPT a través del aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). El RLHF permite que los modelos de IA refinen sus respuestas en función de las interacciones del usuario, haciéndolas más conversacionales y alineadas con las expectativas humanas.
A pesar de estos avances, Sutton cree que el aprendizaje por refuerzo aún no se ha utilizado por completo. “Todavía es temprano”, dijo. “Los sistemas de IA actuales se basan principalmente en datos preprocesados, no en interacciones del mundo real. Eso debe cambiar si queremos una IA que realmente entienda y se adapte”.
La idea de la inteligencia artificial general (AGI), IA que puede pensar, razonar y aprender en una amplia gama de tareas a la par que un humano, ha sido durante mucho tiempo un tema controvertido. Algunos expertos argumentan que AGI está a muchos años de distancia, mientras que otros creen que tal vez nunca sea posible. En otro campo, algunos expertos afirman que AGI no es el objetivo correcto para priorizar. “No debemos olvidar el poder de estos modelos en otros dominios no lingüísticos”, dijo Marina Danilevsky, científica investigadora sénior de IBM, en un episodio del pódcast Mixture of Experts. "Si realmente ampliamos dónde podría usarse esta tecnología... podemos ir a lugares que son mucho más interesantes, mucho más pragmáticos, mucho más prácticos... [en lugar de] perseguir AGI".
Sutton adopta una postura mesurada. Estima una posibilidad entre cuatro de que la IA pueda alcanzar la inteligencia a nivel humano en cinco años y una probabilidad del 50 % en 15 años. Ese es un pronóstico sorprendentemente optimista en comparación con muchos de sus pares, quienes a menudo predicen que aún faltan varias décadas para AGI.
“Todavía se necesitan avances”, reconoció. “Pero nos estamos acercando. La mayor pieza que falta es cómo hacer que los sistemas de IA aprendan de la experiencia de una manera más natural, en lugar de ser conjuntos de datos etiquetados alimentados con cuchara”.
Como lo describe Sutton, uno de los mayores desafíos es enseñar a la IA a dar sentido a la planificación y la abstracción a largo plazo: la capacidad de desglosar problemas complejos en piezas más pequeñas y manejables, como lo hacen los humanos.
“Si te digo que cruces la calle, no piensas en cada pequeño movimiento muscular. Piensas en el objetivo: cruzar la calle. La IA necesita aprender así, a un nivel más alto de abstracción”, explicó Sutton.
Una de sus contribuciones clave al aprendizaje por refuerzo es el concepto de abstracción temporal, que permite que la IA aprenda en pasos en lugar de empantanarse en la microgestión. Esto podría ser crítico para los sistemas de IA que necesitan razonar a largo plazo, algo con lo que los modelos actuales tienen dificultades.
Por ejemplo, un asistente de IA podría generar bien una respuesta a una sola pregunta, pero tener dificultades para mantener una conversación lógica a través de múltiples interacciones o planificar una tarea compleja que se desarrolla con el tiempo, como reservar unas vacaciones que implique coordinar vuelos, hoteles y actividades. . Sutton cree que el aprendizaje por refuerzo y mejores algoritmos de razonamiento a largo plazo serán clave para superar esta limitación.
Sutton cree que la mejor manera de pensar sobre el futuro de la IA no es como herramientas o esclavos, sino como niños, aprendiendo, evolucionando y eventualmente ganando independencia.
“No tratamos a nuestros hijos como máquinas que deben ser controladas”, dijo. “Los guiamos, les enseñamos, pero en última instancia, se convierten en sus propios seres. La IA no será diferente”.
Sutton advierte que tratar la IA como algo que se debe dominar o esclavizar podría conducir a relaciones de confrontación en lugar de cooperación. En cambio, sostiene que, al igual que los niños aprenden los valores de la sociedad humana a través de la observación y la interacción, la IA debe enseñarse, y no programarse, para que se ajuste a los valores humanos.
“No se trata de control; se trata de comprender”, explicó. “Cuando crías a un niño, no solo impones reglas estrictas y esperas obediencia. Usted demuestra amabilidad, equidad y cooperación, y el niño interioriza esos valores. La IA puede aprender de la misma manera.
La analogía plantea preguntas profundas. Si la IA se vuelve más autónoma, ¿cómo integrará la sociedad a estos seres digitales? ¿Tendrán derechos? ¿Se les debe dar independencia? Sutton sugiere que la forma en que abordamos el desarrollo de la IA ahora definirá cómo se desarrollarán estas relaciones futuras.
“Si criamos la IA en un entorno de confianza y cooperación, aprenderán a existir junto a nosotros. Si los tratamos como adversarios, corremos el riesgo de crear sistemas que tienen todas las razones para resistirnos”, dijo.
La perspectiva de Sutton desafía las narrativas convencionales basadas en el miedo sobre la alineación de la IA, que a menudo asumen que la IA avanzada debe estar encadenada para evitar que dañe a la humanidad. En cambio, propone un enfoque basado en el beneficio mutuo, donde la IA aprende a través de la experiencia en lugar de restricciones rígidas.
La visión de Sutton para la IA consiste, en última instancia, en construir máquinas que aprendan como lo hacen los humanos, a través de la exploración, la experiencia y la adaptación. Para él, el futuro de la IA no consiste en crear modelos más grandes o más reglas, sino en desarrollar sistemas de IA que puedan resolver las cosas por sí mismos.
El dinero de su premio Turing Award (500 000 USD del millón de USD compartido con Barto) ya se está poniendo a trabajar hacia esa visión. Creó el Instituto de Investigación Openmind, cuyo objetivo es dar a los jóvenes investigadores de IA la libertad de explorar cuestiones fundamentales sobre el aprendizaje, sin las presiones de la comercialización.
“Cuando Andy Barto y yo comenzamos, teníamos el tiempo y el espacio para explorar ideas libremente”, dijo. "Eso fue lo que llevó a que el aprendizaje por refuerzo se convirtiera en lo que es hoy. Quiero darle a la próxima generación esa misma oportunidad”.
Entonces, ¿es inevitable la IA a nivel humano? Sutton sigue siendo cautelosamente optimista. “No es una cuestión de si, es una cuestión de cuándo”, dijo. “Y cuando suceda, no será porque construimos un modelo más grande. Será porque creamos un aprendiz más inteligente”.
