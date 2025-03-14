À medida que a inteligência artificial molda cada vez mais o nosso mundo, um de seus pais fundadores alerta contra a empolgação e o medo.
Andrew Barto, recentemente homenageado com o Prêmio Turing, a maior honraria da computação, passou décadas desenvolvendo o aprendizado por reforço— a tecnologia que agora impulsiona tudo, desde campeões de IA em jogos até sistemas de descoberta de medicamentos e as capacidades de raciocínio por trás dos grandes modelos de linguagem atuais. Em entrevista ao IBM Think, Barto oferece uma avaliação medida do progresso, do potencial e das limitações da IA, que vai além do otimismo tecnologicamente e dos cenários do fim do mundo.
O aprendizado por reforço, a abordagem computacional para aprender com a interação que Barto ajudou a desenvolver, tornou-se onipresente no cenário atual da IA. Enquanto muitos o associam a conquistas de manchetes,como derrotar campeões mundiais em jogos complexos, Barto vê suas aplicações mais significativas em domínios mais práticos.
"Já está sendo usado em vários lugares, muitos em robótica", explica ele. "Existem grandes possibilidades para os robôs usarem o aprendizado por reforço para capacitá-los a fazer movimentos muito detalhados e úteis que possam ajudar pessoas em casa ou pessoas com deficiências."
Barto destaca aplicações médicas em que o aprendizado por reforço otimiza protocolos de tratamento por longos períodos — precisamente o tipo de problemas de tomada de decisão sequencial em que a tecnologia se destaca.
“Uma das características do aprendizado por reforço é que ele pode lidar com problemas de decisão sequencial em que várias decisões são tomadas ao longo do tempo e, em cada caso, o estado do sistema depende da decisão anterior”, diz ele. Essa capacidade de lidar com recompensas atrasadas — consequências que só se materializam após uma sequência de ações — representa um desafio fundamental que os algoritmos de aprendizado por reforço abordam.
Matt Riemer, um engenheiro de pesquisa de deep learning do IBM IA Foundations Lab, aponta para aplicações ainda mais recentes.
“Os pesquisadores aplicaram com sucesso abordagens baseadas em aprendizado por reforço ao problema da descoberta de medicamentos, onde estão apenas começando a ver alguns resultados muito promissores”, disse ele à Think em uma entrevista. "Recentemente, também teve sucesso em problemas importantes, como otimizar e automatizar o processo de tratamento de água."
Por trás das habilidades impressionantes dos chatbots de hoje reside o aprendizado de reforço. Riemer explica: "Com o recente sucesso dos LLMs, vimos casos de uso de alto perfil de RL melhorando seus recursos". A primeira grande aplicação foi chamada RLHF —aprendizado por reforço a partir do feedback humano— que ajuda esses sistemas a produzirem respostas que correspondem melhor ao que as pessoas desejam.
Embora grandes modelos de linguagem tenham chamado a atenção do público com sua capacidade de gerar textos semelhantes aos humanos, seu desenvolvimento deve muito ao aprendizado por reforço. Como Riemer explica, "Mais recentemente, vimos o RL emergir como a abordagem mais proeminente para treinar os chamados modelos de 'pensamento' que aprendem uma cadeia de pensamento que aprimora os recursos dos LLMs."
Os problemas de matemática são campos de treinamento ideais para esses sistemas. "Para problemas como raciocínio matemático, é fácil construir recompensas verificáveis, ou seja, 'o agente respondeu ao problema corretamente ou não?'", explica Riemer. Essas respostas claras ou erradas criam o que ele chama de "ambiente de pseudo-simulação", onde a IA pode aprender por meio da prática repetida.
O impacto da aprendizagem por reforço se estende além da pesquisa acadêmica ou aplicações especializadas. Sua influência é cada vez mais sentida em tecnologias que interagem com os usuários cotidianos. "Isso é provavelmente apenas o começo, pois provavelmente veremos o RL desempenhar um papel ainda mais proeminente à medida que o campo começa a desenvolver 'agentes de IA' que interagem com navegadores da web e outras ferramentas para melhor ajudar os usuários", prevê Riemer.
Barto mantém o otimismo cauteloso de um cientista que testemunhou inúmeros ciclos de entusiasmo tecnológico. Ele reconhece o desafio quando perguntado sobre a segurança e o alinhamento da IA, garantindo que os sistemas de IA ajam de acordo com valores humanos.
"O problema do alinhamento é um problema não trivial", diz ele. “Esperávamos que um sistema de RL pudesse direcionar uma IA para incorporar os valores dos humanos que estão usando o sistema. Então, espero que isso possa acontecer. Não tenho receita para isso.”
Em busca de inspiração sobre as recompensas da IA, Barto recorre aos nossos cérebros. “Nossas funções de recompensa vêm de mecanismos que evoluíram ao longo de milhões de anos”, explica ele. Ao contrário de recompensas informáticas simples, a motivação humana emerge de pressões evolutivas complexas que mantiveram nossos antecessores vivos e se reproduzindo.
Essa perspectiva evolutiva informa seu pensamento sobre o aprendizado por reforço multicritério, onde os sistemas respondem a vários sinais de recompensa em vez de apenas um — potencialmente espelhando como diferentes partes do cérebro humano processam várias formas de feedback.
"Acho que o aprendizado por reforço multicritério é algo realmente muito importante", observa Barto. “Em vez de ter uma função de recompensa, pode haver várias… diferentes partes do cérebro, por exemplo, provavelmente receberam sinais diferentes.”
O aprendizado de reforço é excelente em videogames e simulações, mas tem dificuldades no mundo real. O problema? Esses sistemas aprendem explorando diferentes ações, um ponto forte em ambientes virtuais, mas um grande risco na realidade. "A exploração é o maior ponto de venda da RL e seu maior fator limitante para o uso no mundo real", explica Riemer, destacando por que ambos os pesquisadores veem essa transição como um desafio crítico.
"No mundo real, fora da simulação, a exploração pode levar o agente a realizar coisas imprevisíveis, que são uma grande preocupação para a segurança da IA", explica Riemer. “Além disso, mesmo para casos de uso em que podemos tolerar a exploração, há um problema com a eficiência de amostra de RL. Muitas vezes parece que precisa explorar muito mais do que um humano faria na mesma situação.”
Barto observa desafios semelhantes: “Vai levar muito mais tempo porque as simulações podem ser executadas muito, muito mais rápido do que a experiência física no mundo”. Ele acrescenta: "Se é um robô, ele aprende por meio de tentativa e erro, e se um erro levar a uma queda ou algo que danifique a máquina, então esse é o problema."
Essa abordagem cautelosa em relação à implementação no mundo real decorre de considerações práticas e de segurança. Barto enfatiza a necessidade de especificação cuidadosa das funções de recompensa "para que o sistema não apresente algo realmente inesperado e possivelmente problemático".
O desafio vai além da mera implementação. Como Riemer aponta, os sistemas de aprendizagem por reforço também devem se adaptar a ambientes em mudança: "A RL contínua estuda a questão de como os agentes de RL podem se adaptar à natureza mutável dos ambientes do mundo real, ou seja, quando o mundo está diferente do que era antes durante o pré ou quando treinamos em um simulador."
Essa adaptabilidade apresenta o que Riemer chama de "o problema clássico do 'dilema de estabilidade-plasticidade', em que o agente deve decidir como priorizar o desempenho em suas novas experiências e o desempenho em suas experiências antigas". Esse equilíbrio entre a retenção de conhecimentos prévios e a adaptação a novas condições representa um desafio contínuo na área.
Apesar desses obstáculos, os pesquisadores estão encontrando soluções promissoras ao combinar o aprendizado por reforço com outras abordagens de IA. Riemer vê uma promessa particular na integração com grandes modelos de linguagem: "O que realmente faltava em RL era a capacidade de entender o mundo o suficiente para que pudesse estruturar sua exploração de forma mais lógica. Estamos começando a ver evidências de que os LLMs podem ser usados como uma base sólida de conhecimento mundial para desenvolver o treinamento de RL, o que é muito empolgante da perspectiva de viabilizar casos de uso no mundo real para RL.”
A integração entre o aprendizado por reforço e outras técnicas de IA está evoluindo rapidamente. "A principal tendência que estamos vendo é a maneira como outros métodos podem ajudar o RL a construir uma representação do mundo que ele pode usar para explorar mais", diz Riemer. "Por exemplo, em domínios de linguagem, o RL se tornou uma ferramenta muito eficaz usada junto com LLMs pré-treinados."
Essa relação complementar funciona nos dois sentidos: o aprendizado por reforço aprimora os modelos de linguagem, enquanto os modelos de linguagem fornecem sistemas de aprendizado por reforço com melhores representações do mundo. "Estamos começando a ver coisas semelhantes em casos de uso como robótica ou construção de agentes de IA, onde a RL está se tornando mais eficaz quando combinada com o conhecimento incorporado nos VLMs que também possuem recursos de visão", explica Riemer.
Quando a conversa se volta para a inteligência artificial geral (AGI)—sistemas com habilidades cognitivas semelhantes às humanas em vários domínios—Barto expressa ceticismo quanto à sua probabilidade como objetivo de pesquisa.
"Não vejo utilidade em tornar a inteligência de nível humano um objetivo", afirma ele abertamente. "O objetivo de tentar entender como a inteligência humana funciona é diferente de tentar criar máquinas que estejam em um nível humano."
Uma fronteira particularmente intrigante que Barto identifica é o aprendizado por reforço de múltiplos agentes: sistemas onde múltiplos agentes de aprendizado interagem, potencialmente com objetivos diferentes. Esta abordagem não só tem implicações para o desenvolvimento de IA, mas também pode iluminar o funcionamento de nossos próprios cérebros.
“A hipótese de que os neurônios são agentes de aprendizado por reforço e que o cérebro é uma sociedade de agentes em interação que poderiam ter objetivos diferentes entre si” continua sendo uma “hipótese incomum”, reconhece ele, mas com potenciais implicações para a neurociência.
Para Barto, as contribuições mais valiosas do aprendizado por reforço podem não estar na criação de inteligência semelhante à humana, mas na solução de problemas específicos que melhoram a vida humana, um legado talvez mais significativo do que o próprio Prêmio Turing.
