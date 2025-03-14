O aprendizado de reforço é excelente em videogames e simulações, mas tem dificuldades no mundo real. O problema? Esses sistemas aprendem explorando diferentes ações, um ponto forte em ambientes virtuais, mas um grande risco na realidade. "A exploração é o maior ponto de venda da RL e seu maior fator limitante para o uso no mundo real", explica Riemer, destacando por que ambos os pesquisadores veem essa transição como um desafio crítico.

"No mundo real, fora da simulação, a exploração pode levar o agente a realizar coisas imprevisíveis, que são uma grande preocupação para a segurança da IA", explica Riemer. “Além disso, mesmo para casos de uso em que podemos tolerar a exploração, há um problema com a eficiência de amostra de RL. Muitas vezes parece que precisa explorar muito mais do que um humano faria na mesma situação.”

Barto observa desafios semelhantes: “Vai levar muito mais tempo porque as simulações podem ser executadas muito, muito mais rápido do que a experiência física no mundo”. Ele acrescenta: "Se é um robô, ele aprende por meio de tentativa e erro, e se um erro levar a uma queda ou algo que danifique a máquina, então esse é o problema."

Essa abordagem cautelosa em relação à implementação no mundo real decorre de considerações práticas e de segurança. Barto enfatiza a necessidade de especificação cuidadosa das funções de recompensa "para que o sistema não apresente algo realmente inesperado e possivelmente problemático".

O desafio vai além da mera implementação. Como Riemer aponta, os sistemas de aprendizagem por reforço também devem se adaptar a ambientes em mudança: "A RL contínua estuda a questão de como os agentes de RL podem se adaptar à natureza mutável dos ambientes do mundo real, ou seja, quando o mundo está diferente do que era antes durante o pré ou quando treinamos em um simulador."

Essa adaptabilidade apresenta o que Riemer chama de "o problema clássico do 'dilema de estabilidade-plasticidade', em que o agente deve decidir como priorizar o desempenho em suas novas experiências e o desempenho em suas experiências antigas". Esse equilíbrio entre a retenção de conhecimentos prévios e a adaptação a novas condições representa um desafio contínuo na área.

Apesar desses obstáculos, os pesquisadores estão encontrando soluções promissoras ao combinar o aprendizado por reforço com outras abordagens de IA. Riemer vê uma promessa particular na integração com grandes modelos de linguagem: "O que realmente faltava em RL era a capacidade de entender o mundo o suficiente para que pudesse estruturar sua exploração de forma mais lógica. Estamos começando a ver evidências de que os LLMs podem ser usados como uma base sólida de conhecimento mundial para desenvolver o treinamento de RL, o que é muito empolgante da perspectiva de viabilizar casos de uso no mundo real para RL.”

A integração entre o aprendizado por reforço e outras técnicas de IA está evoluindo rapidamente. "A principal tendência que estamos vendo é a maneira como outros métodos podem ajudar o RL a construir uma representação do mundo que ele pode usar para explorar mais", diz Riemer. "Por exemplo, em domínios de linguagem, o RL se tornou uma ferramenta muito eficaz usada junto com LLMs pré-treinados."

Essa relação complementar funciona nos dois sentidos: o aprendizado por reforço aprimora os modelos de linguagem, enquanto os modelos de linguagem fornecem sistemas de aprendizado por reforço com melhores representações do mundo. "Estamos começando a ver coisas semelhantes em casos de uso como robótica ou construção de agentes de IA, onde a RL está se tornando mais eficaz quando combinada com o conhecimento incorporado nos VLMs que também possuem recursos de visão", explica Riemer.

Quando a conversa se volta para a inteligência artificial geral (AGI)—sistemas com habilidades cognitivas semelhantes às humanas em vários domínios—Barto expressa ceticismo quanto à sua probabilidade como objetivo de pesquisa.

"Não vejo utilidade em tornar a inteligência de nível humano um objetivo", afirma ele abertamente. "O objetivo de tentar entender como a inteligência humana funciona é diferente de tentar criar máquinas que estejam em um nível humano."

Uma fronteira particularmente intrigante que Barto identifica é o aprendizado por reforço de múltiplos agentes: sistemas onde múltiplos agentes de aprendizado interagem, potencialmente com objetivos diferentes. Esta abordagem não só tem implicações para o desenvolvimento de IA, mas também pode iluminar o funcionamento de nossos próprios cérebros.

“A hipótese de que os neurônios são agentes de aprendizado por reforço e que o cérebro é uma sociedade de agentes em interação que poderiam ter objetivos diferentes entre si” continua sendo uma “hipótese incomum”, reconhece ele, mas com potenciais implicações para a neurociência.

Para Barto, as contribuições mais valiosas do aprendizado por reforço podem não estar na criação de inteligência semelhante à humana, mas na solução de problemas específicos que melhoram a vida humana, um legado talvez mais significativo do que o próprio Prêmio Turing.