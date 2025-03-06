Richard Sutton, um dos pioneiros por trás da inteligência artificial moderna, não está convencido de que simplesmente dar mais poder a IA resultará em máquinas que pensam como humanos. Na verdade, ele argumenta que a obsessão atual com a expansão do deep learning pode estar impedindo a IA de atingir seu potencial máximo.
Sutton, juntamente com seu colaborador de longa data, Andrew Barto, que ganhou o Turing Award deste ano, muitas vezes chamado de "Prêmio Nobel da Computação", por seu trabalho em aprendizado por reforço, acredita que o verdadeiro avanço ocorrerá quando a IA parar de depender de conjuntos de dados pré-selecionados e começar a aprender com a experiência, assim como uma criança faz.
“Se quisermos inteligência de verdade, a IA precisa aprender fazendo, por tentativa e erro”, disse Sutton em entrevista. “A computação não é a solução para todos os problemas. Mais computação ajuda, mas não é o ingrediente central da inteligência.”
É uma afirmação ousada em um momento em que gigantes da IA como OpenAI, Google DeepMind e Anthropic estão em uma corrida para escalar seus modelos, alimentando-os com quantidades cada vez maiores de dados e poder computacional na busca por um raciocínio de nível humano. Sutton, no entanto, acredita que essa abordagem é falha, argumentando que o verdadeiro progresso virá do aprimoramento dos algoritmos que regem o aprendizado das máquinas, e não apenas do aumento de seu tamanho.
As contribuições de Sutton para a IA remontam a décadas. Ainda assim, seu impacto mais significativo foi no aprendizado por reforço. Esse método permite que a IA aprenda interagindo com seu ambiente, da mesma forma que humanos e animais aprendem por tentativa e erro.
O aprendizado por reforço funciona recompensando um sistema de IA por ações corretas e penalizando-o por erros, semelhante a como uma criança aprende que tocar em um fogão quente é uma má ideia, mas pegar um brinquedo é bom. Com o tempo, o sistema de IA refina seu processo de tomada de decisão, maximizando as recompensas e minimizando os erros.
Essa técnica ficou famosa ao ser usada no AlphaGo, o sistema de IA desenvolvido pelo Google DeepMind que chocou o mundo em 2016 ao derrotar o campeão mundial de Go, Lee Sedol. A IA não aprendeu memorizando estratégias humanas, mas jogando milhões de jogos contra si mesma, refinando sua estratégia por meio do aprendizado por reforço.
Desde então, o aprendizado por reforço se expandiu para além dos jogos, abrangendo áreas como robótica, negociação financeira e saúde. Isso ajuda a otimizar carros autônomos, melhorar algoritmos de negociação automatizada e até mesmo refinar chatbots de IA como o ChatGPT, por meio do aprendizado por reforço com feedback humano (RLHF). A RLHF permite que os modelos de IA refinem suas respostas com base nas interações com os usuários, tornando-as mais conversacionais e alinhadas às expectativas humanas.
Apesar desses avanços, Sutton acredita que o aprendizado por reforço ainda não foi totalmente utilizado. “Ainda é cedo”, disse ele. “Hoje, os sistemas de IA dependem principalmente de dados pré-processados, não de interações com o mundo real. Isso precisa mudar se quisermos uma IA que realmente entenda e se adapte.”
A ideia da inteligência artificial geral (AGI), uma IA que pode pensar, raciocinar e aprender uma ampla gama de tarefas, da mesma forma que um ser humano, tem sido um tema controverso há muito tempo. Alguns especialistas argumentam que a AGI está distante, enquanto outros acreditam que talvez nunca seja possível. Em uma outra corrente de pensamento, alguns especialistas afirmam que a AGI não é o objetivo certo a ser priorizado. “Não devemos esquecer o poder desses modelos em outros domínios que não são a linguagem”, disse Marina Danilevsky, Senior Research Scientist da IBM, em um episódio do podcast Mixture of Experts. “Se ampliarmos de fato as áreas em que essa tecnologia pode ser usada, podemos ir a lugares muito mais interessantes, muito mais pragmáticos, muito mais práticos, [em vez de] perseguir a AGI.”
Sutton adota uma postura ponderada. Ele estima que haja uma a cada quatro chances de a IA atingir o nível de inteligência humana em cinco anos e 50% de chance em 15 anos. Essa é uma previsão bastante otimista em comparação com muitos de seus colegas, que muitas vezes preveem que a AGI ainda está a várias décadas de distância.
“Ainda são necessários avanços”, reconheceu. “Mas estamos chegando mais perto. A principal lacuna está em como fazer com que os sistemas de IA aprendam com a experiência de uma forma mais natural, em vez de receberem um conjunto de dados rotulados e prontos para uso.”
Como Sutton descreve, um dos maiores desafios é ensinar a IA a entender o planejamento e a abstração a longo prazo – a capacidade de dividir problemas complexos em partes menores e gerenciáveis, como os humanos fazem.
"Se eu disser para você atravessar a rua, você não pensa em cada pequeno movimento muscular. Você pensa no objetivo: atravessar a rua. A IA precisa aprender assim, em um nível mais alto de abstração", explicou Sutton.
Uma de suas principais contribuições para o aprendizado por reforço é o conceito de abstração temporal, que permite à IA aprender em etapas, em vez de ficar presa em microgerenciamento. Isso pode ser crítico para sistemas de IA que precisam raciocinar em horizontes a longo prazo, algo que os modelos atuais enfrentam dificuldades.
Por exemplo, um assistente de IA pode ser capaz de gerar uma resposta adequada para uma única pergunta, mas ter dificuldades em manter uma conversa lógica ao longo de múltiplas interações ou em planejar uma tarefa complexa que se desenrola ao longo do tempo, como fazer reservas de férias que envolvem a coordenação de voos, hotéis e atividades. Sutton acredita que o aprendizado por reforço e melhores algoritmos de raciocínio de longo prazo serão fundamentais para superar essa limitação.
Sutton acredita que a melhor maneira de pensar sobre o futuro da IA não é como ferramentas ou escravos, mas como crianças aprendendo, evoluindo e, por fim, ganhando independência.
“Não tratamos nossos filhos como máquinas que precisam ser controladas”, disse ele. “Nós os orientamos, os ensinamos, mas, no fim das contas, eles se tornam seres independentes.” Com a IA, não será diferente.”
Sutton alerta que tratar a IA como algo a ser dominado ou escravizado pode levar a relações de antagonismo em vez de cooperação. Em vez disso, ele argumenta que, assim como as crianças aprendem os valores da sociedade humana por meio de observação e interação, a IA deve ser ensinada, não programada, para se alinhar aos valores humanos.
“Não se trata de controle; trata-se de compreensão”, explicou ele. “Quando você cria um filho, você não exige apenas regras rígidas e espera que ele obedeça. Você demonstra gentileza, justiça e cooperação, e a criança internaliza esses valores. A IA pode aprender da mesma forma.”
A analogia levanta questões profundas. Se a IA se tornar mais autônoma, como a sociedade integrará esses seres digitais? Eles terão direitos? Devem ter independência? Sutton sugere que a forma como abordamos o desenvolvimento da IA agora definirá como essas relações futuras irão se desenvolver.
“Se criarmos IA em um ambiente de confiança e cooperação, ela aprenderá a coexistir conosco.” Se a tratarmos como adversárias, corremos o risco de criar sistemas que tenham todos os motivos para resistir a nós", disse ele.
A perspectiva de Sutton desafia as narrativas convencionais baseadas no medo sobre o alinhamento da IA, que frequentemente partem do pressuposto de que a IA avançada deve ser controlada para evitar que prejudique a humanidade. Em vez disso, ele propõe uma abordagem baseada no benefício mútuo, em que a IA aprende por meio da experiência, em vez de restrições rígidas.
A visão de Sutton para a IA é, em última análise, construir máquinas que aprendam como os humanos, por meio de exploração, experiência e adaptação. Para ele, o futuro da IA não está em modelos maiores ou em mais regras, mas sim em criar sistemas de IA capazes de resolver problemas por conta própria.
O dinheiro que ele recebeu como prêmio do Turing Award – USD 500.000 dos USD 1 milhão divididos com Barto – já está sendo usado em prol dessa visão. Ele criou o Openmind Research Institute, com o objetivo de dar aos jovens pesquisadores de IA a liberdade de explorar questões fundamentais sobre o aprendizado, sem as pressões da comercialização.
“Quando Andy Barto e eu começamos, tínhamos tempo e liberdade para explorar ideias livremente”, disse ele. “Foi isso que fez com que o aprendizado por reforço se tornasse o que é hoje. Quero dar à próxima geração essa mesma oportunidade.”
Então, a IA em nível humano é inevitável? Sutton se mantém um otimismo cauteloso. “Não é uma questão de ‘se’, mas sim de ‘quando’”, disse ele. “E quando isso acontecer, não será porque construímos um modelo maior. Será porque construímos um aprendiz mais inteligente.”
