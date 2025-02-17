Seu gato doméstico pode ser mais inteligente que o ChatGPT. Embora a inteligência artificial agora possa escrever poesia e passar em exames de direito, ela ainda não consegue se igualar às habilidades básicas de raciocínio que permitem ao seu gato navegar pelos parapeitos das janelas e atacar suas presas.
Essa lacuna, entre o domínio da IA sobre o conhecimento humano e sua incapacidade de se igualar à compreensão do mundo físico que um animal possui, emergiu como um desafio crucial na busca por máquinas mais inteligentes. O cientista-chefe de IA da Meta, Yann LeCun, trouxe o assunto à tona na semana passada em uma cúpula de segurança de IA em Paris, argumentando que "modelos mundiais", sistemas de IA que formam representações internas de estrutura, dinâmica e relações causais, podem ser a chave para o avanço da inteligência artificial.
No entanto, alguns pesquisadores de renome questionam se essa abordagem é tão inovadora quanto parece.
"A IA vem usando modelos mundiais desde a década de 1950, e vários subcampos da IA dependem inteiramente de modelos mundiais", Stuart J. Russell, professor de Ciência da Computação na Universidade da Califórnia em Berkeley, disse ao IBM Think. "É tão inovador e engenhoso quanto sugerir que a matemática possa ser útil para a física."
O debate destaca uma busca cada vez mais intensa para alcançar a inteligência artificial geral (AGI), ou seja, sistemas de IA que possam se igualar ou superar o aprendizado e o raciocínio humanos em praticamente qualquer domínio. Diferentemente dos sistemas de IA especializados de hoje, que se destacam em tarefas específicas como xadrez ou processamento de linguagem, a AGI precisaria compreender o mundo de forma mais ampla, combinando habilidades de raciocínio, compreensão física e adaptabilidade.
As principais empresas de tecnologia adotaram abordagens diferentes para enfrentar esse desafio. A OpenAI, por meio de sua série GPT, tem se concentrado em ampliar a escalabilidade de modelos de linguagem para alcançar um raciocínio cada vez mais sofisticado. O Google DeepMind, com sistemas como o AlphaFold e o AlphaGo, tem mirado domínios específicos enquanto trabalha para desenvolver habilidades mais gerais. Enquanto isso, a Meta enfatizou a importância de aprender com a interação do mundo real, e não apenas com texto.
"Esqueçam tentar reproduzir a inteligência humana", disse LeCun na cúpula. "Não podemos nem reproduzir a inteligência dos gatos ou dos ratos." Qualquer gato doméstico é capaz de planejar ações extremamente complexas."
Nos últimos anos, os sistemas de IA têm aumentado rapidamente suas pontuações em benchmarks em domínios específicos. Mas LeCun aponta para o que os pesquisadores chamam de paradoxo de Moravec: a constatação de que as habilidades que os humanos consideram fáceis muitas vezes se mostram as mais difíceis para as máquinas dominarem.
"Coisas damos como certas só porque humanos e animais conseguem fazer, tendemos a achar que não são complicadas, mas, na verdade, são extremamente complexas", disse LeCun. "E as coisas que consideramos exclusivamente humanas, como manipular e gerar linguagem e jogar xadrez, acabam sendo relativamente fáceis."
Esse paradoxo, de que a IA se destaca em tarefas que consideramos intelectualmente exigentes, enquanto apresenta dificuldades com habilidades físicas e perceptivas aparentemente básicas, gera ceticismo em alguns especialistas.
"O processo de passar de uma sequência de imagens de retina para, digamos, as equações de Maxwell para eletromagnetismo demorou para a raça humana dezenas de milhares de anos e demandou um processo cumulativo de formação de conceitos e matematização", diz Russell. "Não vi nada parecido com isso nos sistemas de deep learning atuais."
Para ilustrar as limitações atuais, LeCun apontou para uma comparação impressionante: os modernos LLMs são treinados com trilhões de tokens, uma quantidade de texto que levaria meio milhão de anos para um ser humano ler. No entanto, uma criança de quatro anos, acordada por apenas cerca de 16.000 horas, processa uma quantidade comparável de dados somente através da percepção visual.
"Uma criança de quatro anos já viu tantos dados quanto o maior LLM na forma de percepção visual, e para as crianças cegas, é o tato", disse LeCun. "Isso nos diz várias coisas. Nunca vamos atingir o nível de inteligência humana apenas com treinamento baseado em texto."
Essa observação levou os pesquisadores a explorar novas abordagens. Na Meta, a equipe de LeCun até abandonou completamente o termo "inteligência artificial geral", preferindo "inteligência de máquina avançada" (AMI). "O motivo é que a inteligência humana é, na verdade, bastante especializada, e, portanto, chamá-la de AGI é um termo um tanto inadequado", disse LeCun.
LeCun acha que precisamos repensar completamente como a IA evoluirá. Em vez de tentar copiar o cérebro humano, ele quer mudar a forma como a IA aprende sobre o mundo e o compreende. Ele argumenta que a IA precisa construir sua própria imagem mental da realidade, absorvendo informações por meio de seus "sentidos", como aprender a observar o comportamento de objetos físicos apenas assistindo a vídeos. Esses sistemas de IA precisariam memorizar informações de forma consistente e saber como planejar suas ações passo a passo para realizar as tarefas.
Os cientistas da computação divergem sobre como os sistemas de IA podem desenvolver sua própria compreensão do mundo. O professor emérito da Universidade de Washington Pedro Domingos considera o progresso possível, mas não imediato. "É perfeitamente viável criar IAs que desenvolvam seus próprios modelos do mundo", disse ele ao IBM Think, "mas ainda não sabemos como, e são necessárias mais pesquisas".
As capacidades atuais da IA estão aquém do nível de raciocínio humano, principalmente no que diz respeito a tarefas complexas. Como afirma Russell: "Desde a década de 1960, entendemos que usar modelos de mundo simples e uniformes leva a problemas de raciocínio e planejamento completamente intratáveis. (Imagine tentar planejar férias calculando com antecedência a sequência exata de 800 milhões de ativações musculares necessárias.)" Os seres humanos, observa ele, processam informações de maneira diferente: "A principal ferramenta que os humanos usam para superar isso é a hierarquia, operamos com muitos modelos em muitos níveis de abstração, desde grandes ações de alto nível... até pequenas ações de baixo nível, como mover um dedo para digitar a próxima letra 'i' neste e-mail."
