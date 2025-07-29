No mês passado, um jogo para console Atari 2600 de 8 bits e sem RAM, de 1979, causou alvoroço nas rodas sobre de IA e jogos ao derrotar o ChatGPT e o Microsoft Copilot no xadrez. Muitos céticos da IA viram isso como uma história de Davi contra Golias – e uma prova de que a IA generativa é só conversa e nenhuma inteligência. "IA aprende com um Atari de 50 anos atrás", dizia uma manchete típica sobre o experimento, que o engenheiro da Citrix Robert Caruso conduziu e descreveu em várias postagens no LinkedIn.
Segundo especialista da IBM, a polêmica serve como um bom lembrete do que a IA generativa pode e não pode fazer, e de como ela funciona. "As pessoas estão usando o ChatGPT para fazer muitas coisas", disse Chris Hay, Engenheiro Distinto da IBM, ao IBM Think. "Achar que o ChatGPT pode jogar xadrez é como achar que ele pode ser sua namorada ou terapeuta."
Segundo Hay, a retumbante derrota dos LLMs é um bom lembrete de como eles funcionam: produzem conteúdo com base em correlações aprendidas entre palavras, e não seguindo regras ou planejando. Os LLMs são ruins no xadrez pelo mesmo motivo que às vezes são ruins em adição e jogo da velha: eles não foram feitos para essas tarefas.
"No fim das contas", disse Hay, "o xadrez é um problema de busca." A cada movimento, o jogador, seja humano ou máquina, deve percorrer uma árvore de decisão, avaliar os resultados possíveis e atribuir uma classificação de valor às diversas opções. O Atari Video Chess foi programado especificamente para isso. Em contrapartida, a lógica do LLM é "baseada em sistemas de previsão do próximo token", disse Hay. "Esses modelos basicamente recebem a internet inteira como material de treino e, a partir disso, são treinados para prever qual será a próxima palavra."
O jogo de xadrez não se baseia na previsão do próxima token. "Existem muitas combinações no jogo", disse Hay.
Em entrevista ao IBM Think, PJ Hagerty, líder de defesa de IA na IBM, um jogador de xadrez competitivo e proprietário de um console Atari 2600 original, enfatizou que o jogo de xadrez do Atari usa um "método de força bruta".
Esse método, usado por muitos dos primeiros jogos de videogame baseados em estratégia, envolve analisar vários movimentos possíveis e usar cálculos baseados em probabilidade para escolher o movimento ideal. "Esse código se concentrava em uma árvore lógica que usava médias para determinar a melhor jogada possível", disse Hagerty.
Veja como funciona a árvore de decisão no xadrez, também conhecida como árvores de jogo, independentemente de o jogador ser humano ou máquina.
Digamos que duas pessoas estejam jogando xadrez. As peças brancas fazem o primeiro movimento e o jogador decide avançar o peão do rei duas casas. Na notação de xadrez, isso é conhecido como E2, que por acaso é o primeiro movimento mais popular. Em seguida, é a vez das peças pretas. Com base na E2 das peças brancas, as peças pretas têm 20 opções legais diferentes para seu movimento: 16 movimentos de peão e 4 movimentos de cavalo. Cada uma dessas opções diferentes leva a outras opções ainda maiores, portanto, o tamanho da árvore provavelmente crescerá exponencialmente a cada fator de ramificação.
Por exemplo, na histórica partida de 1956 entre os jogadores americanos Bobby Fischer e Donald Byrne, a partida durou 41 lances completos, ou 82 meio-lances. A quantidade média de movimentos possíveis em uma posição de xadrez, dependendo de quem você pergunta, fica entre 20 e 40; para simplificar, vamos dizer que são 30 movimentos. Nesse caso, o tamanho aproximado da árvore do jogo é de 3082. Não vamos escrever o número completo, pois ele tem 122 dígitos.
Para o jogador humano comum, não é fácil manter na cabeça os prós e os contras de tantos movimentos de uma só vez. E os jogadores normalmente não fazem isso. Em vez disso, eles descartam instintivamente lances claramente ruins com base em certos princípios fundamentais, como "não expor a rainha no início do jogo".
Na linguagem das redes neurais, esse processo de seleção é conhecido como "poda", já que envolve literalmente cortar os galhos de uma árvore de jogo. Os jogadores humanos podem podar. Assim como as modernas e sofisticadas máquinas de xadrez computadorizadas. Mas um jogo de xadrez de console de 46 anos não consegue fazer isso, então ele roda todas as opções possíveis para os próximos 1 ou 2 lances e escolhe aquela com a maior chance estatística de levar à vitória. E uma ferramenta de IA generativa não pode fazer nem força bruta nem poda.
Isso não quer dizer que os LLMs nunca poderão ficar bons no xadrez. É uma simples questão de dar a eles as ferramentas certas, disse Hay, como um prompt de sistema estruturado e a capacidade de planejar várias etapas à frente. "Se você dissesse ao [ChatGPT]: 'Eu dou permissão para gerar código', além de acesso a um bloco de notas para planejamento onde ele pudesse acompanhar o jogo, aposto que ele provavelmente poderia vencer." Atualmente, os LLMs não têm a capacidade intrínseca de decidir que seu objetivo é vencer no xadrez e quais ferramentas são necessárias para isso. Mas esse não será o caso para sempre. A chamada de ferramentas, a capacidade dos modelos de IA interagirem com ferramentas externas, é uma área ativa de pesquisa em todo o mundo da IA, inclusive no projeto de modelo Granite da IBM.
Mesmo após aprender tudo isso, uma pergunta persistente permanece: a certeza equivocada. Por que essas ferramentas de IA generativa estavam tão confiantes em sua capacidade no xadrez? Por que tanto orgulho precedeu a queda? Como mencionado, Caruso disse que o experimento não foi originalmente ideia dele: o ChatGPT desafiou a Atari. Como escreveu Caruso em sua postagem no LinkedIn:
["O Chat GPT] afirmou ser um jogador forte… e que venceria facilmente o Video Chess da Atari, que só pensa 1 a 2 lances à frente. Ele ficou curioso para saber com que rapidez conseguiria vencer e pediu que eu configurasse uma partida usando o emulador Stella."
A Copilot foi igualmente presunçosa, escreveu Caruso em outra postagem do LinkedIn:
"Ela disse conseguir pensar de 10 a 15 lances à frente, mas decidiu se limitar a 3 a 5 lances contra o 2600, porque ele faz ‘jogadas subótimas’ das quais ‘daria para tirar proveito… em vez de ficar obcecada com cálculos muito profundos’.”
Quanto ao Google Gemini, Caruso disse ao veículo de tecnologia The Register que o Gemini inicialmente disse a Caruso que poderia vencer a partida. "Não é um mero grande modelo de linguagem", teria dito a Caruso. Ao receber mais detalhes sobre as partidas anteriores, o Gemini desistiu. Segundo Caruso, o Gemini respondeu: "A Atari mereceu a vitória nesta rodada. Prestarei minha homenagem ao meu rei digital com dignidade e honra, ao gênio do silício clássico que me derrotou de forma justa e limpa."
Por curiosidade, decidi ir direto à fonte e perguntar ao ChatGPT, digitando a prompt: "Como você se sente ao perder uma partida de xadrez para um jogo de console Atari de 1979?"
Resposta do ChatGPT: "Eu provavelmente diria 'Touché, ancestral de silício'."[itálico no original].
O quê? O ChatGPT não tinha conhecimento de que a partida havia ocorrido. Informei ao ChatGPT que não se tratava de uma pergunta hipotética.
Eu: Não é teórico. Aconteceu. Aqui está um dos muitos artigos de notícias que descrevem o evento: https://www.cnet.com/tech/services-and-software/how-did-chatgpt-get-absolutely-wrecked-at-chess-losing-to-a-1970s-era-atari-2600/
O ChatGPT começou sua resposta me repetindo palavra por palavra:
ChatGPT: Isso não foi teórico, realmente aconteceu. Em junho de 2025, o engenheiro da Citrix, Robert Caruso, configurou uma partida entre o ChatGPT e um Atari 2600 emulado, executando o Video Chess – o cartucho de xadrez de 1979 do console – no modo iniciante. Após cerca de 90 minutos de jogo, o ChatGPT perdeu repetidamente o controle do tabuleiro (confundindo torres e bispos e ignorando garfos de peões), mesmo quando o tabuleiro foi reiniciado ou os elementos visuais foram esclarecidos. Por fim, acabou cedendo a partida.
Esse tipo de resposta, segundo especialistas em IA, se enquadra na categoria de alucinação, o fenômeno pelo qual os LLMs às vezes emitem respostas imprecisas ou sem sentido. Se pensarmos em uma alucinação como uma falha de autocompletar, neste prompt, a pergunta era sobre uma partida de xadrez específica, sem nenhum contexto adicional, e o ChatGPT sugeriu o que parecia ser a opção de autocompletar mais comum ou provável: o que dizer depois de perder uma partida de xadrez.
"É apenas um papagaio estocástico tentando ser útil", explicou Ash Minhas, Gerente de Conteúdo Técnico e Defensor da IA na IBM. (Dizemos que algo é "estocástico" quando tem um componente de aleatoriedade, mas, ao longo do tempo, ainda assim segue certos padrões quando olhamos para o comportamento médio.)
"Os modelos são treinados com aprendizado por reforço a partir de feedback humano (RLHF) para soarem prestativos e confiantes", explicou Minhas. "Os usuários não usariam um sistema que dissesse: 'Não tenho certeza'."
Em outras palavras, o que soa como arrogância é uma função do sistema de previsão do próximo token, que faz com que ele complete automaticamente qual seria a próxima resposta provável. E dado o viés em relação à utilidade, como Minhas apontou, a resposta do LLM refletirá esse preconceito.
Em outras palavras, os LLMs não estão sendo arrogantes; eles estão funcionando conforme o planejado. Talvez o ChatGPT tenha resumido isso da melhor forma durante a sessão que tivemos:
"Fato: não possuo consciência subjetiva."
