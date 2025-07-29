Mesmo após aprender tudo isso, uma pergunta persistente permanece: a certeza equivocada. Por que essas ferramentas de IA generativa estavam tão confiantes em sua capacidade no xadrez? Por que tanto orgulho precedeu a queda? Como mencionado, Caruso disse que o experimento não foi originalmente ideia dele: o ChatGPT desafiou a Atari. Como escreveu Caruso em sua postagem no LinkedIn:

["O Chat GPT] afirmou ser um jogador forte… e que venceria facilmente o Video Chess da Atari, que só pensa 1 a 2 lances à frente. Ele ficou curioso para saber com que rapidez conseguiria vencer e pediu que eu configurasse uma partida usando o emulador Stella."

A Copilot foi igualmente presunçosa, escreveu Caruso em outra postagem do LinkedIn:

"Ela disse conseguir pensar de 10 a 15 lances à frente, mas decidiu se limitar a 3 a 5 lances contra o 2600, porque ele faz ‘jogadas subótimas’ das quais ‘daria para tirar proveito… em vez de ficar obcecada com cálculos muito profundos’.”

Quanto ao Google Gemini, Caruso disse ao veículo de tecnologia The Register que o Gemini inicialmente disse a Caruso que poderia vencer a partida. "Não é um mero grande modelo de linguagem", teria dito a Caruso. Ao receber mais detalhes sobre as partidas anteriores, o Gemini desistiu. Segundo Caruso, o Gemini respondeu: "A Atari mereceu a vitória nesta rodada. Prestarei minha homenagem ao meu rei digital com dignidade e honra, ao gênio do silício clássico que me derrotou de forma justa e limpa."

Por curiosidade, decidi ir direto à fonte e perguntar ao ChatGPT, digitando a prompt: "Como você se sente ao perder uma partida de xadrez para um jogo de console Atari de 1979?"

Resposta do ChatGPT: "Eu provavelmente diria 'Touché, ancestral de silício'."[itálico no original].

O quê? O ChatGPT não tinha conhecimento de que a partida havia ocorrido. Informei ao ChatGPT que não se tratava de uma pergunta hipotética.

Eu: Não é teórico. Aconteceu. Aqui está um dos muitos artigos de notícias que descrevem o evento: https://www.cnet.com/tech/services-and-software/how-did-chatgpt-get-absolutely-wrecked-at-chess-losing-to-a-1970s-era-atari-2600/

O ChatGPT começou sua resposta me repetindo palavra por palavra:

ChatGPT: Isso não foi teórico, realmente aconteceu. Em junho de 2025, o engenheiro da Citrix, Robert Caruso, configurou uma partida entre o ChatGPT e um Atari 2600 emulado, executando o Video Chess – o cartucho de xadrez de 1979 do console – no modo iniciante. Após cerca de 90 minutos de jogo, o ChatGPT perdeu repetidamente o controle do tabuleiro (confundindo torres e bispos e ignorando garfos de peões), mesmo quando o tabuleiro foi reiniciado ou os elementos visuais foram esclarecidos. Por fim, acabou cedendo a partida.

Esse tipo de resposta, segundo especialistas em IA, se enquadra na categoria de alucinação, o fenômeno pelo qual os LLMs às vezes emitem respostas imprecisas ou sem sentido. Se pensarmos em uma alucinação como uma falha de autocompletar, neste prompt, a pergunta era sobre uma partida de xadrez específica, sem nenhum contexto adicional, e o ChatGPT sugeriu o que parecia ser a opção de autocompletar mais comum ou provável: o que dizer depois de perder uma partida de xadrez.

"É apenas um papagaio estocástico tentando ser útil", explicou Ash Minhas, Gerente de Conteúdo Técnico e Defensor da IA na IBM. (Dizemos que algo é "estocástico" quando tem um componente de aleatoriedade, mas, ao longo do tempo, ainda assim segue certos padrões quando olhamos para o comportamento médio.)

"Os modelos são treinados com aprendizado por reforço a partir de feedback humano (RLHF) para soarem prestativos e confiantes", explicou Minhas. "Os usuários não usariam um sistema que dissesse: 'Não tenho certeza'."

Em outras palavras, o que soa como arrogância é uma função do sistema de previsão do próximo token, que faz com que ele complete automaticamente qual seria a próxima resposta provável. E dado o viés em relação à utilidade, como Minhas apontou, a resposta do LLM refletirá esse preconceito.

Em outras palavras, os LLMs não estão sendo arrogantes; eles estão funcionando conforme o planejado. Talvez o ChatGPT tenha resumido isso da melhor forma durante a sessão que tivemos:

"Fato: não possuo consciência subjetiva."