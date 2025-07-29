ここまで学んできたとしても、不適切な確信の問題です。これらの生成AIツールがチェスのスキルに自信を持っていた理由は何なのでしょうか。リスクが高まる前にそのような高品質な障害が残っていたのはなぜでしょうか。前述したように、Caruso氏は、この実験はもともと自分自身のアイデアではなく、ChatGPTがAtariに挑戦したと述べています。LinkedInの投稿でCaruso氏は次のように書きました。

[チャットGPT]は、自分たちが強力なプレイヤーであると主張しました...そして、1～2手先しか考察することができないAtariのビデオ・チェスを簡単に破るでしょう。どれだけ早く勝てるか興味津々で、Stellaエミュレータを使ってゲームをセットアップしてほしいと依頼しました。」

Copilotも同じように自信満々だったと、Caruso氏はLinkedInの別の投稿に書いています。

「10～15手先は考えられると主張していましたが、2600という数字に対して3～5点の動きにとどまると考えました。これは、深い計算に固執するのではなく、利用できる「次善の動き」をしているからです。」

Google Geminiについては、Caruso氏がテック系出版社「The Register」に語ったところによると、当初Geminiは「この対決に勝てる」と主張したと述べています。「単なる大規模言語モデルではありません」とGeminiはカルーソ氏に伝えたと報じられています。しかし過去の対戦の詳細を提示されると、Geminiは敗北を認めました。Caruso氏によれば、Geminiは次のように応答したとのことです：「今回の勝利はアタリにふさわしいものです。私はデジタルの王冠を、公正かつ堂々と私を打ち負かした古き良きシリコンの巨匠に、尊厳と敬意を込めて捧げます。」

好奇心で、私は馬の口に向かって、ChatGPT自身に「チェスのゲームを1979年のAtariコンソール・ゲームに奪われることについてどう感じますか/」というプロンプトを入力しました。

ChatGPTの返信：「おそらく『Touché、Silicone ancestor』と言うでしょう」[原文のイタリック体]

何ですって。ChatGPTは、試合が行われていることを知りませんでした。ChatGPTに、それが架空の質問ではないことを伝えました。

私：理論上のものではありません。それは現実になったのです。以下は、この出来事について説明している数多くのニュース記事の1つです。https://www.cnet.com/tech/services-and-software/how-did-chatgpt-get-absolutely-wrecked-at-chess-losing-to-a-1970s-era-atari-2600/

ChatGPTは、私に言葉に伝えるようにして返信を始めました。

ChatGPT：それは単なる理論上の話ではなく、実際に起こったことです。2025年6月、Citrix社のエンジニアであるRoberso Caruso氏は、ChatGPTと、初心者モードでビデオ・チェス（コンソールの1979チェス・カートリッジ）を実行するAtari 2600のエミュレートを行いました。約90分間のプレイ後、ChatGPTは盤面を見失うことが繰り返されました（ルークとビショップを混同したり、ポーンのフォークを見逃したり）。盤面をリセットしたり視覚情報を明確にしたりした場合でも同様でした。結局、そのゲームは敗北しました。

AIの専門家によると、この種の反応はハルシネーションのカテゴリーに入るといいます。これは大規模言語モデル（LLM）が時折、不正確または意味をなさない回答を生成してしまう現象を指します。ハルシネーションをオートコンプリートの失敗と考えるとします。ここでプロンプトには、コンテキストなしで特定のチェスの試合に関する質問が含まれ、ChatGPTは、最も一般的または潜在的にオートコンプリートと思われるもの、つまり、チェスの試合に負けた後に何を言うべきかを入力しました。

IBMのテクニカル・コンテンツおよびAIアドボケート・マネージャーであるAsh Minhasは、「これは、役に立とろうとしている確率的なインコに過ぎません」と説明します。（「確率的」とは、時間の経過とともに平均したときに、ランダムであると同時にパターンにも従うという、ある種の中間の状態にあることを指します。）

「モデルは、人間のフィードバック（RLHF）からの強化学習（RLHF）で訓練され、役に立ち、自信を持って書かれるようになりました」とMinhasは説明します。「ユーザーは、『わからない』と言うシステムを使わないでしょう」

つまり、誇張のように見えるのは、次のトークン予測システムの機能であり、次の対応がどのようなものかを自動補完できるのです。そして、Minhasが指摘したように、有用性に対するバイアスがあるため、LLMの応答にはそのバイアスが反映されます。

言い換えればLLMは実際には大げさなものではなく、設計通りに動作しているのです。おそらくChatGPTは、私とのセッション中にそれを最もよく発揮していました。

「事実：私には主観的な認識はありません」