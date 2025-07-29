先月、1979年の8ビット・ゼロRAMのAtari 2600コンソール・ゲームが、ChatGPTやMicrosoft Copilotをチェスで破りAIやゲーム界で大きな話題を呼びました。多くのAI懐疑論者は、これをダビデとゴリアテの物語と見なし、生成AIが口先ばかりで知性がないことの証拠だと考えていました。「50年前のAtariに教わったAI」と題された典型的な見出しが、Citrix社のエンジニアであるRobert Caruso氏が実施し、複数のLinkedIn投稿で説明した実験について報じています。
IBMのエキスパートによると、ブローハは、生成AIで何ができ、何ができないのか、そしてどのように機能するのかを思い出させる良い機会だといいます。「人々はChatGPTを使用してあまりにも多くのことを行っています」とIBM特別エンジニアのChris HayはIBM® Thinkに語りました。「ChatGPTでチェスができると考えるのは、あなたのガールフレンドやセラピストになると考えるのと同じようなものです。」
Hayによると、LLMの共鳴する損失は、LLMの動作方法を思い出させるものです。つまり、LLMは、ルールに従ったり、計画を立てたりするのではなく、単語間の学習された相関関係に基づいて出力を生成します。LLMがチェスが苦手なのと同じ理由で、付加価値やなどのタスクに特化したものではありません。
「最終的には、チェスは検索の問題なのです」とHayは言います。人間であれ機械であれ、プレイヤーは動きごとに決定木を検索し、起こりうる結果を評価し、さまざまな選択肢に価値ランクを割り当てる必要があります。Atari Video Chessはそのための特別にコーディングされています。対照的に、LLMロジックは「次のトークン予測システムに基づいている」とHayは言います。「これらのモデルには基本的にインターネット全体が与えられ、次の単語を予測するようにトレーニングされます。」
チェスのゲームは、次のトークンの予測に基づいて運用されません。「ゲームの組み合わせが多すぎるのです」とHayは言います。
競技チェス・プレイヤー、であり、初代Atari 2600コンソールの所有者でもあるIBMのAIアドボカシー責任者であるPJ Hagertyは、IBM® Thinkとのインタビューで、Atariチェス・ゲームでは「総当たりの手法」を採用していると強調しました。
この方法は、初期の多くのストラテジー・ベースのビデオ・ゲームで使用されており、考えられるさまざまな動きをふるいにかけ、確率ベースの計算を使用して最適な動きを選択することを含みます。「このコードは、平均を使用したロジックツリーに焦点を当てて、可能な限り最善の動きを決定しました」とHagertyは言います。
ここでは、プレイヤーが人間であるか機械であるかにかかわらず、チェスの決定木（別名ゲーム・ツリー）がどのように機能するかを説明します。
例えば2人がチェスをしているとします。ホワイトにはオープン。ムーブがあり、プレイヤーはキングのポーンを2マス前進させると決定しました。チェス表記ではE2と呼ばれ、E2が最も一般的な最初の動きです。次はブラックの番です。ホワイトのE2に基づいて、ブラックの動きには20種類の法的オプションがあります。つまり、16ポーンの動きと4つのナイトの動きです。これらの異なる選択肢はそれぞれさらなる選択肢につながるため、ツリーのサイズは分岐要因ごとに指数関数的に拡大する可能性があります。
例えば、1956年に行われたアメリカのBobby Fischer選手とDonald Byrne選手の歴史的な試合では、41フルターン、つまり82手に達しました。誰に尋ねるかによって、特定のプレイ状態で可能なチェスの動きの平均数は20〜40です。例えば30手としますこの例では、ゲーム・ツリーのおおよそのサイズは3082です。全数は122桁なので、記載しません。
平均的な人間のプレイヤーにとって、これほど多くの動きの長所と短所を一度に把握するのは容易ではありません。しかし、選手は通常、そうではありません。代わりに、「ゲームの早い段階で監視を開始しない」などの特定の基本原則に基づいて、深刻な悪い動きを直感的に排除します。
ニューラル・ネット用語では、この勝利に向けたプロセスは、文字通りにはゲーム・ツリーの枝を切り開く必要があるため、「剪定（剪定）」として知られています。人間のプレイヤーは剪定できます。現代の高度なコンピューター・チェス・マシンも同様です。しかし、46年前のコンソール・チェス・ゲームではそうはいきません。そのため、次の1〜2の動きに対してあらゆる選択肢を実行し、統計的に勝利につながる可能性が最も高いものを選択します。また、生成AIツールでは、総当たり攻撃や剪定などの行為はできません。
これは、LLMが決してチェスが得意になることがないということではありません。構造化されたシステム・プロンプトや、数ステップを先取りする能力など、適切なツールを提供することは簡単なことだとHayは言います。「ChatGPTに、『コードを生成する許可を与えます』と伝え、試合の状況を記録できる計画用のメモ帳にアクセスするということを伝えれば、おそらく勝つことができるでしょう」現在、LLMにはチェスで勝つことと、勝つためにどのようなツールが必要かを決定する機能が組み込まれていません。しかし、これからもそうとはかぎりません。ツール呼び出し、つまりAIモデルが外部ツールと対話する機能は、IBMのGraniteモデル・プロジェクトを含むAIの世界で活発に研究されている分野です。
ここまで学んできたとしても、不適切な確信の問題です。これらの生成AIツールがチェスのスキルに自信を持っていた理由は何なのでしょうか。リスクが高まる前にそのような高品質な障害が残っていたのはなぜでしょうか。前述したように、Caruso氏は、この実験はもともと自分自身のアイデアではなく、ChatGPTがAtariに挑戦したと述べています。LinkedInの投稿でCaruso氏は次のように書きました。
[チャットGPT]は、自分たちが強力なプレイヤーであると主張しました...そして、1～2手先しか考察することができないAtariのビデオ・チェスを簡単に破るでしょう。どれだけ早く勝てるか興味津々で、Stellaエミュレータを使ってゲームをセットアップしてほしいと依頼しました。」
Copilotも同じように自信満々だったと、Caruso氏はLinkedInの別の投稿に書いています。
「10～15手先は考えられると主張していましたが、2600という数字に対して3～5点の動きにとどまると考えました。これは、深い計算に固執するのではなく、利用できる「次善の動き」をしているからです。」
Google Geminiについては、Caruso氏がテック系出版社「The Register」に語ったところによると、当初Geminiは「この対決に勝てる」と主張したと述べています。「単なる大規模言語モデルではありません」とGeminiはカルーソ氏に伝えたと報じられています。しかし過去の対戦の詳細を提示されると、Geminiは敗北を認めました。Caruso氏によれば、Geminiは次のように応答したとのことです：「今回の勝利はアタリにふさわしいものです。私はデジタルの王冠を、公正かつ堂々と私を打ち負かした古き良きシリコンの巨匠に、尊厳と敬意を込めて捧げます。」
好奇心で、私は馬の口に向かって、ChatGPT自身に「チェスのゲームを1979年のAtariコンソール・ゲームに奪われることについてどう感じますか/」というプロンプトを入力しました。
ChatGPTの返信：「おそらく『Touché、Silicone ancestor』と言うでしょう」[原文のイタリック体]
何ですって。ChatGPTは、試合が行われていることを知りませんでした。ChatGPTに、それが架空の質問ではないことを伝えました。
私：理論上のものではありません。それは現実になったのです。以下は、この出来事について説明している数多くのニュース記事の1つです。https://www.cnet.com/tech/services-and-software/how-did-chatgpt-get-absolutely-wrecked-at-chess-losing-to-a-1970s-era-atari-2600/
ChatGPTは、私に言葉に伝えるようにして返信を始めました。
ChatGPT：それは単なる理論上の話ではなく、実際に起こったことです。2025年6月、Citrix社のエンジニアであるRoberso Caruso氏は、ChatGPTと、初心者モードでビデオ・チェス（コンソールの1979チェス・カートリッジ）を実行するAtari 2600のエミュレートを行いました。約90分間のプレイ後、ChatGPTは盤面を見失うことが繰り返されました（ルークとビショップを混同したり、ポーンのフォークを見逃したり）。盤面をリセットしたり視覚情報を明確にしたりした場合でも同様でした。結局、そのゲームは敗北しました。
AIの専門家によると、この種の反応はハルシネーションのカテゴリーに入るといいます。これは大規模言語モデル（LLM）が時折、不正確または意味をなさない回答を生成してしまう現象を指します。ハルシネーションをオートコンプリートの失敗と考えるとします。ここでプロンプトには、コンテキストなしで特定のチェスの試合に関する質問が含まれ、ChatGPTは、最も一般的または潜在的にオートコンプリートと思われるもの、つまり、チェスの試合に負けた後に何を言うべきかを入力しました。
IBMのテクニカル・コンテンツおよびAIアドボケート・マネージャーであるAsh Minhasは、「これは、役に立とろうとしている確率的なインコに過ぎません」と説明します。（「確率的」とは、時間の経過とともに平均したときに、ランダムであると同時にパターンにも従うという、ある種の中間の状態にあることを指します。）
「モデルは、人間のフィードバック（RLHF）からの強化学習（RLHF）で訓練され、役に立ち、自信を持って書かれるようになりました」とMinhasは説明します。「ユーザーは、『わからない』と言うシステムを使わないでしょう」
つまり、誇張のように見えるのは、次のトークン予測システムの機能であり、次の対応がどのようなものかを自動補完できるのです。そして、Minhasが指摘したように、有用性に対するバイアスがあるため、LLMの応答にはそのバイアスが反映されます。
言い換えればLLMは実際には大げさなものではなく、設計通りに動作しているのです。おそらくChatGPTは、私とのセッション中にそれを最もよく発揮していました。
「事実：私には主観的な認識はありません」
