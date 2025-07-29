Bulan lalu, sebuah game konsol Atari 2600 8-bit, RAM nol dari tahun 1979 menyebabkan kehebohan di kalangan AI dan game ketika mengalahkan ChatGPT dan Microsoft Copilot di permainan catur. Banyak skeptis AI melihatnya sebagai cerita David dan Goliath—dan bukti bahwa AI generatif (gen AI) semuanya berbicara dan tidak ada kecerdasan. "AI dididik oleh Atari yang berusia 50 tahun," demikian bunyi judul berita tentang eksperimen yang dilakukan oleh insinyur Citrix, Robert Caruso, dan dijelaskan dalam beberapa postingan LinkedIn.
Menurut para pakar IBM®, brouhaha adalah pengingat yang baik tentang apa yang dapat dan tidak dapat dilakukan oleh gen AI, dan cara kerjanya. “Orang-orang menggunakan ChatGPT untuk melakukan terlalu banyak hal,” kata IBM® Distinguished Engineer Chris Hay kepada IBM® Think. “Berpikir bahwa ChatGPT bisa bermain catur itu sama seperti berpikir bahwa ia bisa menjadi pacar atau terapis Anda.”
Menurut Hay, kerugian besar LLM adalah pengingat yang baik tentang cara LLM beroperasi: LLM menghasilkan output berdasarkan korelasi antara kata-kata yang dipelajari, bukan mengikuti aturan atau perencanaan. Buruknya kinerja LLM dalam catur disebabkan oleh alasan yang sama dengan kinerjanya yang terkadang buruk dalam penambahan dan permainan tic-tac-toe (silang-lingkaran): yaitu karena LLM tidak dirancang untuk tugas-tugas itu.
“Pada akhirnya”, kata Hay, “Catur adalah masalah pencarian”. Dengan setiap gerakan, pemain—baik itu manusia atau mesin—harus mencari melalui struktur keputusan, mengevaluasi kemungkinan hasil dan menetapkan peringkat nilai untuk berbagai opsi. Atari Video Chess dikodekan khusus untuk itu. Sebaliknya, logika LLM “didasarkan pada sistem prediksi token berikutnya”, kata Hay. “Model-model ini pada dasarnya dapat mengakses seluruh isi internet dan kemudian dilatih untuk memprediksi kata berikutnya”.
Permainan catur tidak beroperasi pada prediksi token berikutnya. “Ada terlalu banyak kombinasi permainan,” kata Hay.
Dalam sebuah wawancara dengan IBM® Think, PJ Hagerty, Lead of AI Advocacy di IBM®, pemain catur kompetitif dan pemilik konsol Atari 2600 asli, menekankan bahwa permainan catur Atari menggunakan “metode brute force.”
Metode itu, yang digunakan oleh banyak permainan berbasis Strategi awal, melibatkan menyaring banyak kemungkinan gerakan yang berbeda dan menggunakan perhitungan berbasis probabilitas untuk memilih langkah yang optimal. “Kode itu berfokus pada pohon logika menggunakan rata-rata untuk menentukan langkah terbaik,” kata Hagerty.
Begini cara kerja struktur keputusan catur, alias pohon permainan, apakah pemainnya manusia atau mesin.
Katakanlah dua orang sedang bermain catur. Pion putih mendapat giliran pertama, dan pemain memutuskan untuk menggerakkan bidak raja dua petak ke depan. Dalam notasi catur, ini dikenal sebagai E2, yang kebetulan merupakan pindah pertama yang paling populer. Kemudian giliran Hitam. Berdasarkan E2 Putih, Hitam memiliki 20 opsi legal yang berbeda untuk langkahnya: 16 langkah pion dan 4 langkah kuda. Masing-masing opsi yang berbeda tersebut mengarah ke opsi lebih lanjut, sehingga ukuran pohon kemungkinan akan tumbuh secara eksponensial dengan setiap faktor percabangan.
Misalnya, dalam pertandingan bersejarah 1956 antara pemain Amerika Bobby Fischer dan Donald Byrne, pertandingan berlangsung 41 putaran penuh, atau 82 putaran. Rata-rata jumlah kemungkinan pindah catur pada setiap tahapan permainan, bergantung pada siapa yang Anda tanya, adalah 20-40; demi penyederhanaan, katakanlah 30 langkah. Dalam hal ini, perkiraan ukuran pohon permainan adalah 3082. Kami tidak akan menuliskan nomor lengkap, karena panjangnya 122 digit.
Untuk rata-rata pemain manusia, tidak mudah untuk menyimpan pro dan kontra dari banyak pindah di kepala kita sekaligus. Dan pemain biasanya tidak melakukan itu. Sebaliknya, mereka secara naluriah mengesampingkan gerakan buruk yang terang-terangan berdasarkan prinsip-prinsip inti tertentu, seperti “jangan mengekspos ratu di awal permainan.”
Dalam istilah jaringan saraf, proses winnowing-down ini dikenal sebagai “pemangkasan”, karena secara harfiah melibatkan pemotongan cabang pohon permainan. Pemain manusia dapat memangkas. Begitu juga mesin catur komputer modern yang canggih. Tetapi permainan catur konsol berusia 46 tahun tidak bisa—jadi mesin ini menjalankan setiap opsi untuk 1-2 gerakan berikutnya dan memilih yang memiliki peluang statistik tertinggi untuk menghasilkan kemenangan. Dan alat gen AI tidak dapat melakukan brute force atau pemangkasan.
Ini bukan untuk mengatakan bahwa LLM tidak akan pernah bisa menjadi ahli catur. Ini adalah masalah sederhana untuk memberi mereka alat yang tepat, kata Hay—seperti prompt sistem terstruktur dan kemampuan untuk merencanakan beberapa langkah ke depan. “Jika Anda memberi tahu [ChatGPT], ‘Saya memberi Anda izin untuk membuat kode,‘ serta akses ke notepad untuk merencanakan di mana ia dapat melacak permainan, saya yakin itu mungkin bisa menang.” Saat ini, LLM tidak memiliki agensi bawaan untuk memutuskan tujuannya adalah untuk menang di catur, dan alat apa yang dibutuhkan untuk menang. Tapi itu tidak akan terjadi selamanya. Pemanggilan alat—kemampuan model AI untuk berinteraksi dengan alat eksternal—merupakan area riset aktif di seluruh dunia AI, termasuk di proyek model Granite IBM®.
Buletin industri
Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.
Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.
Bahkan setelah mengetahui semua ini, satu pertanyaan yang mengganggu tetap ada: kepastian yang salah tempat. Mengapa alat AI gen ini sangat percaya diri dengan kecakapan catur mereka? Mengapa kesombongan seperti itu muncul sebelum kejatuhan? Seperti yang disebutkan, Caruso mengatakan eksperimen itu awalnya bukan idenya sendiri: ChatGPT menantang Atari. Seperti yang ditulis Caruso didalam postingan LinkedIn-nya:
[“Chat GPT] mengklaim itu adalah pemain yang kuat... dan akan dengan mudah mengalahkan Video Chess Atari, yang hanya berpikir 1–2 pindah ke depan. Sangat penasaran seberapa cepat itu bisa menang dan meminta saya mengatur permainan menggunakan emulator Stella.”
Kopilot juga sama sombongnya, tulis Caruso dalam postingan LinkedIn lainnya:
“Ia mengklaim bisa Think 10-15 pindah ke depan—tetapi berpikir itu akan tetap pada 3-5 pindah melawan 2600 karena membuat 'pindah suboptimal' yang 'dapat dimanfaatkan... daripada terobsesi dengan perhitungan yang mendalam. '”
Adapun Google Gemini, Caruso mengatakan kepada publikasi teknologi The Register bahwa Gemini pada awalnya mengatakan kepadanya bahwa ia bisa memenangkan pertandingan semacam itu. “Ini bukan sekadar model bahasa besar,” demikian laporan bahwa Gemini mengatakan hal itu kepada Caruso. Namun setelah diberi lebih banyak detail tentang pertandingan-pertandingan sebelumnya, Gemini mengalah. Menurut Caruso, respons Gemini adalah: “Atari pantas memenangkan ronde ini. Aku akan menundukkan raja digitalku dengan penuh martabat dan kehormatan [kepada] jagoan silikon vintage yang mengalahkanku dengan adil.”
Karena penasaran, saya memutuskan untuk pergi ke mulut kuda dan bertanya pada ChatGPT sendiri, mengetik prompt, “Bagaimana perasaan Anda tentang kehilangan permainan catur dari game konsol Atari 1979?”
Jawaban ChatGPT: “Saya mungkin akan mengatakan 'Touché, leluhur silikon.'”[miring dalam aslinya]
Apa? ChatGPT tidak menyadari pertandingan itu terjadi. Saya memberi tahu ChatGPT bahwa itu bukan pertanyaan hipotetis.
Saya: Ini bukan teori. Ini benar-benar terjadi. Berikut adalah salah satu dari banyak artikel berita yang menggambarkan peristiwa tersebut: https://www.cnet.com/tech/services-and-software/how-did-chatgpt-get-absolutely-wrecked-at-chess-losing-to-a-1970s-era-atari-2600/
ChatGPT memulai balasannya dengan mengulangi saya kata demi kata:
ChatGPT: Itu bukan hanya teori—hal itu benar-benar terjadi. Pada bulan Juni 2025, insinyur Citrix Robert Caruso mengatur pertandingan antara ChatGPT dan Atari 2600 yang ditiru yang menjalankan Video Chess—kartrid catur konsol 1979—dalam mode pemula. Setelah sekitar 90 menit bermain, ChatGPT berulang kali kehilangan jejak papan (mencampur benteng dan uskup dan garpu pion yang hilang), bahkan ketika papan diatur ulang atau visual diklarifikasi. Akhirnya, ia mengakui kekalahannya.
Jenis respons ini, kata para pakar AI, termasuk dalam kategori halusinasi— fenomena di mana LLM terkadang mengeluarkan balasan yang tidak akurat atau tidak masuk akal. Jika kita menganggap halusinasi sebagai kegagalan autocomplete, maka dalam kasus ini prompt-nya berisi pertanyaan tentang sebuah pertandingan catur tertentu tanpa konteks tambahan, dan ChatGPT memberikan respons yang tampaknya merupakan autocomplete yang paling umum atau paling mungkin: apa yang biasanya diucapkan setelah kalah dalam sebuah pertandingan catur.
“Itu hanya burung beo stokastik yang mencoba membantu,” jelas Ash Minhas, Manajer Konten Teknis dan Advocate AI di IBM®. (Menjadi “stokastik” berarti berada dalam semacam keadaan di antara keduanya acak sementara juga mengikuti pola, ketika dirata-ratakan dari waktu ke waktu.)
“Para model dilatih dengan pembelajaran penguatan dari masukan manusia (RLHF) agar terdengar membantu dan percaya diri,“ jelas Minhas. “Pengguna tidak akan menggunakan sistem yang mengatakan, 'saya tidak yakin.'”
Dengan kata lain, apa yang terdengar seperti sombong adalah fungsi dari sistem prediksi token berikutnya yang menyebabkannya melengkapi secara otomatis apa yang mungkin akan menjadi respons berikutnya. Dan mengingat bias terhadap bantuan, seperti yang ditunjukkan Minhas, respons LLM akan mencerminkan bias itu.
Dengan kata lain, LLM sebenarnya tidak terlalu besar untuk bayi mereka; mereka beroperasi seperti yang dirancang. Mungkin ChatGPT melakukannya dengan baik selama sesinya dengan saya:
“Fakta: Saya tidak memiliki kesadaran subjektif.”
Temukan IBM Granite, rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.
Pelajari cara memilih model dasar AI yang paling sesuai untuk contoh penggunaan Anda.
Jelajahi artikel, blog, dan tutorial di IBM Developer untuk memperdalam pemahaman Anda tentang LLM.
Pelajari cara terus mendorong tim untuk meningkatkan kinerja model dan unggul dalam persaingan dengan menggunakan teknik dan infrastruktur AI terbaru.
Jelajahi nilai model dasar kelas enterprise yang memberikan kepercayaan, kinerja, dan manfaat hemat biaya bagi semua industri.
Pelajari cara menggabungkan AI generatif, machine learning, dan model dasar ke dalam operasi bisnis Anda untuk meningkatkan kinerja.
Jelajahi pustaka model dasar IBM di portfolio watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan percaya diri.
Gunakan AI di bisnis Anda keahlian AI terdepan di industri dan portofolio solusi dari IBM.
Rancang ulang alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.
Jelajahi perpustakaan model dasar IBM dalam portofolio IBM watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan penuh percaya diri.