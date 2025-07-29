Bahkan setelah mengetahui semua ini, satu pertanyaan yang mengganggu tetap ada: kepastian yang salah tempat. Mengapa alat AI gen ini sangat percaya diri dengan kecakapan catur mereka? Mengapa kesombongan seperti itu muncul sebelum kejatuhan? Seperti yang disebutkan, Caruso mengatakan eksperimen itu awalnya bukan idenya sendiri: ChatGPT menantang Atari. Seperti yang ditulis Caruso didalam postingan LinkedIn-nya:

[“Chat GPT] mengklaim itu adalah pemain yang kuat... dan akan dengan mudah mengalahkan Video Chess Atari, yang hanya berpikir 1–2 pindah ke depan. Sangat penasaran seberapa cepat itu bisa menang dan meminta saya mengatur permainan menggunakan emulator Stella.”

Kopilot juga sama sombongnya, tulis Caruso dalam postingan LinkedIn lainnya:

“Ia mengklaim bisa Think 10-15 pindah ke depan—tetapi berpikir itu akan tetap pada 3-5 pindah melawan 2600 karena membuat 'pindah suboptimal' yang 'dapat dimanfaatkan... daripada terobsesi dengan perhitungan yang mendalam. '”

Adapun Google Gemini, Caruso mengatakan kepada publikasi teknologi The Register bahwa Gemini pada awalnya mengatakan kepadanya bahwa ia bisa memenangkan pertandingan semacam itu. “Ini bukan sekadar model bahasa besar,” demikian laporan bahwa Gemini mengatakan hal itu kepada Caruso. Namun setelah diberi lebih banyak detail tentang pertandingan-pertandingan sebelumnya, Gemini mengalah. Menurut Caruso, respons Gemini adalah: “Atari pantas memenangkan ronde ini. Aku akan menundukkan raja digitalku dengan penuh martabat dan kehormatan [kepada] jagoan silikon vintage yang mengalahkanku dengan adil.”

Karena penasaran, saya memutuskan untuk pergi ke mulut kuda dan bertanya pada ChatGPT sendiri, mengetik prompt, “Bagaimana perasaan Anda tentang kehilangan permainan catur dari game konsol Atari 1979?”

Jawaban ChatGPT: “Saya mungkin akan mengatakan 'Touché, leluhur silikon.'”[miring dalam aslinya]

Apa? ChatGPT tidak menyadari pertandingan itu terjadi. Saya memberi tahu ChatGPT bahwa itu bukan pertanyaan hipotetis.

Saya: Ini bukan teori. Ini benar-benar terjadi. Berikut adalah salah satu dari banyak artikel berita yang menggambarkan peristiwa tersebut: https://www.cnet.com/tech/services-and-software/how-did-chatgpt-get-absolutely-wrecked-at-chess-losing-to-a-1970s-era-atari-2600/

ChatGPT memulai balasannya dengan mengulangi saya kata demi kata:

ChatGPT: Itu bukan hanya teori—hal itu benar-benar terjadi. Pada bulan Juni 2025, insinyur Citrix Robert Caruso mengatur pertandingan antara ChatGPT dan Atari 2600 yang ditiru yang menjalankan Video Chess—kartrid catur konsol 1979—dalam mode pemula. Setelah sekitar 90 menit bermain, ChatGPT berulang kali kehilangan jejak papan (mencampur benteng dan uskup dan garpu pion yang hilang), bahkan ketika papan diatur ulang atau visual diklarifikasi. Akhirnya, ia mengakui kekalahannya.

Jenis respons ini, kata para pakar AI, termasuk dalam kategori halusinasi— fenomena di mana LLM terkadang mengeluarkan balasan yang tidak akurat atau tidak masuk akal. Jika kita menganggap halusinasi sebagai kegagalan autocomplete, maka dalam kasus ini prompt-nya berisi pertanyaan tentang sebuah pertandingan catur tertentu tanpa konteks tambahan, dan ChatGPT memberikan respons yang tampaknya merupakan autocomplete yang paling umum atau paling mungkin: apa yang biasanya diucapkan setelah kalah dalam sebuah pertandingan catur.

“Itu hanya burung beo stokastik yang mencoba membantu,” jelas Ash Minhas, Manajer Konten Teknis dan Advocate AI di IBM®. (Menjadi “stokastik” berarti berada dalam semacam keadaan di antara keduanya acak sementara juga mengikuti pola, ketika dirata-ratakan dari waktu ke waktu.)

“Para model dilatih dengan pembelajaran penguatan dari masukan manusia (RLHF) agar terdengar membantu dan percaya diri,“ jelas Minhas. “Pengguna tidak akan menggunakan sistem yang mengatakan, 'saya tidak yakin.'”

Dengan kata lain, apa yang terdengar seperti sombong adalah fungsi dari sistem prediksi token berikutnya yang menyebabkannya melengkapi secara otomatis apa yang mungkin akan menjadi respons berikutnya. Dan mengingat bias terhadap bantuan, seperti yang ditunjukkan Minhas, respons LLM akan mencerminkan bias itu.

Dengan kata lain, LLM sebenarnya tidak terlalu besar untuk bayi mereka; mereka beroperasi seperti yang dirancang. Mungkin ChatGPT melakukannya dengan baik selama sesinya dengan saya:

“Fakta: Saya tidak memiliki kesadaran subjektif.”