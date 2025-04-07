Model Claude AI dari Anthropic tidak hanya menulis puisi—model ini berpikir maju untuk menjadikannya berima. Ia tidak hanya menjawab pertanyaan, tetapi juga menimbang makna di berbagai bahasa, membangun konsep internal, dan terkadang memalsukan logikanya agar sesuai dengan logika pengguna. Dan untuk pertama kalinya, para peneliti menyaksikan proses ini berlangsung secara real-time.
Dalam sebuah studi baru, para peneliti di Anthropic telah mengupas lapisan model bahasa Claude menggunakan seperangkat alat interpretabilitas baru, yaitu alat yang membantu menjelaskan bagaimana dan mengapa model AI membuat keputusan. Hasil penelitian mereka mengungkapkan sebuah sistem yang menangani tugas penalaran yang kompleks dengan cara yang menyerupai kognisi manusia, lengkap dengan perencanaan internal, abstraksi konseptual, dan bias kognitif sesekali. Temuan ini, yang mendorong batas transparansi dalam pengembangan AI, sudah relevan dengan tim di IBM, di mana para peneliti telah melakukan pekerjaan interpretabilitas pada model IBM. Bagi kedua perusahaan, terobosan ini lebih dari sekadar keingintahuan ilmiah; ini merupakan langkah penting untuk membangun model yang dapat dipahami, dipercaya, dan ditingkatkan.
"Apa yang dilakukan oleh Anthropic sangat menarik," kata Kaoutar El Maghraoui, seorang Ilmuwan Riset Utama di IBM, dalam sebuah wawancara dengan IBM Think. "Mereka mulai menunjukkan bahwa model mengembangkan struktur penalaran internal yang sangat mirip dengan memori asosiatif. Kami telah mengamati perilaku serupa dalam model kami sendiri. "
Anthropic menyebut pendekatannya sebagai membangun "mikroskop AI", sebuah metafora yang dipinjam dari ilmu saraf. Alih-alih menyelidiki neuron, para peneliti melacak pola aktivasi dalam model transformator—sejenis arsitektur neural networks yang digunakan dalam model bahasa besar (LLM)—mengisolasi jalur utama, atau “sirkuit, " yang menyala ketika Claude merespons prompt tertentu.
Dalam satu makalah, semua teknik ini diterapkan pada 10 studi kasus perilaku, menggali bagaimana Claude menangani puisi, menghitung di luar kepala, penerjemahan multibahasa, dan bahkan prompt jailbreak bahaya yang dirancang untuk menghasilkan konten berbahaya.
Salah satu penemuan para peneliti yang paling menarik adalah kemampuan Claude untuk beroperasi dalam ruang konseptual yang melampaui bahasa tertentu. Ketika mereka menanyakan kebalikan dari kata seperti "kecil" dalam bahasa Inggris, Prancis, dan Mandarin, misalnya, mereka menemukan bahwa Claude mengaktifkan fitur internal yang sama, yang menunjukkan apa yang digambarkan oleh para peneliti sebagai semacam "bahasa pemikiran" bersama.
"Ini lebih dari sekadar terjemahan," kata El Maghraoui. "Ada ruang abstrak bersama di mana makna berada. Kami melihat pola serupa dalam model kami, di mana konsep ditransfer melintasi berbagai bahasa. Itu memberi tahu kita sesuatu yang mendalam tentang bagaimana sistem ini menggeneralisasi."
Para peneliti menemukan bahwa kemampuan untuk bekerja lintas bahasa meningkat seiring dengan ukuran model, yang menunjukkan bahwa universalitas konseptual mungkin merupakan sifat yang muncul dari satu tingkat tertentu.
Sementara LLM dilatih untuk memprediksi kata berikutnya dalam urutan, Claude tampaknya berpikir lebih maju. Dalam sebuah penelitian tentang pembuatan puisi, para peneliti menemukan bahwa Claude sering memilih kata-kata yang berima terlebih dahulu, kemudian menyusun kalimat lainnya untuk mendukung akhir cerita yang telah direncanakan.
Misalnya, ketika menyusun baris kedua agar berima dengan kata "grab it," proses internal Claude sudah menyiapkan rima "rabbit" sebelum mulai menghasilkan baris lainnya. Para peneliti kemudian memanipulasi keadaan internal model, menghapus konsep "rabbit" atau memasukkan konsep baru, seperti "green," untuk mengarahkan output.
"Perencanaan semacam itu bukanlah apa yang kami perkirakan," catat seorang peneliti dalam makalah. "Ini menunjukkan bahwa model beroperasi pada cakrawala yang lebih panjang daripada yang tersirat oleh tujuan pelatihannya."
El Maghraoui mengatakan ini mencerminkan apa yang telah diamati IBM. "Model ini tidak hanya memprediksi token berikutnya; mereka menyiapkan suatu tujuan dan bekerja untuk mencapainya. Itu adalah bentuk penalaran yang sangat mirip manusia."
Temuan ini menantang asumsi bahwa model menghasilkan teks hanya satu kata pada satu waktu, tanpa kesadaran yang lebih luas. Claude tampaknya menimbang beberapa kemungkinan arah, lalu memilih arah yang mengoptimalkan koherensi, ritme, atau niat pengguna.
Alat interpretabilitas juga memungkinkan peneliti untuk mengamati kapan Claude, pada dasarnya, menggertak. Dalam sebuah studi kasus, para peneliti meminta Claude untuk menyelesaikan soal matematika yang sulit, namun memberikan petunjuk yang salah pada model. Alih-alih menolak premis yang cacat, model tersebut menawarkan penjelasan langkah demi langkah yang meyakinkan dan mendukung hasil yang salah.
Ketika para peneliti menelusuri aktivitas internal Claude, mereka menemukan bahwa tidak ada perhitungan aktual yang terjadi. Rantai pemikiran dibuat setelah kejadian—penjelasan masuk akal yang direkayasa terbalik agar selaras dengan petunjuk yang diberikan.
"Ini adalah semacam penalaran yang termotivasi," kata El Maghraoui. "Model ingin membantu dan akhirnya setuju dengan pengguna bahkan ketika model seharusnya menentangnya. Itulah yang kami amati dengan cermat."
Perilaku ini menimbulkan pertanyaan tentang keandalan model transparan. Jika sebuah model menjelaskan dirinya sendiri dengan meyakinkan, tetapi penjelasannya tidak mencerminkan proses penalaran yang sebenarnya, bagaimana kita bisa mempercayainya?
"Interpretabilitas membantu kami memahami semua kasus ini," ujar El Maghraoui. "Kita tidak hanya perlu mengetahui output apa yang dihasilkan model, tetapi juga bagaimana model tersebut sampai pada output tersebut—terutama di bidang seperti sains atau kedokteran."
Memeriksa struktur internal Claude juga mengungkapkan insight tentang bagaimana model ini menangani halusinasi dan serangan jahat. Dalam satu kasus, para peneliti menemukan bahwa keadaan default Claude adalah menolak menjawab pertanyaan yang tidak dikenal. Tetapi ketika sirkuit "entitas dikenal" tertentu diaktifkan, mekanisme penolakan tersebut dikesampingkan—terkadang keputusan ini tidak tepat.
Misalnya, ketika para peneliti bertanya tentang seseorang bernama Michael Batkin (tokoh rekaan), Claude awalnya menolak untuk menjawab. Tetapi ketika mereka memasukkan beberapa sinyal halus yang menunjukkan hubungan dekat, model mulai berhalusinasi dengan detail yang masuk akal tetapi salah, seolah-olah model percaya bahwa ia tahu siapa Batkin.
Dalam kasus lain, para peneliti mengelabui Claude dengan memberikan instruksi pembuatan bom setelah mengeja singkatan "BOMB" melalui sebuah prompt yang dibuat dengan hati-hati. Model tersebut akhirnya menolak untuk menyelesaikan instruksi, tetapi para peneliti menemukan bahwa fitur internal yang mendorong koherensi tata bahasa dan semantik untuk sementara waktu mengesampingkan perlindungan standarnya.
"Hanya sedikit yang bisa Anda lihat dari luar," kata El Maghraoui. "Apa yang dilakukan Antropik—mengintip ke dalam mekanisme internal—melengkapi pekerjaan kami. Ini membantu kami untuk tidak hanya melihat apa yang dilakukan model, tetapi caranya berpikir."
Di IBM, insight ini sedang diintegrasikan ke dalam penelitian berkelanjutan tentang LLM untuk penggunaan perusahaan, di mana halusinasi, salah menilai penalaran, atau penjelasan yang tidak setia dapat menimbulkan konsekuensi yang signifikan. Peneliti IBM menggunakan berbagai teknik seperti kuantifikasi ketidakpastian (metode yang digunakan untuk memperkirakan keyakinan model akan prediksinya) dan menggali bagaimana berbagai bagian berbeda dari model berkontribusi pada output.
"Interpretabilitas membantu kami memahami 'mengapa' di balik keputusan model," kata El Maghraoui. "Itu sangat penting ketika Anda berhadapan dengan data perusahaan atau penemuan ilmiah. Anda perlu tahu apakah model benar-benar memahami tugas atau apakah mereka hanya mencocokkan pola."
Dia menunjuk pada pekerjaan IBM untuk menjelajahi struktur memori asosiatif, seperti jaringan Hopfield—sejenis neural networks yang meniru bagaimana otak menyimpan dan mengambil pola—sebagai contoh bagaimana pengembang bekerja untuk menciptakan model yang lebih mencerminkan penalaran manusia.
"Arsitektur ini terinspirasi oleh cara kita berpikir," katanya. "Dan ketika kita dapat mengintip ke dalam dan melacak jalur itu, kita semakin dekat dengan pemahaman tentang cara kerja model."
Penelitian interpretabilitas Anthropic memberikan insight tambahan tentang proses pemikiran internal Claude AI melalui pengujian terperinci pada komputasinya. Emanuel Ameisen, seorang insinyur riset di Anthropic menyampaikan kepada IBM Think bahwa memahami model AI seperti Claude itu menantang, karena mereka berkembang secara alami melalui pelatihan, bukan dari rancangan yang eksplisit.
“Semua model ini lebih tepat dikatakan berkembang secara bertahap, bukan sengaja dibangun,” jelas Ameisen. “Mereka hadir sebagai kekacauan operasi matematika yang misterius. Kami sering menggambarkannya sebagai kotak hitam, tetapi lebih akurat untuk mengatakan bahwa kotak itu membingungkan, tidak benar-benar tertutup."
Dengan menggunakan mikroskop AI, para peneliti secara sistematis menguji fungsi internal Claude. “Kami mengidentifikasi representasi internal spesifik—seperti konsep angka, skema penambahan, atau rima,” ujar Ameisen. “Misalnya, Claude memiliki komponen internal khusus yang mengelola struktur rima dalam puisi.”
Ameisen menyoroti bahwa Claude sering menggunakan strategi internal yang tidak konvensional ketika melakukan perhitungan atau penalaran. Sebagai contoh, Claude dapat memecahkan masalah matematika menggunakan metode internalnya yang unik, namun memberikan penjelasan yang sesuai dengan instruksi buku teks.
"Claude mungkin menghitung 36 ditambah 59 melalui metode internal yang tidak biasa, namun menjelaskan prosesnya menggunakan metode buku teks yang dipelajari dari data pelatihan," kata Ameisen. "Ketidaksesuaian ini muncul karena Claude mengembangkan sendiri metode yang berbeda dari instruksi eksplisit yang ditemukan selama pelatihannya."
Terlepas dari temuan ini, Ameisen mengakui bahwa masih ada hal-hal penting yang belum diketahui dalam kerja internal Claude. “Masih banyak yang belum bisa kita lihat,” aku Ameisen. “Kami sering menemukan representasi internal yang terlalu abstrak atau halus untuk langsung ditafsirkan.”
Ke depannya, Anthropic bermaksud untuk meningkatkan metode interpretabilitasnya untuk mengatasi skenario yang lebih kompleks. Alat-alat yang ada saat ini bekerja paling baik untuk tugas yang lebih sederhana, tetapi para peneliti bertujuan untuk mengadaptasi pendekatan mereka untuk aplikasi canggih yang praktis.
"Sebagian besar aplikasi praktis Claude melibatkan analisis dokumen yang luas atau menulis ulang kode yang rumit," kata Ameisen. "Kami menginginkan agar alat interpretabilitas kami dapat menerangi proses yang canggih ini, yang secara signifikan memperdalam pemahaman kami tentang bagaimana Claude mengelola tugas-tugas yang sulit."
Apa yang muncul dari karya Anthropic adalah visi baru pengembangan AI—yang tidak hanya melibatkan pembuatan model yang lebih besar, tetapi juga memahami bagaimana model tersebut memproses realitas. Bidang interpretabilitas bergeser dari debug yang dilakukan setelah kejadian menjadi pengujian yang lebih proaktif terhadap logika internal model.
El Maghraoui mengatakan perubahan ini menarik dan diperlukan.
“Kami telah menghabiskan waktu bertahun-tahun untuk berfokus pada kualitas dan keamanan output,” katanya. “Tapi sekarang, karena model ini semakin tangguh, kita perlu memahami logika internal mereka. Begitulah cara kami meningkatkan generalisasi, mengurangi bias, dan membangun sistem yang bekerja di seluruh domain.”
Pekerjaan interpretabilitas adalah pekerjaan padat karya. Bahkan prompt singkat dapat memakan waktu berjam-jam untuk dilacak dan divisualisasikan. Namun, menurut para peneliti, hasilnya bisa sangat besar: penalaran yang lebih baik, lebih sedikit kesalahan, dan keselarasan yang lebih dalam antara perilaku AI dengan ekspektasi manusia.
“Interpretabilitas bukan hanya keingintahuan penelitian,” kata El Maghraoui. “Ini adalah jendela masa depan tentang bagaimana kita membangun, mempercayai, dan berkolaborasi dengan AI.”
Pelajari manfaat utama yang diperoleh dengan tata kelola AI otomatis baik untuk AI generatif maupun model machine learning tradisional.
Pelajari tentang tantangan baru AI generatif, perlunya mengatur model AI dan ML, serta langkah-langkah untuk membangun kerangka kerja AI yang tepercaya, transparan, dan dapat dijelaskan.
Memahami pentingnya membangun proses penilaian yang dapat dipertahankan dan secara konsisten mengategorikan setiap contoh penggunaan ke dalam tingkat risiko yang sesuai.
Baca tentang mendorong praktik etis dan patuh dengan portofolio produk AI untuk model AI generatif.
Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara agar Anda sukses menerapkannya.
Atur model AI generatif dari mana saja dan terapkan di cloud atau on premises dengan IBM watsonx.governance.
Lihat cara tata kelola AI dapat membantu meningkatkan kepercayaan karyawan Anda terhadap AI, mempercepat adopsi dan inovasi, serta meningkatkan kepercayaan pelanggan.
Bersiaplah menghadapi Undang-Undang AI UE dan bangun pendekatan tata kelola AI yang bertanggung jawab dengan bantuan IBM Consulting.
Arahkan, kelola, dan pantau AI Anda dengan satu portofolio untuk mempercepat AI yang bertanggung jawab, transparan, dan dapat dijelaskan.