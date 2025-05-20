Sementara model bahasa besar (LLM) semakin tajam dengan kata-kata, mereka terkadang semakin kabur dengan fakta.
Kesalahan-kesalahan ini, yang dikenal sebagai halusinasi, bukanlah serangga yang tidak berbahaya. Mereka menunjuk ke masalah inti dalam bagaimana sistem AI menghasilkan bahasa. Alih-alih menarik fakta dari database, model memprediksi apa yang terdengar benar berdasarkan pola dalam data pelatihan mereka. Prediksi tersebut dapat mengarah pada penawaran palsu, polis yang dibuat-buat, dan klaim palsu yang disampaikan dengan penuh percaya diri. Para peneliti sekarang sedang mengerjakan cara-cara baru untuk membuat sistem ini lebih dapat diandalkan, mengajari mereka bagaimana menjawab dan kapan harus berhenti, merevisi atau melupakan.
"Apa yang benar-benar rusak adalah respons non-deterministik ini," Ruchir Puri, Chief Scientist IBM, mengatakan kepada IBM Think dalam sebuah wawancara. "Pertanyaan yang sama, dengan maksud yang sama, dapat menghasilkan jawaban yang berbeda tergantung pada bagaimana ungkapan itu. Itu sangat bermasalah jika Anda mengandalkan model ini untuk sesuatu yang serius."
Hasil tolok ukur terbaru OpenAI menyoroti masalah ini. Model o3 dilaporkan berhalusinasi 33% dari waktu di PersonQA, sebuah kumpulan data yang menguji keakuratan faktual tentang figur publik. Model o4-mini berkinerja lebih buruk, menciptakan informasi di hampir 8 dari 10 tanggapan terhadap prompt pengetahuan umum. Ini bukanlah sistem yang tidak jelas, sistem ini sedang diuji untuk tugas-tugas seperti riset hukum, pertanyaan perawatan kesehatan, dan dukungan keputusan eksekutif.
Beberapa pakar mengatakan data melukiskan gambaran yang tidak lengkap dan bahwa halusinasi tidak meningkat secara keseluruhan.
"Kami melihat keuntungan nyata," Ja-Naé Duane, seorang ilmuwan data dan rekan penulis SuperShifts: Transforming How We Live, Learn and Work in the Age of Intelligence, mengatakan kepada IBM Think dalam sebuah wawancara, menambahkan bahwa Gemini 2.0 Flash sekarang menghasilkan halusinasi di bawah 1% kasus uji, dibandingkan dengan 22% pada tahun 2021. "Jadi ya, jalan kita masih panjang, tapi kita benar-benar menuju ke arah yang benar."
Duane menekankan bahwa halusinasi belum tentu memburuk tetapi mereka menjadi lebih terlihat.
"Pertaruhannya lebih tinggi sekarang," katanya. “Kami menempatkan model-model ini ke dalam alur kerja hukum, pengaturan medis, dan alat perusahaan. Kesalahan yang pernah luput dari perhatian dalam chatbot sekarang menjadi tanggung jawab serius.”
Sementara sistem canggih seperti Gemini 2.0 Flash telah mengurangi tingkat halusinasi secara tajam, yang lain, terutama model yang dibangun untuk penalaran kompleks, masih berjuang. “Model-model yang berfokus pada alasan ini didorong untuk memecahkan masalah yang lebih sulit,” jelas Duane. “Itu berarti mereka sering beroperasi lebih dekat ke tepi dari apa yang dapat mereka lakukan dengan andal, yang meningkatkan risiko menghasilkan jawaban yang terdengar benar tetapi tidak.”
Dia berpendapat bahwa memecahkan masalah membutuhkan lebih dari sekadar skala. “Ini bukan hanya tentang membangun model yang lebih besar lagi,” katanya. “Kita membutuhkan arsitektur yang memahami tidak hanya apa yang harus dikatakan, tetapi mengapa itu penting dan bagaimana tetap didasarkan pada kebenaran ketika itu penting.”
Duane percaya kemajuan nyata akan datang dari memasangkan model yang lebih baik dengan sistem yang dirancang untuk mendukungnya, memori, validator, dan agen yang bekerja bersama-sama. “Kami memasuki fase ketika kecerdasan model hanyalah satu bagian dari teka-teki,” katanya. “Manajemen konteks, pembelajaran real-time, dan alat adaptif akan sama pentingnya.”
Mengetahui bagaimana model bahasa besar bekerja sangat penting untuk memahami mengapa mereka terkadang salah. LLM memprediksi kata berikutnya dalam kalimat berdasarkan pola yang telah mereka pelajari dari sejumlah besar teks. Mereka tidak menarik fakta dari database tetapi membuat tebakan yang terdidik. Hal ini dapat menyebabkan jawaban yang terdengar akurat tetapi salah, terutama ketika topiknya tidak jelas, tidak biasa atau di luar apa yang telah dilatih oleh model.
Halusinasi sulit untuk dihilangkan karena mereka bukan bug dalam sistem; mereka adalah fitur yang melek at dari bagaimana model probabilistik ini bekerja. Ketika tidak ada pola solid yang tersedia dalam data pelatihan, atau ketika prompt terlalu kabur atau terbuka, model dapat menciptakan sesuatu yang terdengar masuk akal.
Ada juga pertanyaan yang lebih filosofis yang dimainkan. Ketika model AI menciptakan sesuatu, apakah model tersebut gagal atau berhasil?
Puri mencatat bahwa ketika model menjadi lebih kuat dalam penalaran mereka, mereka mungkin juga menunjukkan perilaku yang lebih “kreatif” yang berbatasan dengan halusinasi. “Orang bisa berargumen bahwa kreativitas melibatkan semacam halusinasi,” katanya. “Anda membayangkan hal yang tak terbayangkan. Namun dalam aplikasi perusahaan, hal itu merupakan suatu kewajiban, bukan kekuatan.”
Peneliti IBM Payel Das termasuk di antara mereka yang mencoba mengatasi masalah ini dengan memikirkan kembali bagaimana model menangani informasi. “Ini adalah paradoks kemajuan,” kata Das kepada IBM Think dalam sebuah wawancara. “Model-model ini semakin baik dalam penalaran, tetapi belum tentu dalam mengingat. Mereka bisa memecahkan masalah yang lebih sulit tetapi masih salah dasar-dasarnya.”
Timnya di IBM telah mengembangkan Larimar, sistem augmentasi memori yang dirancang untuk memberikan model bentuk memori jangka pendek yang dapat diedit. Idenya adalah membiarkan model merevisi atau melupakan fakta sesuai kebutuhan, tanpa melatih ulang seluruh sistem; fleksibilitas waktu nyata yang sebagian besar kurang dimiliki oleh LLM saat ini.
“Model saat ini statis dan rapuh,” katanya. “Anda tidak bisa mengajari mereka sesuatu di tengah percakapan atau memperbarui pemahaman mereka tanpa melatih mereka sepenuhnya. Larimar adalah langkah untuk membuat mereka lebih fleksibel.”
Pendekatan berbasis memori lainnya juga menunjukkan harapan. MemReasoner, yang dikembangkan oleh para peneliti Microsoft, berfokus untuk membantu model bernalar secara lebih efektif di seluruh rangkaian panjang dengan memilih dan menghubungkan informasi yang relevan dari bagian awal percakapan. Proyek CameLot IBM sendiri dirancang untuk membantu model tetap koheren saat bekerja dengan volume besar teks atau interaksi yang diperluas.
Di luar laboratorium, perusahaan seperti Vectara membangun alat praktis untuk mengatasi halusinasi. “Agen penjaga” Vectara memantau output AI secara real-time dan menulis ulang kesalahan sebelum mencapai pengguna. Das mengatakan meskipun tidak ada perbaikan tunggal yang akan menyelesaikan masalah, menggabungkan strategi memori dan revisi adalah langkah maju yang kuat.
“Kami tidak akan pernah menghilangkan setiap kesalahan,” kata Das. “Sama seperti manusia yang melakukan kesalahan. Tetapi kita dapat membuat model yang lebih baik dalam belajar, beradaptasi, dan mengoreksi diri mereka sendiri. Dan itu membuat perbedaan besar.”
