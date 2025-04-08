Model bahasa besar semakin pandai memahami ucapan manusia—tetapi bagaimana jika mereka juga mencerminkan otak itu sendiri?
Dalam sebuah studi baru yang diterbitkan di Nature Human Behavior, para ilmuwan menemukan bahwa model Whisper OpenAI memproses bahasa yang sangat mirip dengan bagaimana neuron nyata merespons selama percakapan alami. Peneliti utama Ariel Goldstein mengatakan kepada IBM® Think bahwa ia dan timnya menganalisis lebih dari 100 jam rekaman otak yang diambil dari orang-orang yang terlibat dalam dialog tanpa naskah. Dengan membandingkan rekaman tersebut dengan cara kerja internal Whisper, mereka menemukan bahwa representasi berlapis model sangat selaras dengan bagaimana otak memproses ucapan, dari suara mentah hingga makna.
Goldstein mengatakan temuan itu dapat memiliki implikasi komersial yang signifikan. Suatu hari nanti, perusahaan mungkin dapat merancang alat suara berbasis AI yang mampu mengodekan ucapan sefleksibel dan seefisien otak, sehingga mengurangi waktu pelatihan, meningkatkan kualitas transkripsi, dan bahkan mendukung prostetik neural generasi berikutnya.
“Bahasa terjadi dalam konteks sosial yang berantakan, bukan laboratorium steril,” kata Goldstein. “Studi kami menunjukkan bahwa kognisi manusia dan model AI mungkin berbagi kode yang lebih dalam dan lebih fleksibel untuk menangani percakapan.”
Rekaman dikumpulkan dengan menggunakan elektrokortikografi (ECoG), yang menempatkan elektroda langsung pada permukaan otak. Meskipun invasif, teknik ini menawarkan tampilan kesetiaan tinggi pada aktivitas saraf. Tim Goldstein mencatat aktivitas otak dari pasien yang sudah menjalani pemantauan untuk operasi epilepsi, menangkap percakapan spontan sehari-hari alih-alih isyarat kata yang terisolasi atau prompt buatan.
Koneksi Brain-AI telah meng inovasi di IBM® Research, di mana para ilmuwan telah mengembangkan chip seperti NorthPole, yang meniru arsitektur saraf dengan menghilangkan hambatan komputasi memori tradisional. Prototipe IBM® telah menunjukkan efisiensi yang luar biasa, melakukan inferensi pada model AI besar hingga 46,9 kali lebih cepat daripada GPU terkemuka.
Studi ini menemukan bahwa sinyal saraf dan penyematan model Whisper menunjukkan tingkat keselarasan linier yang tinggi, yang menunjukkan bahwa otak memproses bahasa tidak dalam tahap-tahap yang kaku dan terpisah, tetapi dalam berbagai lapisan yang fleksibel dan saling tumpang tindih, seperti halnya sistem pembelajaran yang mendalam. Informasi akustik, semantik, dan tata bahasa tidak terbatas pada area terisolasi di otak atau model AI. Sebaliknya, mereka tampak menyatu dalam lapisan yang sama, mengisyaratkan strategi optimasi bersama untuk makna.
"Gagasan bahwa kita memiliki sistem yang dioptimalkan untuk tugas—dan menginduksi representasi yang berkorelasi dengan konsep psikolinguistik, tetapi tidak tepat—adalah cara berpikir baru tentang bagaimana otak memproses informasi," Goldstein menjelaskan.
Dia mencatat bahwa, tidak seperti pandangan sebelumnya yang membagi fungsi bahasa otak menjadi modul diskrit—beberapa untuk suara, yang lain untuk tata bahasa, yang lain untuk makna—temuan timnya menunjukkan otak dapat memproses semua ini secara bersamaan di wilayah terintegrasi, seperti model pembelajaran mendalam yang dilatih untuk menyelesaikan tugas ujung ke ujung.
Whisper, yang dikembangkan oleh OpenAI, dipilih karena kesamaan arsitekturnya dengan tugas otak: mengubah input akustik menjadi bahasa yang koheren. "Otak tidak menerima kata-kata—otak menerima suara," Goldstein mengatakan. "Whisper meniru ini dengan mengubah audio mentah menjadi teks, lapis demi lapis."
Selain itu, tim menemukan bahwa sinyal semantik kadang-kadang dapat dideteksi sebelum seseorang benar-benar mulai berbicara. Ini menunjukkan otak mungkin mengodekan maksud atau makna sebelum ucapan, yang makin mengaburkan batas antara pikiran dan ekspresi.
Goldstein mencatat bahwa terobosan ini dapat meningkatkan transkripsi waktu nyata, meningkatkan asisten suara, dan memungkinkan agen layanan pelanggan AI yang lebih cerdas untuk bisnis. Idenya adalah bahwa menyelaraskan model AI lebih dekat dengan sinyal otak manusia—terutama dalam kondisi dunia nyata yang bising—dapat meningkatkan kinerja tanpa memerlukan ratusan ribu jam pelatihan.
"Ada kemungkinan bahwa jika kita membatasi model Speech to Text di masa depan menggunakan sinyal saraf atau representasi saraf manusia, itu mungkin meningkatkan kinerjae model ini," Goldstein mengatakan. "Tapi itu sifatnya spekulatif. Kami tidak mengujinya secara langsung."
Bayangkan asisten suara masa depan yang dilatih tidak hanya pada transkrip, tetapi juga pada representasi makna gaya otak. Asisten ini dapat mengurangi persyaratan data untuk pelatihan dan meningkatkan ketahanan di lingkungan yang tidak dapat diprediksi, seperti pusat panggilan atau sistem bantuan driver.
Riset ini juga menjanjikan bagi teknologi asisten. Mendekode sinyal bahasa internal dapat memulihkan komunikasi untuk individu dengan penyakit degeneratif atau yang telah kehilangan kemampuan untuk berbicara. Model bahasa besar dapat berfungsi sebagai dukungan, membantu menerjemahkan maksud saraf kasar ke dalam bahasa yang koheren secara tata bahasa.
"Jika masalahnya bukan kognitif, tetapi tentang mengendalikan otot—ya, pada akhirnya kita mungkin membangun perangkat yang memecahkan kode makna dari otak dan membantu orang berkomunikasi," katanya. "Tapi kami menggunakan metode invasif dalam penelitian ini. Jika Anda membangun sesuatu untuk penggunaan praktis, itu harus bekerja secara non-invasif, dan sinyal-sinyal itu lebih berisik."
Ada juga batas spekulatif: membaca pikiran. Goldstein berhati-hati. "Berbicara adalah bagian dari proses pembentukan pikiran," catatnya. "Ini tidak seperti kita memiliki segalanya yang terbentuk sepenuhnya dalam pikiran kita dan kemudian tekan saja 'kirim.' Kita mungkin dapat menangkap sesuatu pada tingkat konseptual, tetapi belum tentu monolog internal yang berbutir halus."
Namun, bukti awal dari penelitian ini menemukan jejak konten semantik dalam sinyal otak sebelum sebuah kata diucapkan, menunjukkan bahwa dengan resolusi dan konteks yang cukup, mesin dapat memprediksi apa yang ingin dikatakan seseorang.
Goldstein menekankan bahwa sementara model bahasa saat ini seperti Whisper dan GPT pada dasarnya adalah arsitektur feed-forward—data mengalir dalam satu arah—otak bersifat rekursif dan digerakkan oleh masukan. "Keadaan akhir otak menjadi input berikutnya," katanya. "Ada lingkaran modifikasi diri yang konstan. "Itulah perbedaan yang besar."
Dia menyarankan sistem AI masa depan mendapatkan Power dengan menggabungkan loop masukan serupa, di mana output menginformasikan input masa depan secara real time. Sistem ini memiliki implikasi untuk bahasa dan sistem apa pun yang belajar melalui interaksi, seperti robotika atau agen otonom.
Riset ini juga membuka pintu untuk jenis kolaborasi interdisipliner baru. Laboratorium Goldstein sekarang mengeksplorasi bagaimana input multimodal—visi, suara, gerak—dapat diintegrasikan ke dalam sistem AI yang lebih mencerminkan bagaimana orang mengalami dunia.
"Jika kita dapat mengambil modalitas yang sama yang digunakan manusia—tubuh, visual, pendengar—dan membangun model yang dilatih dengan cara yang sama, kita mungkin lebih dekat dengan pemodelan otak," katanya.
Ke depan, Goldstein memperhatikan sesuatu yang lebih tenang. Bukan obrolan sosial atau ucapan reaktif, tetapi introspeksi.
"Orang-orang berbicara kepada diri mereka sendiri, menggambarkan keadaan internal mereka—di situlah saya ingin pergi selanjutnya," katanya. "Bukan interaksi sosial, tapi suara pikiran yang tenang."
Dia percaya pemodelan dialog internal—percakapan kita yang paling pribadi—dapat menawarkan wawasan mendalam tentang kesadaran dan kognisi. Namun, hal itu juga penuh dengan masalah etika. Apa yang terjadi ketika mesin dapat menguping pikiran kita, bahkan jika tidak sempurna?
“Kita perlu memikirkan secara serius tentang pengawasan, manipulasi perilaku, dan konsekuensi yang tidak disengaja,” katanya memperingatkan. "Saya tidak khawatir secara pribadi, tetapi kita harus siap. Kita perlu mengalokasikan sumber daya untuk memahami bagaimana perilaku semacam ini dapat terjadi."
Goldstein menolak sensasionalisme. Otak bukanlah komputer, dan AI bukanlah otak. Namun, kesamaan antara keduanya mungkin lebih dari metafora dangkal.
"Ini adalah kemajuan", katanya, "tetapi masih ada keajaiban dalam bagaimana otak kita menyatukan kata-kata dengan cepat".
