Apa itu model Mamba?

Penyusun

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Apa yang dimaksud dengan model Mamba?

Mamba adalah arsitektur jaringan neural, yang berasal dari model ruang keadaan (SSM), yang digunakan untuk pemodelan bahasa dan tugas pemodelan sekuens lainnya. Kecepatan inferensi yang cepat dan efisiensi komputasi arsitektur Mamba, terutama untuk sekuens yang panjang, menjadikannya alternatif kompetitif pertama bagi arsitektur transformator untuk model bahasa besar (LLM) autoregresif.

Model Mamba mungkin merupakan arsitektur pembelajaran mendalam pertama yang menyaingi kemanjuran model transformator pada tugas yang awalnya membuat transformator terkenal: pemodelan bahasa. Terutama, arsitektur Mamba telah menunjukkan kapasitas untuk mencocokkan transformator berukuran setara pada evaluasi tolok ukur LLM yang menonjol sementara seringkali secara signifikan lebih efisien dalam hal latensi dan persyaratan memori.

Arsitektur Mamba pertama kali diperkenalkan oleh Tri Dao dan Albert Gu dalam makalah tahun 2023, “Mamba: Pemodelan Urutan Waktu Linier dengan Ruang Keadaan Selektif.” Setahun kemudian, mereka menindaklanjuti makalah Mamba asli dengan makalah lain yang menjelajahi hubungan antara SSM dan transformator dan menyajikan versi arsitektur Mamba yang lebih baik dan jauh lebih cepat, yang mereka juluki Mamba-2.

Meskipun transformator tetap menjadi mode dominan LLM dalam 2 tahun setelah rilis makalah Mamba yang asli, arsitekturnya telah dimasukkan ke dalam semakin banyak model sumber terbuka. Beberapa, seperti Codestral Mamba dari Mistral AI, adalah model Mamba murni. Banyak lagi, termasuk seri Jamba AI2I dan IBM® Granite 4.0, adalah model hibrida yang menggabungkan lapisan perhatian (transformator) dan lapisan SSM (Mamba). Selain manfaat berbasis kinerja, proliferasi model berbasis Mamba menjanjikan untuk mendemokratisasikan akses AI dengan berjalan lancar pada perangkat keras yang relatif murah.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Apa yang dimaksud dengan model ruang keadaan?

SSM pada awalnya dirancang untuk memprediksi keadaan berikutnya dari rangkaian kontinu, seperti sinyal listrik, pola cuaca, atau lintasan objek bergerak, berdasarkan beberapa input. Konseptual dan matematis, mereka terkait dengan jaringan neural berulang (RNNs) yang mendominasi pemrosesan bahasa alami (NLP) sebelum diperkenalkannya transformator pada tahun 2017, serta algoritma machine learning termasuk jaringan neural konvolusi (CNNs) dan model Markov tersembunyi (HMMs).

Seperti namanya, SSM membuat prediksi tentang keadaan berikutnya dalam sistem dinamis dengan memodelkan ruang keadaan: representasi matematis dari semua variabel keadaan yang menggambarkan keadaan sistem dan berbagai kemungkinan untuk masing-masing variabel tersebut secara bersamaan dengan satu sama lain.

SSM mengambil input x(t) dan memetakannya ke representasi keadaan laten h(t)—analog dengan keadaan tersembunyi dari RNN—untuk memprediksi sekuens output y(t). Inti dari setiap SSM adalah 2 persamaan:

  • Persamaan keadaan,  h(t)=A*h(t)+B*x(t) 
  • Persamaan output,  y(t)=C*h(t)+D*x(t) 

Parameter utama model adalah A, B, C dan D, yang biasanya berbentuk matriks bobot. Dalam bidang di mana SSM digunakan secara konvensional, seperti teori kontrol, matriks ini sering diasumsikan tetap: matriks ini mewakili dinamika sistem yang sudah mapan, dan SSM digunakan untuk menemukan input x yang menghasilkan output y yang diinginkan.Dalam konsepsi SSM yang lebih modern, matriks tersebut sendiri merupakan parameter yang harus dioptimalkan melalui machine learning. Dalam model pembelajaran mendalam, matriks tersebut diwakili oleh bobot jaringan neural yang dapat dipelajari.

Persamaan keadaan

Persamaan keadaan menggambarkan bagaimana keadaan berubah. Nilai-nilai dalam matriks A menentukan bagaimana setiap variabel keadaan berkembang dari waktu ke waktu jika dibiarkan sendiri. Nilai-nilai dalam matriks B menentukan bagaimana input-seperti token berikutnya dalam urutan teks-mempengaruhi setiap variabel keadaan.

Diagram persamaan ruang keadaan SSM Persamaan negara. Ilustrasi berasal dari karya Maarten Grootendorst "A Visual Guide to Mamba and State Space Models"

Dalam pemodelan bahasa, status saat ini mewakili konteks urutan teks, yang diperbarui setelah setiap token. Perannya setara dengan cache KV dalam model transformator.

Persamaan output

Persamaan output menjelaskan bagaimana keadaan saat ini mempengaruhi output (seperti yang dimediasi oleh matriks C), serta bagaimana input mempengaruhi output secara langsung (seperti yang dimediasi oleh matriks D). Karena matriks D pada dasarnya berada di luar pemodelan h(t) itu sendiri, maka matriks ini sering kali dihilangkan dari diagram dan diskusi tentang SSM dan lebih berfokus pada matriks inti A, B dan C.

Diagram persamaan output SSM Persamaan output. Persamaan keadaan. Ilustrasi berasal dari karya Maarten Grootendorst "A Visual Guide to Mamba and State Space Models."

Dalam LLM Mamba, persamaan output digunakan untuk menghasilkan token berikutnya.

SSM Diskret

SSM tradisional dirancang untuk memodelkan input kontinu , tetapi urutan teks (dan sebagian besar modalitas data lainnya yang diproses oleh model pembelajaran mendalam) adalah input diskret. Menggunakan SSM untuk memodelkan urutan diskrit memerlukan cara untuk merepresentasikan langkah waktu yang berbeda dan spesifik sebagai bagian dari sinyal kontinu.

Secara konseptual, diskretisasi berarti mengambil sampel nilai fungsi kontinu pada momen tertentu. Hal ini memerlukan pengenalan parameter baru— ukuran langkah, ditulis sebagai —yang menentukan berapa lama nilai tersebut diambil sampelnya atau “ditahan” pada setiap langkah waktu diskret t. Penyesuaian pada mirip dengan perubahan kualitas seperti resolusi data (untuk data deret waktu) atau kecepatan bingkai (untuk data video). Terdapat beberapa metode “diskretisasi”, tetapi sebagian besar varian SSM modern (termasuk Mamba) menggunakan metode zero order hold (ZOH) sederhana.

Mendiskretisasi SSM memungkinkannya digunakan seperti RNN untuk tugas sekuens-ke-sekuens. Parameter dan persamaan SSM yang didiskretisasi biasanya ditulis ulang untuk membedakannya dari ekuivalen waktu kontinu, menggunakan notasi subskrip yang biasanya digunakan untuk RNN. Dalam notasi ini, ht mewakili ruang keadaan yang diperbarui yang akan dihasilkan oleh model dan ht-1 mewakili keadaan sebelumnya, yaitu ruang keadaan saat ini.

 ht=A¯ht-1+B¯xt  
 yt=C¯ht

SSM terstruktur

Memodelkan data teks menggunakan SSM diskret standar tidak praktis karena sejumlah kekurangan yang dimiliki SSM dengan RNN. Dua dari kekurangan tersebut diatasi dengan diperkenalkannya model sekuens ruang keadaan terstruktur (atau "model S4") oleh Albert Gu dkk pada tahun 2021: ketidakefisienan pelatihan dan ketidakmampuan mereka untuk memodelkan sekuens yang panjang.

Meskipun kesuksesan model S4 dan banyak turunannya, seperti SSM diagonal (DSS), S4 diagonal (S4D) dan model H3, secara langsung membuka jalan untuk apa yang kemudian dikenal sebagai Mamba.

Pelatihan yang efisien melalui konvolusi

Manfaat dari SSM diskret yang setara dengan contoh spesifik RNN adalah bahwa RNN sangat cepat dalam menyimpulkan. Namun, kelemahannya adalah RNN sangat lambat untuk dilatih.

Untungnya, SSM yang didiskretisasi memiliki satu sifat penting yang membedakannya dari RNN lain: mereka secara eksklusif memodelkan ketergantungan linear. Dengan kata lain, mereka hanya menggunakan operasi perkalian dan penjumlahan yang sederhana dan langsung. Seperti yang ditunjukkan oleh makalah S4, perulangan linier yang sederhana, berulang, dan saling bergantung ini dapat dibuka menjadi kernel konvolusi 1 dimensi, yang secara langsung memetakan input x ke output y dalam satu langkah: . Ini dapat dihitung dengan sangat efisien menggunakan transformasi Fourier cepat.

Satu-satunya "syarat" adalah bahwa ini hanya mungkin ketika setiap langkah dari seluruh sekuens input diketahui. Hal ini tidak mungkin dilakukan selama inferensi, tetapi bisa dilakukan selama pelatihan. Oleh karena itu, SSM terstruktur menikmati yang terbaik dari kedua dunia: selama pelatihan, SSM dapat dioperasikan dengan sangat efisien sebagai CNN; selama inferensi, SSM dapat dioperasikan dengan sangat efisien sebagai RNN.

Memodelkan rangkaian panjang melalui matriks terstruktur

Seperti kebanyakan RNN, SSM standar secara inheren lemah dalam memodelkan dependensi jarak jauh. Dengan kata lain, mereka tidak pandai memahami hubungan antara langkah-langkah dalam urutan yang berjauhan, seperti kata-kata di awal dan akhir paragraf-yang membuat mereka lemah dalam memodelkan sekuens yang panjang secara keseluruhan.

Untuk mengatasi hal ini, Gu dan rekan penulisnya (salah satunya adalah Tri Dao) menggunakan teknik yang disebut HiPPO-singkatandari High-order Polynomial Projection Operator-untuk mendefinisikan cara matriks A dan B berperilaku dengan menyusun nilai awal mereka menggunakan rumus yang berasal dari polinomial ortogonal. Ini berbeda dengan praktik machine learning standar, di mana bobot model diinisialisasi secara acak pada awal pelatihan model. Untuk S4, Dao dan Gu mengusulkan skema inisialisasi yang berasal dari polinomial Legendre. Mereka menjelajahi rumus tambahan dalam makalah lanjutan, berjudul "How to Train your HiPPO."1

Makalah S4 mencatat bahwa “hanya memodifikasi SSM dari matriks acak A ke [Matriks HiPPO] meningkatkan kinerjanya pada tolok ukur berurutan MNIST dari 60% menjadi 98%,” secara efektif memecahkan masalah memori jangka panjang SSM. Variasi selanjutnya dari SSM terstruktur, seperti DSS, S5 dan Mamba, menggunakan skema inisialisasi yang berbeda (seringkali lebih sederhana) untuk A dan B yang tetap mempertahankan prinsip-prinsip inti HiPPO: mengimplementasikan struktur diagonal yang menerapkan pembaruan yang stabil dan tingkat independensi antara setiap nilai dalam matriks.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Bagaimana cara kerja model Mamba?

Inti dari arsitektur Mamba adalah dua inovasi. Yang pertama adalah model ruang keadaan selektif, yang memberi Mamba kemampuan penting yang sebelumnya hanya dimiliki oleh model transformator: kemampuan untuk secara selektif fokus atau mengabaikan bagian tertentu dari riwayat input masa lalu berdasarkan relevansinya saat ini. Yang lainnya adalah pemindaian paralel yang sadar akan perangkat keras, suatu algoritma yang mengoptimalkan cara unit pemrosesan grafis (GPU) menangani komputasi model dalam hierarki memorinya untuk memaksimalkan kecepatan dan efisiensi komputasi.

Pada transformator, kemampuan ini disediakan oleh mekanisme perhatian yang menyesuaikan bobot perhatian yang menekankan atau tidak menekankan pengaruh setiap token sebelumnya berdasarkan relevansinya dengan token input saat ini. SSM biasa dirancang secara eksplisit untuk memetakan input ke output menggunakan seluruh riwayat input.Hal ini dapat diterima atau bahkan diinginkan untuk beberapa tugas pemodelan urutan, tetapi merupakan hambatan yang signifikan untuk sebagian besar tugas pemodelan bahasa tingkat lanjut.

Untuk memperbaiki ketidakmampuan ini untuk secara dinamis menghilangkan atau menekankan bagian tertentu dari riwayat input mereka, Dao dan Gu mengusulkan kelas baru model ruang keadaan dengan "pemindaian selektif." Dalam makalah Mamba, penulis mengatakan bahwa mereka "kadang-kadang menyingkat SSM selektif sebagai model S6, karena mereka adalah model S4 dengan mekanisme seleksi dan dihitung dengan pemindaian." Mereka menjuluki arsitektur berbasis S6 mereka "Mamba" karena, antara lain, semua huruf S itu terdengar seperti desis ular.

Mamba paling baik dipahami sebagai arsitektur jaringan neural yang berisi model ruang keadaan selektif pada intinya. Untuk analogi sederhana, Mamba selektif SSM seperti model transformator untuk mekanisme perhatian.

Cara kerja model ruang keadaan selektif (S6)

SSM tradisional memiliki dinamika tetap: aturan yang mengatur bagaimana keadaan tersembunyi berkembang dari satu langkah ke langkah berikutnya — parameter model— sama untuk setiap input dan pada setiap langkah dalam urutan. Properti ini dikenal sebagai linear time invarian (LTI). Untuk menyediakan SSM dengan kemampuan untuk secara selektif memprioritaskan atau tidak memprioritaskan informasi masa lalu tertentu berdasarkan konteks saat ini, Dao dan Gu mengkonfigurasi ulang SSM mereka sedemikian rupa sehingga nilai parameter model utama akan berbeda untuk input yang berbeda.

Lebih khusus lagi, SSM selektif membuat ukuran langkah t dan matriks Bt dan Ct menjadi fungsi langsung dari token xt. Hal ini dicapai dengan pertama-tama melewatkan menanamkan vektor dari xt melalui tiga lapisan proyeksi linier paralel. Dengan kata lain, lapisan jaringan saraf feedforward standar (atau lapisan MLP). Hal ini setara dengan bagaimana kepalaquery, kunci, dan nilai paralel menghasilkan vektor Q, K, dan V masing-masing input dalam model transformator.

Diagram model ruang keadaan selektif Alokasi SSM dan RAM selektif pada GPU. Diambil dari makalah asli, "Mamba: Linear Time-Sequence Modeling with Selective State Spaces"

Perkalian vektor penyematan xt dengan bobot dan bias dalam jaringan proyeksi linier tersebut menghasilkan nilai-nilai ∆t, Bt dan Ct. Istilah bobot dan bias dari lapisan proyeksi linear sendiri dipelajari selama pelatihan awal model pada kumpulan data besar sampel teks, lalu (opsional) disempurnakan melalui penyempurnaan berikutnya.

  • Nilai t menentukan besarnya pengaruh xt terhadap memori model tentang konteks yang telah dilihatnya sejauh ini: dengan kata lain,seberapa banyak pembaruan yang akan terjadi dari keadaan tersembunyi ht-1 ke ht. Ukuran langkah yang lebih besar t menghasilkan perubahan yang lebih besar dan mempercepat peluruhan - dengan kata lain, "melupakan" - informasi yang lebih lama yang terkandung di dalam keadaan. Sebaliknya, ukuran langkah yang lebih kecil menghasilkan pembaruan yang lebih kecil. Pada ukuran langkah yang cukup kecil, input saat ini tidak akan berdampak pada keadaan tersembunyi sama sekali.

  • Perubahan pada matriks Bk menentukan bagaimana token input saat ini memperbarui keadaan tersembunyi. Misalnya, jika xt adalah token untuk kata "kemarin," Bt mungkin disesuaikan dengan cara memperbarui keadaan untuk mencerminkan bahwa konteks berikutnya mungkin berkaitan dengan masa lalu.

  • Perubahan pada matriks Ct menentukan bagaimana informasi kontekstual ini diterjemahkan menjadi pengaruh pada output model yt. Lanjutkan contoh di mana xk adalah token untuk "kemarin," Ck mungkin dipengaruhi dengan cara yang menyebabkan kata kerja apa pun yang kemudian dihasilkan oleh model dikonjugasikan dalam bentuk lampau.

Khususnya, tidak ada penyesuaian berbasis input yang dilakukan pada matriks A. Perannya tetap sama seperti pada model S4: untuk menghafal seluruh riwayat input masa lalu secara efisien. Peran untuk menentukan bagian mana dari sejarah tersebut yang akan digunakan pada saat tertentu ditangani oleh matriks B dan C .

Pemindaian paralel

Namun, setelah model tidak lagi time-invariant, model tidak lagi dapat menggunakan jalan pintas konvolusi selama pelatihan karena kernel transisi tidak lagi konstan: inti dari mekanisme selektivitas adalah bahwa transisi dari ht-1 ke ht sekarang bergantung pada konteks.

Sebagai gantinya, Mamba menggunakan solusi cerdas untuk mencapai manfaat paralelisasi yang serupa. Karena SSM hanya menggunakan perkalian dan penjumlahan, komputasinya tunduk pada sifat asosiatif matematika yang sudah dikenal: mereka dapat dikelompokkan dengan cara yang berbeda tanpa mengubah hasil akhirnya. Hal ini memungkinkan banyak perhitungan berurutan untuk dipecah menjadi potongan kecil dan independen yang dapat diproses secara paralel oleh GPU melalui pemindaian jumlah awalan paralel.

Selain itu, Hasil digabungkan secara hierarkis tertentu yang memanfaatkan secara optimal berbagai jenis memori perangkat keras pada GPU, menggunakan prinsip-prinsip yang mirip dengan teknik FlashAttention yang juga dikembangkan oleh Tri Dao—yang sekarang ada di mana-mana di LLM modern.  

Blok Mamba

Dalam arsitektur Mamba, model S6 berfungsi sebagai modul dari “blok Mamba” yang lebih besar, sama seperti mekanisme perhatian berfungsi sebagai modul dalam “blok perhatian” yang lebih besar. Model ini menggabungkan modul S6 dengan arsitektur jaringan neural yang terjaga. Model Mamba biasanya terdiri dari beberapa blok Mamba—yaitu, serangkaian lapisan Mamba yang berurutan dalam jaringan neural—sebelum lapisan output yang membuat prediksi output akhir model.

Diagram blok Mamba-2 Blok Mamba. "x" mengikuti SSM selektif mengacu pada perkalian berdasarkan elemen, bukan produk titik standar.

Sebelum memasuki blok Mamba, salinan input dikirim langsung ke ujung sebagai sambungan sisa .Tujuan dari cara kerja blok Mamba adalah untuk tidak hanya menentukan bagian mana dari konteks yang lebih besar yang relevan dengan input tersebut, tetapi juga untuk menentukan seberapa besar informasi kontekstual tersebut harus mengubah makna asli dari input tersebut.

Di dalam blok Mamba, vektor input asli diproses sebagai berikut:

  • Pertama, input dilewatkan melalui lapisan linier yang dua kali lebih lebar dari vektor input itu sendiri, memproyeksikannya ke ruang dimensi yang lebih tinggi. Sebagai contoh, jika model awalnya merepresentasikan setiap token input x sebagai penyematan vektor berdimensi 512, mengalikan x dengan bobot lapisan proyeksi linier akan mengembangkannya menjadi vektor berdimensi 1024.

  • Selanjutnya, vektor yang diperluas dibagi menjadi dua. Setengahnya (yang akan kita sebut xproj) dimasukkan ke dalam jalur yang berjalan melalui SSM, dan setengahnya lagi (yang akan kita sebut zproj) dimasukkan ke dalam jalur terpisah yang berjalan melalui mekanisme gerbang. Untuk kejelasan, langkah ekspansi sebelumnya biasanya digambarkan sebagai dilakukan oleh 2 lapisan linier paralel.

  • Sebelum xproj mencapai SSM, akan dimasukkan ke dalam lapisan konvolusi 1 dimensi. Lapisan konvolusi ini mengekstrak pola-pola lokal (seperti ketergantungan antara token-token yang berdekatan, seperti pasangan kata kerja-subjek yang sederhana). Hal ini memungkinkan SSM untuk "fokus" pada pemahaman kontekstual tentang ketergantungan global jangka panjang.

  • Output dari lapisan konvolusi berfungsi sebagai input ke fungsi aktivasi nonlinier. Memperkenalkan nonlinieritas adalah ciri khas dari semua jaringan neural, yang memungkinkan jaringan tersebut menangkap pola yang lebih kompleks. Makalah Mamba menggunakan Sigmoid Linear Unit (SiLU). Kita akan menyebut vektor yang dihasilkan sebagai xact.

  • Sementara itu, di jalur mekanisme gating yang terpisah, zproj juga dimasukkan ke fungsi aktivasi nonlinier, menghasilkan ztindakan.

  • Di jalur SSM, xtindakan dimasukkan ke dalam tiga lapisan proyeksi linier paralel yang menghasilkan nilai masing-masing untuk ∆x, Bx, dan Cx.

  • SSM menggunakan parameter yang bergantung pada input ini (dan matriks A dan D ) untuk menghitung pembaruan ruang keadaan dan output SSM y.

  • Vektor output y dari SSM sekarang dikalikan sesuai elemen dengan vektor output zact jalur gating. Pada dasarnya, setiap elemen dalam zact bertindak seperti kenop volume pada konsol pencampuran audio: jika elemen zact yang diberikan mendekati nol, perkalian dengan bagian y yang sesuai akan menghasilkan nilai yang mendekati nol dan pengaruhnya akan berkurang. Sebaliknya, jika elemen zact yang diberikan besar, perkalian dengan y akan memperkuat pengaruh informasi kontekstualnya.

  • Vektor yang dihasilkan diproyeksikan kembali ke ukuran aslinya. Ini dapat dipahami sebagai vektor pembaruan kontekstual berbobot (atau nonpembaruan) untuk setiap elemen vektor input asli.

  • Terakhir, vektor pembaruan tersebut ditambahkan ke salinan vektor input asli yang dikirim langsung ke akhir blok sebagai sambungan sisa.

  • Vektor input asli sekarang telah diperbarui untuk mencerminkan pemahaman kontekstual yang disediakan oleh SSM selektif. Sekarang dapat dikirim ke lapisan Mamba berikutnya atau, pada lapisan akhir model, berfungsi sebagai input ke fungsi softmax yang mengeluarkan probabilitas masing-masing bahwa vektor yang diperbarui sepenuhnya sesuai dengan setiap kata dalam kosakata model.

Mamba-2

Setahun setelah makalah Mamba yang asli, Dao dan Gu menindaklanjutinya dengan "Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality." Makalah tindak lanjut ini menawarkan tiga kontribusi utama:

  • Eksplorasi hubungan teoretis antara Mamba dan transformator dan kosakata bersama antara kedua arsitektur tersebut
  • Serangkaian klarifikasi dan eksplorasi pilihan desain yang berbeda untuk model Mamba
  • Arsitektur yang dimodifikasi, Mamba-2, diinformasikan dan ditingkatkan oleh eksplorasi desain tersebut

Algoritma Mamba-2 secara signifikan lebih cepat dan lebih mudah diimplementasikan daripada Mamba yang asli: penulisnya menyediakan basis kode "SSD minimal" yang mengimplementasikan SSM selektif dalam sekitar 25 baris kode.2 Efisiensi ini memungkinkan Mamba-2 untuk menggunakan dimensi keadaan tersembunyi yang jauh lebih besar tanpa memperlambat model, sehingga memungkinkan model yang lebih besar, lebih bertenaga, dan lebih ekspresif yang dibangun dengan arsitektur tersebut. Dalam pengujian, model Mamba-2 secara pasti menyamai atau mengungguli model Mamba dan transformator yang berukuran sama pada serangkaian tugas hilir.

Koneksi ke transformator

Seperti yang dinyatakan dalam pendahuluan makalah ini, "tujuan utama Dao dan Gu [adalah] untuk mengembangkan hubungan teoritis yang kaya antara SSM terstruktur dan varian perhatian." Hal ini menghasilkan kerangka kerja konseptual baru yang menyatukan keduanya, yang mereka sebut "dualitas ruang keadaan" (SSD).3 Dengan melakukan itu, mereka membuka pintu bagi Mamba untuk mendapatkan manfaat dari eksplorasi dan optimalisasi arsitektur transformator selama beberapa tahun.

Salah satu manfaat penting adalah pengembangan Mamba yang setara dengan perhatian multi-kepala (MHA), di mana blok Mamba dapat dibagi menjadi beberapa “kepala Mamba” mirip dengan beberapa “kepala perhatian” di transformator. Salah satu varian dari pendekatan ini, yang mereka anggap analog dengan perhatian kueri yang dikelompokkan, memungkinkan efisiensi yang lebih besar melalui paralelisme tensor dalam GPU.

Arsitektur Mamba-2

Dalam blok Mamba-2 — yang mereka sebut blok Mamba paralel (kebalikan dari blok Mamba “sekuensial” asli) —parameter yang bergantung pada input ∆, B dan C dihasilkan secara paralel pada lapisan proyeksi awal. B dan C, khususnya, diturunkan hanya dengan menyalin bagian dari xproj, bukan dengan mengalikan xproj melalui lapisan linier khusus. Selain menyederhanakan dan mengurangi total parameter model, paralelisme ini memungkinkan pelatihan skala besar yang jauh lebih efisien.4

Diagram blok Mamba-2 Blok Mamba-2. "x" mengikuti SSM selektif mengacu pada perkalian berdasarkan elemen, bukan produk titik standar.

Mamba vs. transformator

Baik Mamba maupun transformator memiliki kekuatannya masing-masing, tetapi model berbasis Mamba secara umum lebih unggul dalam segala hal yang berkaitan dengan penggunaan memori dan kecepatan: menurut makalah Mamba, Mamba menawarkan throughput 5 kali lebih besar daripada transformator yang setara.

Transformator sangat presisi dan serbaguna, tetapi juga sangat menuntut sumber daya komputasi. Selama pra-pelatihan (dan fine-tuning), persyaratan memori skala perhatian diri secara kuadratik dengan panjang urutan: jika Anda menggandakan panjang konteks sekuens, mekanisme perhatian menggunakan sumber daya empat kali lipat. “Hambatan kuadrat” ini semakin membatasi kecepatan dan ketersediaan memori seiring bertambahnya jendela konteks. Selama inferensi, memori mereka perlu diskalakan secara linier.

Selama pelatihan, penggunaan memori model Mamba hanya berskala secara linier selama pelatihan. Lebih penting lagi, penggunaan memori selama inferensi konstan: terlepas dari berapa banyak token yang dilihat model, SSM mempertahankan representasi ukuran tetap dari riwayat input. Hal ini memungkinkan panjang konteks yang tidak terbatas secara teoritis, dibatasi hanya oleh batasan perangkat keras.

Karena itu, metode transformator yang membutuhkan banyak memori dan redundan secara komputasi memiliki kelebihannya sendiri. Misalnya, penelitian telah menunjukkan bahwa transformator masih mengungguli Mamba dan Mamba-2 pada tugas-tugas yang membutuhkan pembelajaran dalam konteks (seperti prompting dengan beberapa contoh), penyalinan, atau penalaran konteks panjang.

Model mamba hibrida

Untungnya, kekuatan transformator dan Mamba sama-sama tidak eksklusif. Makalah Mamba-2 menunjukkan bahwa model hibrida dapat mengungguli transformator murni atau SSM-sebuah gagasan yang secara resmi divalidasi oleh penelitian NVIDIA di tahun 2024.5 Secara umum, model hibrida tampaknya menggabungkan manfaat efisiensi Mamba dengan nuansa dan kinerja pembelajaran dalam konteks yang disediakan oleh mekanisme perhatian yang lebih intensif dari transformator.

Untuk mengeksplorasi ini lebih lanjut, IBM Research berkolaborasi dengan Dao dan Gu, bersama dengan Minjia Zhang dari University of Illinois di Urbana-Champaign (UIUC), pada Bamba dan Bamba V2. Bamba, pada gilirannya, telah menginformasikan banyak elemen arsitektur dari IBM Granite 4.0.

Penelitian tentang model hibrida tetap menjadi bidang penelitian aktif, terutama dalam komunitas sumber terbuka.

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung