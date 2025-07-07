Model Mamba mungkin merupakan arsitektur pembelajaran mendalam pertama yang menyaingi kemanjuran model transformator pada tugas yang awalnya membuat transformator terkenal: pemodelan bahasa. Terutama, arsitektur Mamba telah menunjukkan kapasitas untuk mencocokkan transformator berukuran setara pada evaluasi tolok ukur LLM yang menonjol sementara seringkali secara signifikan lebih efisien dalam hal latensi dan persyaratan memori.

Arsitektur Mamba pertama kali diperkenalkan oleh Tri Dao dan Albert Gu dalam makalah tahun 2023, “Mamba: Pemodelan Urutan Waktu Linier dengan Ruang Keadaan Selektif.” Setahun kemudian, mereka menindaklanjuti makalah Mamba asli dengan makalah lain yang menjelajahi hubungan antara SSM dan transformator dan menyajikan versi arsitektur Mamba yang lebih baik dan jauh lebih cepat, yang mereka juluki Mamba-2.

Meskipun transformator tetap menjadi mode dominan LLM dalam 2 tahun setelah rilis makalah Mamba yang asli, arsitekturnya telah dimasukkan ke dalam semakin banyak model sumber terbuka. Beberapa, seperti Codestral Mamba dari Mistral AI, adalah model Mamba murni. Banyak lagi, termasuk seri Jamba AI2I dan IBM® Granite 4.0, adalah model hibrida yang menggabungkan lapisan perhatian (transformator) dan lapisan SSM (Mamba). Selain manfaat berbasis kinerja, proliferasi model berbasis Mamba menjanjikan untuk mendemokratisasikan akses AI dengan berjalan lancar pada perangkat keras yang relatif murah.