Kami sangat senang memperkenalkan IBM Granite 4.0 Tiny Preview, versi awal dari model terkecil dalam keluarga model bahasa Granite 4.0 mendatang, kepada komunitas sumber terbuka.
Granite 4.0 Tiny Preview sangat ringkas dan efisien dalam komputasi: dengan presisi FP8, beberapa sesi bersamaan yang melakukan tugas-tugas konteks panjang (128 ribu) dapat dijalankan pada perangkat keras kelas konsumen, termasuk GPU yang umumnya tersedia dengan harga di bawah 350 USD.1
Meskipun model ini hanya dilatih sebagian—hanya 2,5 T dari 15 T atau lebih token pelatihan yang direncanakan—model ini sudah menawarkan kinerja yang menyaingi IBM Granite 3.3 2 B Instruct meskipun dengan parameter aktif yang lebih sedikit dan sekitar 72% pengurangan kebutuhan memori.2 Kami memperkirakan kinerja Granite 4.0 Tiny setara dengan Granite 3.3 8B Instruct pada saat menyelesaikan pelatihan dan pasca-pelatihan.
Seperti namanya, Granite 4.0 Tiny akan menjadi salah satu penawaran terkecil dalam keluarga model Granite 4.0. Secara resmi akan dirilis pada musim panas ini sebagai bagian dari jajaran model yang juga mencakup Granite 4.0 Small dan Granite 4.0 Medium. Granite 4.0 melanjutkan komitmen kuat IBM untuk menjadikan efisiensi dan kepraktisan sebagai landasan pengembangan LLM perusahaan.
Versi awal Granite 4.0 Tiny ini sekarang tersedia di Hugging Face—meskipun kami belum merekomendasikan versi pratinjau untuk penggunaan perusahaan—di bawah lisensi Apache 2.0 standar. Tujuan kami adalah untuk memungkinkan bahkan pengembang dengan GPU berkinerja rendah untuk bereksperimen dan mengotak-atik model pada GPU kelas konsumen. Arsitektur baru model ini sedang menunggu dukungan pada transformator Hugging Face dan vLLM, yang kami perkirakan akan segera selesai untuk kedua proyek tersebut. Dukungan resmi untuk menjalankan model ini secara lokal melalui mitra platform termasuk Ollama dan LMStudio diharapkan tersedia untuk rilis model penuh akhir musim panas ini.
Persyaratan memori LLM sering disediakan, secara harfiah dan kiasan, tanpa konteks yang tepat. Tidaklah cukup hanya dengan mengetahui bahwa sebuah model dapat dimuat dengan sukses ke dalam GPU Anda: Anda harus mengetahui bahwa perangkat keras Anda dapat menangani model tersebut pada panjang konteks yang dibutuhkan oleh contoh penggunaan Anda.
Selain itu, banyak contoh penggunaan perusahaan bukan memerlukan penerapan model tunggal, tetapi inferensi batch dari beberapa contoh yang bersamaan. Oleh karena itu, IBM berusaha untuk mengukur dan melaporkan persyaratan memori dengan mempertimbangkan konteks yang panjang dan sesi bersamaan.
Granite 4.0 Tiny adalah salah satu model bahasa paling hemat memori yang tersedia saat ini. Bahkan pada konteks yang sangat panjang, beberapa instance Granite 4.0 Tiny secara bersamaan dapat dengan mudah berjalan pada GPU konsumen sederhana.
Sementara generasi sebelumnya dari Granite LLM menggunakan arsitektur transformator konvensional, semua model dalam keluarga Granite 4.0 menggunakan arsitektur hibrida Mamba-2/Transformer baru, menggabungkan kecepatan dan efisiensi Mamba dengan presisi perhatian diri berbasis transformator. Granite 4.0 Tiny-Preview, secara khusus, adalah model hybrid yang mendetail dari para ahli (MoE), dengan total parameter 7B dan hanya 1B parameter aktif pada waktu inferensi.
Banyak inovasi yang mendasari arsitektur Granite 4 muncul dari kolaborasi IBM Research dengan para kreator Mamba asli di Bamba, sebuah model hybrid sumber terbuka eksperimental yang penggantinya (Bamba v2) telah dirilis pada awal minggu ini.
Mamba (PDF) adalah jenis model state space (SSM), yang diperkenalkan pada tahun 2023—sekitar 6 tahun setelah debut transformator pada tahun 2017.
SSM secara konseptual mirip dengan jaringan neural berulang (RNN) yang mendominasi pemrosesan bahasa alami (NLP) di era pra-transformator. Alat ini awalnya dirancang untuk memprediksi keadaan berikutnya dari urutan kontinu (seperti sinyal listrik) dengan hanya menggunakan informasi dari keadaan saat ini, keadaan sebelumnya, dan berbagai kemungkinan (state space). Meskipun telah digunakan di beberapa domain selama beberapa dekade, SSM memiliki beberapa kekurangan yang sama dengan RNN, yang sampai saat ini membatasi potensinya untuk pemodelan bahasa.
Berbeda dengan mekanisme self-attention transformator, SSM konvensional tidak memiliki kemampuan inheren untuk secara selektif berfokus pada tau mengabaikan potongan informasi kontekstual tertentu. Jadi pada tahun 2023, Albert Gu dari Carnegie Mellon dan Tri Dao dari Princeton memperkenalkan jenis jaringan neural deret state space terstruktur ("S4") yang menambahkan mekanisme pemilihan dan metode pemindaian (untuk efisiensi komputasi)—disingkat sebagai model "S6"—dan mencapai hasil pemodelan bahasa yang kompetitif dengan transformator. Mereka menjuluki model ini "Mamba" karena, antara lain, semua huruf S itu terdengar seperti desis ular.
Pada tahun 2024, Gu dan Dao merilis Mamba-2, sebuah implementasi yang disederhanakan dan dioptimalkan dari arsitektur Mamba. Sama pentingnya,makalah teknis mereka (PDF) menyempurnakan kompatibilitas antara SSM dan perhatian diri.
Keunggulan utama Mamba dibandingkan model berbasis transformator berpusat pada efisiensi dan kecepatan.
Transformator memiliki kelemahan penting: persyaratan komputasi self-attention bertambah dengan skala kuadrat seiring dengan konteks. Dengan kata lain, setiap kali panjang konteks bertambah dua kali lipat,mekanisme attention tidak hanya menggunakan dua kali lipat sumber daya, tetapi juga empat kali lipat sumber daya. “Hambatan kuadrat” ini makin membatasi kecepatan dan kinerja saat jendela konteks (dan cache KV yang terkait) tumbuh.
Sebaliknya, kebutuhan komputasi Mamba meningkat secara linier: jika Anda panjang urutan input bertambah dua kali lipat, Mamba hanya menggunakan sumber daya dua kali lipat. Sementara self-attention harus berulang kali menghitung relevansi setiap token sebelumnya untuk setiap token baru, Mamba hanya mempertahankan “ringkasan” berukuran tetap dan singkat dari konteks sebelumnya dari token sebelumnya. Ketika model "membaca" setiap token baru, model akan menentukan relevansi token tersebut, kemudian memperbarui (atau tidak memperbarui) ringkasannya. Pada dasarnya, ketika self-attention menyimpan setiap informasi dan kemudian menimbang pengaruhnya berdasarkan relevansinya, Mamba secara selektif hanya menyimpan informasi yang relevan.
Karena itu, metode transformator yang membutuhkan banyak memori dan redundan secara komputasi memiliki kelebihannya sendiri. Misalnya, penelitian telah menunjukkan (PDF) bahwa transformator masih mengungguli Mamba dan Mamba-2 pada tugas-tugas yang membutuhkan pembelajaran dalam konteks (seperti prompting dengan beberapa contoh), menyalin, atau penalaran konteks panjang.
Untungnya, kekuatan transformator dan Mamba sama-sama tidak eksklusif. Dalam makalah asli Mamba-2 itu sendiri, penulis Dao dan Gu menyarankan bahwa model hybrid dapat melebihi kinerja transformator murni atau SSM—sebuah gagasan yang divalidasi oleh penelitian NVIDIA tahun lalu (PDF). Untuk mengeksplorasi hal ini lebih lanjut, IBM Research berkolaborasi dengan Dao dan Gu sendiri, bersama dengan Minjia Zhang dari University of Illinois di Urbana-Champaign (UIUC), pada Bamba dan Bamba V2. Bamba, pada gilirannya, menjadi dasar dari banyak elemen arsitektur Granite 4.0.
Arsitektur Granite 4.0 MoE menggunakan 9 blok Mamba untuk setiap 1 blok transformator. Pada intinya, mekanisme selektivitas blok Mamba secara efisien menangkap konteks global, yang kemudian diteruskan ke blok transformator yang memungkinkan penguraian konteks lokal yang lebih bernuansa. Hasilnya adalah pengurangan dramatis dalam penggunaan memori dan latensi tanpa pengorbanan yang signifikan dalam kinerja.
Granite 4.0 Tiny menggandakan keuntungan efisiensi ini dengan menerapkannya dalam kerangka kerja campuran pakar (MoE) yang ringkas dan mendetail, terdiri dari parameter total 7B dan 64 pakar, yang menghasilkan parameter aktif 1B pada waktu inferensi. Rincian lebih lanjut tersedia dalam kartu model Hugging Face Granite 4.0 Tiny Preview.
Salah satu aspek yang lebih menggiurkan dari model bahasa berbasis SSM adalah kemampuan teoretis untuk menangani urutan yang sangat panjang. Tetapi karena kendala praktis, kata “teoretis” biasanya melakukan banyak pekerjaan berat.
Salah satu kendala tersebut, terutama untuk model hybrid-SSM, berasal dari pengodean posisi (positional encoding/PE) yang digunakan untuk merepresentasikan informasi tentang urutan kata. PE menambahkan langkah-langkah komputasi, dan penelitian telah menunjukkan bahwa model yang menggunakan teknik PE seperti rotary positional encoding (RoPE) kesulitan menggeneralisasi deret yang lebih panjang daripada yang ditemui dalam pelatihan.3
Arsitektur Granite 4.0 tidak menggunakan pengodean posisi (NoPE). Pengujian kami menunjukkan secara meyakinkan bahwa hal ini tidak berdampak buruk pada kinerja pada konteks panjang. Saat ini, kami telah memvalidasi kinerja pada konteks panjang Tiny Preview untuk setidaknya 128 ribu token, dan berencana untuk memvalidasi kinerja serupa pada panjang konteks yang jauh lebih panjang pada saat model telah menyelesaikan pelatihan dan pasca-pelatihan. Perlu dicatat bahwa tantangan utama dalam memvalidasi kinerja secara definitif pada tugas-tugas di lingkungan konteks 1 juta token adalah kelangkaan kumpulan data yang sesuai.
Kendala praktis lainnya pada panjang konteks Mamba adalah komputasi. Penskalaan linier lebih baik daripada penskalaan kuadrat, tetapi panjang konteks tetap saja bertambah. Sekali lagi, Granite 4.0 Tiny memiliki dua keunggulan utama:
Sederhananya, arsitektur Granite 4.0 MoE itu sendiri tidak membatasi panjang konteks. Konteksnya bisa sepanjang yang mampu ditangani perangkat keras Anda.
Kami sangat senang untuk melanjutkan pra-pelatihan Granite 4.0 Tiny, mengingat hasil yang menjanjikan di awal proses. Kami juga bersemangat untuk menerapkan pembelajaran kami dari Granite 3.3 pasca-pelatihan, terutama yang berkaitan dengan kemampuan penalaran dan mengikuti instruksi yang kompleks, ke model-model baru. Seperti pendahulunya di Granite 3.2 dan Granite 3.3, Granite 4.0 Tiny Preview menawarkan fungsi
Informasi lebih lanjut tentang perkembangan baru dalam Seri Granite akan disajikan dalam IBM Think 2025, serta dalam beberapa minggu dan bulan berikutnya.
Raih penghematan biaya lebih dari 90% dengan model Granite yang lebih kecil dan terbuka, yang dirancang untuk efisiensi pengembang. Model yang sesuai dengan kebutuhan perusahaan ini memberikan kinerja luar biasa terhadap tolok ukur keamanan dan di berbagai tugas perusahaan, mulai dari keamanan siber hingga RAG.
Manfaatkan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara waktu nyata, dan nilai bisnis.
1. Sebagai contoh, konsumsi RAM teoretis untuk 5 sesi bersamaan dengan panjang konteks hingga 128 ribu cocok untuk GPU NVIDIA GeForce RTX 3060 dengan RAM 12 GB, yang—per 29 April 2025—mulai dari 329 USD. (Sumber: NVIDIA).
2. Pengurangan memori dihitung pada panjang konteks 128 ribu dan 16 sesi bersamaan.
3. “The Impact of Positional Encoding on Length Generalization in Transformers,” arXiv, 6 November 2023