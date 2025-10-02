Berikut ini adalah informasi penting secara sekilas:
Peluncuran Granite 4.0 memulai era baru bagi kelompok model bahasa besar IBM yang siap untuk enterprise, memanfaatkan kemajuan arsitektur baru untuk melipatgandakan kemampuan model bahasa kecil dan efisien yang memberikan kinerja kompetitif dengan biaya dan latensi yang lebih rendah. Model Granite 4.0 dikembangkan dengan penekanan khusus pada tugas-tugas penting untuk alur kerja agen, baik dalam penerapan mandiri maupun sebagai blok bangunan hemat biaya dalam sistem kompleks bersama model penalaran yang lebih besar.
Koleksi Granite 4.0 terdiri dari beberapa ukuran model dan gaya arsitektur untuk memberikan produksi yang optimal di berbagai batasan perangkat keras, termasuk:
Granite 4.0-H Small adalah model pekerja keras untuk kemampuan kinerja yang kuat dan hemat biaya pada alur kerja perusahaan seperti agen multi-alat dan otomatisasi dukungan pelanggan. Model Tiny dan Micro dirancang untuk aplikasi latensi rendah, edge dan lokal, dan juga dapat berfungsi sebagai blok bangunan dalam alur kerja agen yang lebih besar untuk eksekusi cepat tugas-tugas utama seperti pemanggilan fungsi.
Kinerja tolok ukur Granite 4.0 menunjukkan peningkatan signifikan dibandingkan generasi sebelumnya—bahkan model Granite 4.0 terkecil secara signifikan mengungguli Granite 3.3 8B, meskipun berukuran kurang dari setengahnya—tetapi kekuatannya yang paling menonjol adalah peningkatan efisiensi inferensi yang luar biasa. Dibandingkan dengan LLM konvensional, model hybrid Granite 4.0 kami membutuhkan RAM yang jauh lebih sedikit untuk dijalankan, terutama untuk tugas-tugas yang melibatkan konteks yang panjang (seperti menyerap codebase yang besar atau dokumentasi yang ekstensif) dan beberapa sesi pada saat yang sama (seperti layanan pelanggan yang menangani banyak pertanyaan pengguna yang mendetail secara bersamaan).
Yang paling penting, pengurangan dramatis dalam persyaratan memori Granite 4.0 ini diikuti dengan penurunan signifikan pada biaya perangkat keras yang diperlukan untuk menjalankan beban kerja berat pada kecepatan inferensi tinggi. Tujuan kami adalah menurunkan hambatan adopsi dengan menyediakan akses yang hemat biaya bagi perusahaan dan pengembang sumber terbuka ke LLM yang sangat kompetitif.
Prioritas IBM terhadap efisiensi inferensi praktis pada perangkat keras apa pun dicocokkan dengan penekanan kami pada keselamatan, keamanan, dan transparansi ekosistem model kami. Setelah audit eksternal ekstensif selama berbulan-bulan terhadap proses pengembangan AI IBM, IBM Granite baru-baru ini menjadi satu-satunya kelompok model bahasa terbuka yang mencapai sertifikasi ISO 42001, memenuhi standar internasional pertama di dunia untuk akuntabilitas, penjelasan, privasi data, dan keandalan dalam sistem manajemen AI (AIMS). Kepercayaan mendasar itu semakin didukung oleh kemitraan baru-baru ini kami dengan HackerOne pada program bug bounty untuk Granite, serta praktik penandatanganan kriptografi baru kami dari semua pos pemeriksaan model 4.0 yang tersedia di Hugging Face (memungkinkan pengembang dan perusahaan untuk memastikan asal dan keaslian model).
Mitra perusahaan terpilih, termasuk EY dan Lockheed Martin, diberi akses awal untuk menguji kemampuan Granite 4.0 pada contoh penggunaan utama dalam skala besar. Masukan dari mitra rilis awal ini, bersama masukan dari komunitas sumber terbuka, akan digunakan untuk meningkatkan dan mengoptimalkan model untuk pembaruan di masa mendatang.
Rilis hari ini mencakup varian Base dan Instruct dari Micro, Tiny, dan Small. Ukuran model tambahan (lebih besar dan lebih kecil), serta varian dengan dukungan penalaran eksplisit, direncanakan untuk dirilis pada akhir tahun 2025.
Model Granite 4.0 hybrid jauh lebih cepat dan lebih hemat memori daripada model berukuran sebanding yang dibangun dengan arsitektur transformator standar. Arsitektur hybrid Granite 4 menggabungkan sejumlah kecil lapisan perhatian gaya transformator standar dengan sebagian besar lapisan Mamba — lebih khusus lagi, Mamba-2. Mamba memproses nuansa bahasa dengan cara yang sepenuhnya berbeda dari, dan secara signifikan lebih efisien daripada, model bahasa konvensional.
Persyaratan memori GPU LLM sering dilaporkan dalam hal berapa banyak RAM yang dibutuhkan hanya untuk memuat bobot model. Tetapi banyak contoh penggunaan perusahaan—terutama yang melibatkan penerapan AI agen di lingkungan yang kompleks atau sistem RAG—memerlukan konteks yang panjang, inferensi batch dari beberapa contoh model bersamaan sekaligus, atau keduanya. Sesuai dengan penekanan IBM pada kemudahan penggunaan oleh perusahaan, kami mengevaluasi dan mengoptimalkan Granite 4 dengan mempertimbangkan konteks panjang dan sesi bersamaan.
Dibandingkan dengan model berbasis transformator konvensional, Granite 4.0-H dapat menawarkan penurunan penggunaan RAM lebih dari 70% yang diperlukan untuk menangani input panjang dan beberapa batch bersamaan.
Model Granite 4.0 hybrid kompatibel dengan GPU AMD Instinct MI-300X, sehingga memungkinkan pengurangan jejak memori lebih jauh lagi.
LLM konvensional kesulitan mempertahankan throughput seiring bertambahnya panjang konteks atau ukuran batc. Model hybrid kami terus mempercepat output-nya bahkan pada beban kerja ketika sebagian besar model jauh melambat atau mengalami kelebihan kapasitas perangkat keras. Makin banyak input yang diberikan, makin besar selisih keunggulannya.
IBM bekerja sama dengan Qualcomm Technologies, Inc. dan Nexa AI untuk memastikan kompatibilitas model Granite 4.0 dengan Hexagon1 untuk lebih mengoptimalkan kecepatan inferensi untuk penerapan pada perangkat pada smartphone dan PC.
Tentu saja, kegunaan aktual dari keunggulan efisiensi tersebut didorong oleh fakta bahwa kualitas output model Granite 4.0 kompetitif dengan model pada atau di atas kelas bobotnya masing-masing — terutama pada tolok ukur yang mengevaluasi kinerja pada tugas AI agen utama seperti mengikuti instruksi dan panggilan fungsi.
Semua model Granite 4.0 menawarkan peningkatan kinerja secara menyeluruh dibandingkan model Granite generasi sebelumnya. Meski arsitektur hybrid Granite baru berkontribusi pada efisiensi dan keandalan pelatihan model, sebagian besar peningkatan akurasi model berasal dari kemajuan dalam metodologi pelatihan (dan pasca-pelatihan) kami dan perluasan dan penyempurnaan yang berkelanjutan dari korpus data pelatihan Granite. Inilah bagaimana dan mengapa Granite 4.0-Micro, yang dibangun menggunakan arsitektur transformator konvensional yang mirip dengan model Granite masa lalu, secara signifikan mengungguli Granite 3.3 8B.
Mereka khususnya unggul dalam tugas-tugas penting untuk contoh penggunaan perusahaan dan alur kerja AI agen. Seperti yang dievaluasi oleh Stanford HELM, Granite-4.0-H-Small melebihi semua model bobot terbuka (dengan satu-satunya pengecualian Llama 4 Maverick, model parameter 402b yang ukurannnya lebih 12 kali lipat) pada IfEval, tolok ukur yang banyak digunakan untuk mengevaluasi kemampuan model untuk mengikuti instruksi eksplisit.
Dalam banyak alur kerja agen, sangat penting agar instruksi tidak hanya diikuti dengan presisi, tetapi juga diterjemahkan secara akurat ke dalam pemanggilan alat yang efektif. Untuk itu, Granite-4.0-H-Small mengimbangi model yang jauh lebih besar, baik terbuka maupun tertutup, pada tolok ukur Berkeley Function Calling Leaderboard v3 (BFCLv3). Terlebih lagi, mampu mencapai ini pada titik harga yang tak tertandingi dalam set kompetitif ini.
Granite 4.0 juga unggul pada MTRAG, tolok ukur yang mengukur kinerja dan keandalan pada tugas kompleks Retrieval-Augmented Generation (RAG) yang memerlukan beberapa putaran, pertanyaan yang tidak dapat dijawab, pertanyaan non-mandiri, dan informasi yang mencakup beberapa domain.
Metrik evaluasi tambahan tersedia pada kartu model Hugging Face Granite 4.0.
Semua model Granite dibangun dengan keamanan, keselamatan, dan tata kelola yang bertanggung jawab sebagai intinya.
Awal bulan ini, IBM Granite menjadi kelompok model bahasa terbuka pertama yang menerima akreditasi di bawah ISO/IEC 42001:2023, menyatakan bahwa Granite selaras dengan praktik terbaik yang diakui secara internasional untuk AI yang aman dan bertanggung jawab dan bahwa sistem manajemen AI IBM (AIMS) memenuhi tingkat pengawasan tertinggi. Organisasi dapat berkembang dengan percaya diri menggunakan model Granite 4.0 bahkan dalam konteks berisiko tinggi seperti industri yang sangat diatur dan lingkungan penerapan sangat penting.
Seperti semua model Granite, model Granite 4.0 dilatih sepenuhnya berdasarkan data yang dikurasi dengan cermat, diperoleh secara etis, dan disterilkan untuk keperluan perusahaan. Mencerminkan kepercayaan penuh kami terhadap kepercayaan model kami, IBM memberikan ganti rugi tanpa batas untuk klaim IP pihak ketiga terhadap konten yang dihasilkan oleh model Granite saat digunakan pada IBM watsonx.ai.
Melampaui pengujian internal dan red team kami yang ekstensif, IBM juga baru-baru ini bermitra dengan HackerOne untuk meluncurkan program bug bounty untuk Granite, menawarkan hingga $100.000 untuk mengidentifikasi kekurangan yang tidak terduga, mode kegagalan, atau kerentanan terhadap jailbreak, serta serangan musuh lainnya. Setiap informasi berharga yang ditemukan oleh para peneliti yang berpartisipasi dalam program bug bounty akan menjadi bahan untuk peningkatan dan pembaruan keamanan model kami yang sedang berlangsung—khususnya melalui pembuatan data sintetis untuk meningkatkan keselarasan model.
IBM berfokus pada keselamatan dan keamanan tidak hanya model-model kami, tetapi juga rantai distribusi model. Untuk itu, IBM telah memulai praktik baru penandatanganan kriptografis untuk semua pos pemeriksaan model Granite 4 sebelum rilis: semua pos pemeriksaan model Granite sekarang dikirim dengan file model.sig untuk memudahkan proses verifikasi publik terhadap asal model Granite guna memastikan integritas dan keasliannya.
Terlepas dari banyak kelebihannya, model transformator memiliki kekurangan yang sangat signifikan: kebutuhan komputasinya bertambah secara kuadratik sesuai dengan panjang urutan.Jika panjang konteks berlipat ganda, jumlah kalkulasi yang harus dilakukan oleh model transformator (dan disimpan dalam memori) menjadi empat kali lipat. “Kemacetan kuadratik” ini pasti menurunkan kecepatan dan meningkatkan biaya seiring bertambahnya panjang konteks. Saat konteks makin panjang, model dapat dengan cepat menghabiskan kapasitas RAM, bahkan pada GPU konsumen kelas atas.
Saat model transformator mengandalkan perhatian sendiri, Mamba menggunakan mekanisme selektivitas yang secara bawan lebih efisien. Kebutuhan komputasi Mamba berskala linier dengan panjang urutan: ketika konteksnya berlipat ganda, Mamba hanya melakukan perhitungan dua kali lipat—bukan empat kali lipat. Lebih baik lagi, kebutuhan memori Mamba tetap konstan, berapa pun panjang urutannya. Makin banyak pekerjaan yang Anda lakukan dengan model Mamba, makin besar keuntungannya dibandingkan model transformator.
Namun demikian, model transformator dan perhatian mandiri masih memiliki beberapa keunggulan dibandingkan Mamba dan Mamba-2, terutama untuk kinerja pada tugas-tugas yang memerlukan pembelajaran dalam konteks (seperti prompting dengan beberapa contoh). Untungnya, menggabungkan keduanya dalam model hybrid memberikan yang terbaik dari kedua solusi ini. Untuk insight lebih lanjut, lihat lagi sekilas insight kami untuk Granite-4.0-Tiny-Preview.
Arsitektur yang mendukung Granite 4.0-H-Micro, Granite 4.0-H-Tiny, dan Granite 4.0-H-Small menggabungkan lapisan Mamba-2 dan blok transformator konvensional secara berurutan dalam rasio 9:1. Pada dasarnya, blok Mamba-2 secara efisien memproses konteks global dan secara berkala meneruskan informasi kontekstual tersebut melalui blok transformator yang memberikan penguraian konteks lokal yang lebih rumit melalui perhatian mandiri sebelum meneruskannya ke pengelompokan lapisan Mamba-2 berikutnya.
Perlu dicatat bahwa sebagian besar infrastruktur yang melayani LLM di dunia secara historis disesuaikan dengan model khusus transformator. Setelah peluncuran eksperimental Granite 4.0-Tiny-Preview awal tahun ini, kami telah berkolaborasi secara ekstensif dengan mitra ekosistem untuk membangun dukungan untuk arsitektur Granite 4 Hybrid dalam kerangka kerja termasuk vLLM, llama.cpp, NextML, dan MLX dalam persiapan untuk rilis hari ini.
Granite-4.0-H-Tiny dan Granite-4.0-H-Small meneruskan output dari setiap Mamba-2 dan blok transformator ke blok gabungan pakar (MoE) yang lebih mendetail (yang spesifikasinya telah sedikit berubah sejak Granite 4.0-Tiny-Preview). Meskipun MoE yang mendetail telah menjadi area penelitian aktif IBM sejak peluncuran Granite 3.0 pada tahun 2024, Tiny dan Small adalah MoE pertama kami yang memanfaatkan pakar bersama yang selalu aktif, sehingga meningkatkan efisiensi parameter mereka dan memungkinkan "pakar" lainnya untuk mengembangkan pengetahuan yang terspesialisasi dengan lebih baik.
Granite 4.0-H-Micro menggunakan lapisan feedforward padat konvensional sebagai pengganti blok MoE, tetapi pada intinya mencerminkan arsitektur yang dimiliki oleh Tiny dan Small.
Salah satu aspek yang lebih menarik dari model bahasa berbasis state space model (SSM)seperti Mamba adalah potensi teoretisnya untuk menangani urutan yang sangat panjang. Semua model Granite 4.0 telah dilatih pada sampel data hingga 512K token dalam panjang konteks. Kinerja telah divalidasi pada tugas yang melibatkan panjang konteks hingga 128K token, tetapi secara teoretis, panjang konteks dapat diperpanjang lebih jauh.
Pada model transformator standar, jendela konteks maksimum pada dasarnya dibatasi oleh keterbatasan pengodean posisi. Karena mekanisme perhatian transformator memproses setiap token sekaligus, mekanisme ini tidak menyimpan informasi apa pun tentang urutan token. Pengodean posisi (PE) menambahkan kembali informasi itu. Beberapa penelitian menunjukkan bahwa model yang menggunakan teknik PE umum seperti rotary positional encoding (RoPE) kesulitan menangani urutan yang lebih panjang daripada yang ditemui dalam pelatihan.2
Arsitektur Granite 4.0 tidak menggunakan pengodean posisi (NoPE). Kami menemukan bahwa, sederhananya, mereka tidak membutuhkannya: Mamba secara inheren menyimpan informasi mengenai urutan token, karena"membacanya" secara berurutan.
Di seluruh implementasi arsitekturnya yang bervariasi, semua model Granite 4.0 dilatih pada sampel yang diambil dari korpus 22T-token yang dikompilasi dengan cermat dari data pelatihan yang berfokus pada perusahaan, serta metodologi pra-pelatihan, sesi pasca-pelatihan, dan templat obrolan yang sama dan ditingkatkan.
Granite 4.0 telah dilatih sebelumnya pada spektrum sampel yang luas yang dikurasi dari DataComp-lm (DCLM), GneissWeb, subset Txt360, Wikipedia, dan sumber lain yang relevan untuk keperluan perusahaan. Mereka kemudian dilatih lebih lanjut agar mampu menyelesaikan tugas-tugas perusahaan dengan baik, memanfaatkan kumpulan data sintetis dan terbuka di seluruh domain termasuk bahasa, kode, matematika dan penalaran, multibahasa, keamanan, pemanggilan alat, RAG, dan keamanan siber. Semua kumpulan data pelatihan disiapkan dengan kerangka kerja Kit Persiapan Data sumber terbuka.
Perbedaan penting dari model Granite generasi sebelumnya adalah keputusan untuk membagi model Granite 4.0 pasca-pelatihan kami menjadi varian yang disesuaikan dengan instruksi (dirilis hari ini) dan varian penalaran (akan dirilis nanti pada musim gugur ini). Selaras dengan hasil penelitian industri baru-baru ini, kami menemukan dalam pelatihan bahwa pemisahan keduanya menghasilkan kinerja mengikuti instruksi yang lebih baik untuk model Instruct dan kinerja penalaran kompleks yang lebih baik untuk model Thinking . Ini memiliki manfaat tambahan untuk menyederhanakan templat obrolan untuk kedua varian.
Kemudian musim gugur ini, varian Base dan Instruct dari model Granite 4.0 akan bergabung dengan model “Thinking” lainnya, yang sedang menjalani sesi pasca-pelatihan untuk meningkatkan kinerja pada tugas-tugas berbasis logika yang kompleks.
Pada akhir tahun, kami berencana untuk juga merilis ukuran model tambahan, termasuk tidak hanya Granite 4.0 Medium, tetapi juga Granite 4.0 Nano, serangkaian model yang jauh lebih kecil yang dirancang untuk (antara lain) inferensi pada perangkat edge.
Model Granite 4.0 kini tersedia di berbagai spektrum penyedia platform dan kerangka kerja bagi kami sebagai model pekerja mandiri yang cepat dan efisien serta blok bangunan utama alur kerja ansambel bersama model perbatasan besar terkemuka. Anda juga dapat mencobanya di Granite Playground.
Arsitektur Granite Hybrid baru memiliki dukungan penuh dan dioptimalkan di vLLM 0.10.2 dan Hugging Face Transformers. Arsitektur Granite Hybrid juga didukung di llama.cpp dan MLX, meskipun upaya untuk sepenuhnya mengoptimalkan throughput dalam waktu proses ini masih berlangsung. Kami berterima kasih kepada mitra ekosistem kami atas kolaborasinya dan berharap upaya kami akan membantu memfasilitasi eksperimen lebih lanjut dengan model hybrid.
Model Granite 4.0 Instruct sekarang tersedia di IBM watsonx.ai, Studio pengembangan AI terintegrasi IBM untuk membuat penerapan AI menjadi sederhana dan dapat diskalakan. Model Granite 4.0 Instruct juga tersedia melalui mitra platform termasuk—menurut abjad—Dell Technologies (di Dell Pro AI Studio dan Dell Enterprise Hub), Docker Hub, Hugging Face, Kaggle, LM Studio, NVIDIA NIM, Ollama, OPAQUE, dan Replicate. Model Granite 4.0 Base tersedia melalui Hugging Face.
Model Granite 4.0 juga didukung di Unsloth untuk penyetelan yang cepat dan hemat memori, dan dapat dimanfaatkan di Continue untuk mendukung asisten pengodean AI yang disesuaikan.
Panduan dan resep di Granite Docs dapat membantu Anda memulai, termasuk tutorial seperti:
