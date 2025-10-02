Peluncuran Granite 4.0 memulai era baru bagi kelompok model bahasa besar IBM yang siap untuk enterprise, memanfaatkan kemajuan arsitektur baru untuk melipatgandakan kemampuan model bahasa kecil dan efisien yang memberikan kinerja kompetitif dengan biaya dan latensi yang lebih rendah. Model Granite 4.0 dikembangkan dengan penekanan khusus pada tugas-tugas penting untuk alur kerja agen, baik dalam penerapan mandiri maupun sebagai blok bangunan hemat biaya dalam sistem kompleks bersama model penalaran yang lebih besar.

Koleksi Granite 4.0 terdiri dari beberapa ukuran model dan gaya arsitektur untuk memberikan produksi yang optimal di berbagai batasan perangkat keras, termasuk:

Granite-4.0-H-Small , model pakar perpaduan hybrid (MoE) dengan parameter total 32B (9B aktif)

, model pakar perpaduan hybrid (MoE) dengan parameter total 32B (9B aktif) Granite-4.0-H-Tiny, MoE hybrid dengan parameter total 7B (1B aktif)

MoE hybrid dengan parameter total 7B (1B aktif) Granite-4.0-H-Micro, model hybrid padat dengan parameter 3B.

model hybrid padat dengan parameter 3B. Rilis ini juga mencakup Granite-4.0-Micro, model padat 3B dengan arsitektur transformator yang didorong oleh atensi konvensional, untuk mengakomodasi platform dan komunitas yang belum mendukung arsitektur hybrid.

Granite 4.0-H Small adalah model pekerja keras untuk kemampuan kinerja yang kuat dan hemat biaya pada alur kerja perusahaan seperti agen multi-alat dan otomatisasi dukungan pelanggan. Model Tiny dan Micro dirancang untuk aplikasi latensi rendah, edge dan lokal, dan juga dapat berfungsi sebagai blok bangunan dalam alur kerja agen yang lebih besar untuk eksekusi cepat tugas-tugas utama seperti pemanggilan fungsi.

Kinerja tolok ukur Granite 4.0 menunjukkan peningkatan signifikan dibandingkan generasi sebelumnya—bahkan model Granite 4.0 terkecil secara signifikan mengungguli Granite 3.3 8B, meskipun berukuran kurang dari setengahnya—tetapi kekuatannya yang paling menonjol adalah peningkatan efisiensi inferensi yang luar biasa. Dibandingkan dengan LLM konvensional, model hybrid Granite 4.0 kami membutuhkan RAM yang jauh lebih sedikit untuk dijalankan, terutama untuk tugas-tugas yang melibatkan konteks yang panjang (seperti menyerap codebase yang besar atau dokumentasi yang ekstensif) dan beberapa sesi pada saat yang sama (seperti layanan pelanggan yang menangani banyak pertanyaan pengguna yang mendetail secara bersamaan).

Yang paling penting, pengurangan dramatis dalam persyaratan memori Granite 4.0 ini diikuti dengan penurunan signifikan pada biaya perangkat keras yang diperlukan untuk menjalankan beban kerja berat pada kecepatan inferensi tinggi. Tujuan kami adalah menurunkan hambatan adopsi dengan menyediakan akses yang hemat biaya bagi perusahaan dan pengembang sumber terbuka ke LLM yang sangat kompetitif.