Berikut ini adalah informasi penting secara sekilas:
Peluncuran hari ini merupakan perluasan lain dari jejak multimodal IBM Granite. Diawali oleh Granite Speech 8B, model Speech to Text resmi pertama kami, Granite 3.3 menandai awal dari eksplorasi kami ke kemampuan audio. Selain penambahan kemampuan visi dan penalaran terkini, IBM terus mengembangkan keserbagunaan seri Granite di seluruh contoh penggunaan perusahaan yang paling dibutuhkan oleh pelanggan dan komunitas sumber terbuka.
Yang bergabung dengan Granite Speech 3.3 8B adalah Granite 3.3 8B Instruct, model bahasa besar (LLM) yang berfungsi sebagai fondasinya, dan mitranya yang lebih kecil (2B). Kecanggihan yang ditingkatkan dari proses penalaran model teks dibandingkan pendahulunya dan penambahan kemampuan fill-in-the-middle (FIM) memfasilitasi beragam contoh penggunaan yang berlaku, terutama dalam domain pengodean.
Kami juga merilis serangkaian pengadaptasi LoRA yang meningkatkan kinerja (dan terutama berfokus pada RAG) yang diperbarui dan diperluas untuk model Granite 3.2 8B Instruct yang dirilis sebelumnya melalui Granite Experiments, platform IBM Research untuk menguji ide-ide sumber terbuka. Inovasi LoRA lebih lanjut, termasuk rangkaian pengadaptasi untuk Granite 3.3 Instruct, akan diluncurkan dalam beberapa minggu mendatang.
Granite Speech 3.3 8B adalah model STT yang menerima input audio (dan teks) dan menghasilkan teks yang ringkas dan hemat biaya. Model ini dirancang untuk digunakan dalam aplikasi perusahaan yang memproses input ucapan dan dioptimalkan untuk pengenalan ucapan otomatis (ASR) dan terjemahan ucapan otomatis (AST).
Pada tugas transkripsi, Granite Speech 3.3 secara konsisten memberikan akurasi yang lebih besar daripada pesaing model terbuka dan tertutup terkemuka dalam pengujian di beberapa kumpulan data publik terkemuka.
Model ini juga menyediakan terjemahan otomatis dari bahasa Inggris ke beragam bahasa, termasuk bahasa Prancis, Spanyol, Italia, Jerman, Portugis, Jepang, dan Mandarin. Dalam pengujian kinerja AST IBM, Granite Speech 3.3 8B mengimbangi model eksklusif terkemuka seperti GPT-4o dari OpenAI dan Gemini 2.0 Flash milik Google pada bahasa yang didukung Granite dalam kumpulan data CoVost. Informasi lebih lanjut tentang kinerja penerjemahan tersedia dalam kartu model Hugging Face.
Dalam hal arsitektur, Granite Speech 3.3 terdiri dari:
Berbeda dengan model terintegrasi langsung yang menggabungkan ucapan dan teks dalam sekali jalan, Granite Speech 3.3 menggunakan desain dua jalur. Misalnya, untuk mengajukan pertanyaan kepada model tentang file audio, diperlukan panggilan awal untuk mentranskripsikan audio dan prompt kedua untuk menanyakan kepada model tentang teks yang ditranskripsikan. Jika prompt berisi token "
Pendekatan dua lintasan ini memastikan bahwa kinerja Granite Speech 3.3 8B pada kueri teks mencerminkan LLM yang mendasarinya (Granite 3.3 8B Instruct), sehingga menghindari degradasi pada kinerja berbasis teks yang khas dari banyak model multimodal. Dengan akses ke platform inferensi yang dikonfigurasi untuk melayani model teks dan ucapan dengan benar, pengembang pada dasarnya dapat memahami Granite Speech 3.3 8B sebagai versi Granite 3.3 8B Instruct dengan kemampuan input audio tambahan.
Tidak seperti model ASR berbasis Whisper konvensional, Granite Speech 3.3 dapat menerima input dengan panjang variabel—dalam pengujian, model ini dapat dengan mudah memproses file audio berdurasi 20 menit pada GPU H100 80GB—ketimbang diperbaiki ke jendela 30 detik. Pada model berbasis Whisper, file audio yang melebihi batas maksimum harus dipotong menjadi beberapa potongan berdurasi 30 detik, yang sering kali menimbulkan ketidakakuratan pada saat pemotongan 30 detik ini dilakukan. Sebagai aturan umum, semakin sedikit potongan buatan yang perlu Anda buat, semakin sedikit ketidaktepatan yang Anda sebabkan.
Meskipun Granite Speech 3.3 sepertinya dapat menyerap input audio yang agak panjang, perlu dicatat bahwa model tersebut belum disesuaikan pada data audio yang panjang. Untuk mempertahankan akurasi yang konsisten, kami menyarankan batas 1 menit untuk setiap unit input audio diskrit.
Granite Speech 3.3 hanya merupakan pembuka dari eksplorasi IBM pada kemampuan audio untuk seri Granite. Penelitian yang sedang berlangsung untuk meningkatkan Granite Speech untuk rilis mendatang—terutama di Granite 4—meliputi:
Versi terbaru dari model instruksi hanya teks yang disesuaikan, Granite 3.3 8B Instruct dan Granite 3.3 2B Instruct menambahkan kemampuan fill-in-the-middle (FIM) dan terus menyempurnakan kemampuan berpikir yang diperkenalkan di Granite 3.2.
Kami juga merilis pelengkap model dasar mereka—Granite 3.3 8B Base dan Granite 3.3 2B Base, yang sekarang menggantikan pendahulunya dari Granite 3.1—untuk memberikan para pengembang akses ke berbagai model kami dengan kemampuan FIM untuk melakukan upaya penyempurnaan sendiri.
Autoregressive LLM—LLM yang biasanya digunakan untuk menghasilkan teks—pada dasarnya dirancang untuk bergerak maju, dari kiri ke kanan. Mereka dilatih melalui pembelajaran yang diawasi sendiri untuk secara berulang memprediksi token berikutnya dalam urutan, berdasarkan informasi dari token sebelumnya, hingga urutan dianggap selesai. Meskipun desain tersebut cocok untuk berbagai tugas generatif yang mengesankan, desain tersebut secara inheren gagal dalam jenis tugas yang berbeda: memprediksi token yang benar berdasarkan token yang datang sebelum dan sesudahnya. Dengan kata lain, LLM autoregresif konvensional tidak dapat “mengisi bagian tengah.”
Mengadaptasi model autoregresif untuk pengisian membutuhkan desain ulang tugas pelatihan yang pada dasarnya "mengelabui" LLM untuk memprediksi token di tengah menggunakan kemampuannya memprediksi kiri ke kanan yang intrinsik. Hal ini biasanya membutuhkan pembagian bagian sampel menjadi awalan (token yang mendahului), akhiran (token yang muncul setelahnya), dan tengah (token yang akan diprediksi melalui pengisian), kemudian mengatur ulang bagian tersebut sedemikian rupa sehingga model diberikan awalan dan akhiran sebelum diminta untuk memprediksi token tengah. Granite 3.3 menggunakan token khusus untuk memungkinkan model menghasilkan konten yang dikondisikan pada awalan dan akhiran.
Meskipun FIM memiliki beragam contoh penggunaan, namun teknik ini terutama relevan untuk tugas pengodean, mulai dari perbaikan kode dan koneksi kesalahan hingga pemfaktoran ulang, sampai menghasilkan dengan cepat kode boilerplate dan memungkinkan pengisian argumen fungsi atau docstring.
Fokus kami untuk Granite 3.2 adalah memperkaya kemampuan penalaran model Instruct melalui Thought Preference Optimization (TPO) untuk meningkatkan kemampuan mereka dalam mengikuti instruksi yang rumit tanpa mengorbankan kinerja umum. Fokus kami untuk Granite 3.3 Instruct adalah mempertahankan keuntungan tersebut sekaligus memperkaya kinerja model pada penalaran matematika yang kompleks.
Dibangun di atas model dasar Granite 3.3 yang telah diperbarui dan disempurnakan melalui pembelajaran penguatan dengan berbagai tahap menggunakan TPO dan Group Relative Policy Optimization (GRPO), kedua model Granite 3.3 Instruct menunjukkan peningkatan yang signifikan pada tolok ukur sangat teknis yang biasanya dikaitkan dengan kemampuan "penalaran".
Kinerja Granite 3.3 8B pada tolok ukur MATH500 dengan mudah mengungguli Claude 3.5 Haiku Anthropic (64,2%) dan Llama 3.1 8B Instruct Meta (44,4%), kira-kira setara dengan parameter 24B Mistral Small 3 (70,6%), dan hanya tertinggal sedikit di belakang Claude 3.5 Soneta (72,4%) dan OpenAI GPT-4o Mini (72,6%).1
Seperti halnya model Instruct Granite 3.2, "berpikir" dapat dengan mudah diaktifkan dan dinonaktifkan, sehingga pengembang dapat memprioritaskan penalaran chain-of-thought (CoT) yang ditingkatkan ketika mereka membutuhkannya dan memprioritaskan efisiensi biaya serta latensi rendah ketika mereka tidak membutuhkannya.
Untuk meningkatkan aplikasi berbasis Granite yang ada dan menginformasikan pengembangan pengadaptasi LoRA generasi berikutnya yang meningkatkan kinerja, IBM juga merilis koleksi 5 (kebanyakan) pengadaptasi LoRA khusus RAG untuk Granite 3.2 8B Instruct melalui Granite Experiments, sebuah platform IBM Research untuk menguji ide-ide sumber terbuka. Masing-masing pengadaptasi LoRa ini memanfaatkan pengetahuan intrinsik model untuk memungkinkan tugas tertentu, seperti menulis ulang kueri pengambilan atau mendeteksi halusinasi.
IBM Research mengembangkan pengadaptasi LoRA "konvensional" ini bersama pengadaptasi lainnya yang menggunakan jenis adaptasi tingkat rendah baru yang kami sebut LoRA yang diaktifkan (aLoRA) . Pertukaran antara pengadaptasi LoRA standar sering kali memperlambat kinerja karena model harus menghitung ulang konteks percakapan yang sedang berlangsung menggunakan pengadaptasi yang baru. Tidak seperti LoRA standar, aLoRA dari IBM hanya menggunakan kembali cache nilai kunci (KV) yang ada, menghindari kebutuhan untuk menghitung ulang lagi konteks (atau “prefill”). LoRA yang diaktifkan sesuai dengan kualitas pembuatan LoRA standar sekaligus memberikan keuntungan waktu proses dan komputasi yang signifikan. Kode sumber untuk menjalankan aLoRA tersedia di sini.
Deteksi Halusinasi RAG
Bahkan dengan RAG, LLM terkadang bisa berhalusinasi. Ketika dilengkapi dengan LoRa Deteksi Halusinasi RAG, model akan memberikan “skor kesetiaan” antara 0–1 (dengan penambahan 0,1), yang mencerminkan seberapa dekat output mencerminkan informasi yang terkandung dalam dokumen yang diambil. Skor kesetiaan yang lebih rendah menunjukkan risiko halusinasi yang lebih tinggi. Model akan memberikan output tidak dapat dijawab ketika pertanyaan tidak dapat dijawab dengan informasi dari sumber yang tersedia.
Penulisan Ulang Kueri RAG
Mesin pencarian memberikan hasil yang jauh lebih baik dalam menanggapi kueri mandiri yang berisi semua informasi relevan daripada hasil yang diperolehnya dalam menanggapi kueri yang memerlukan konteks dari percakapan sebelumnya agar dapat ditindaklanjuti. Dilengkapi dengan Query Rewrite LoRA, model ini akan secara otomatis menulis ulang kueri pengguna tidak mandiri menjadi kueri yang sepenuhnya mandiri. Sebagai contoh, pertimbangkan pertukaran ini:
Pengguna: "Siapa CEO Apple?" Model: "Tim Cook adalah Chief Executive Officer Apple Inc." Pengguna: "Bagaimana dengan Microsoft?"
Model ini akan meneruskan kueri pertama pengguna apa adanya, tetapi menulis ulang kueri kedua sebagai, "Siapa CEO Microsoft?". Dalam pengujian, penulisan ulang ini meningkatkan relevansi respons model sebanyak 21 poin persentase.
Meskipun dirancang dengan mempertimbangkan RAG, Query Rewrite tidak memerlukan keberadaan dokumen RAG: Query Rewrite juga dapat digunakan untuk menulis ulang kueri pengguna untuk contoh penggunaan lain, seperti pemanggilan alat.
Pembuatan Kutipan RAG
Bila dilengkapi dengan RAG Citation Generaton LoRA, model akan menghasilkan kutipan untuk setiap kalimat dalam output (jika kalimat tersebut diperoleh dari sumber eksternal mana pun). Setiap kutipan tingkat kalimat tidak hanya mencatat sumber apa pun yang dirujuk, tetapi juga berisi sekumpulan kalimat dari sumber yang dikutip yang mendukung kalimat output yang sesuai dari model ini.
RAG Answerability Prediction
Ketika dilengkapi dengan RAG Answerability Prediction LoRA, model akan menentukan apakah kueri pengguna dapat dijawab dengan menggunakan informasi yang tersedia dalam dokumen yang terhubung. Klasifikasi biner ini—“dapat dijawab” atau “tidak dapat dijawab”—dapat digunakan untuk, antara lain, menyaring pertanyaan yang tidak dapat dijawab (mengurangi halusinasi) atau memicu model untuk meminta pengambil dokumen kembali dengan cara yang berbeda.
Prediksi Ketidakpastian
Untuk setiap output model, LoRA Ketidakpastian—dihasilkan dari penelitian kalibrasi model AIMIT-IBM Watson AI Lab—memungkinkan model untuk menghasilkan "skor kepastian" terkuantisasi mulai dari 0 hingga 9 (mewakili kepastian 5% hingga 95%, berturut-turut). Skor ini mencerminkan sejauh mana respons model didukung oleh informasi yang terkandung dalam data pelatihannya.
Sementara RAG tradisional hanya melakukan satu kesimpulan—prompt langsung yang didasarkan pada konteks spesifik—menghasilkan satu output model, kami mengusulkan penggunaan LoRA ini dalam alur kerja yang memanfaatkan beberapa pengadaptasi LoRa di beberapa inferensi sebelum memberikan respons model akhir.
Misalnya, Anda dapat terlebih dahulu menerapkan Query Rewrite untuk (bila perlu) dengan cepat menulis ulang prompt untuk akurasi pengambil dokumen yang optimal. Setelah respons penambahan pengambilan model dihasilkan menggunakan prompt yang ditulis ulang, Anda kemudian dapat menerapkan Deteksi halusinasi RAG untuk memverifikasi tingkat kesetiaan yang sesuai dengan informasi dalam dokumen yang diambil. Jika nilai kesetiaan berada di bawah ambang batas yang dapat diterima, alur kerja Anda dapat mengarahkan model untuk membuat ulang sampel respons hingga nilai kesetiaan melebihi ambang batas tersebut. Setelah halusinasi tidak lagi terdeteksi, Anda kemudian dapat menggunakan RAG Citations untuk respons akhir yang diberikan kepada pengguna.
Hal ini pada dasarnya mirip dengan RAG yang setara dengan penskalaan komputasi waktu pengujian, yang memberikan beberapa inferensi untuk meningkatkan dan memperkaya output akhir model. Kami sangat senang melihat bagaimana komunitas sumber terbuka akan mengimplementasikan dan bereksperimen dengan pengadaptasi LoRA baru ini. Informasi lebih lanjut tentang RAG LoRA dan dampaknya terhadap kinerja model tersedia di makalah teknis terlampir.
IBM Research secara aktif melatih Granite 4.0, generasi baru model yang mewakili perkembangan besar arsitektur Granite dan menunjukkan peningkatan yang menjanjikan dalam kecepatan, panjang konteks, dan kapasitas. Meskipun detail spesifik tidak akan diumumkan sampai Q2, klien, mitra, dan pengembang dapat mengandalkan IBM untuk mempertahankan komitmennya terhadap berbagai model kecil dan praktis yang dapat dijalankan dengan biaya rendah dan latensi.
Model Granite 3.3 Instruct baru tersedia di IBM watsonx.ai, studio terpadu kami yang menyeluruh untuk pengembangan AI perusahaan. Anda dapat mencoba Granite 3.3 Instruct 8B—dan dengan mudah bereksperimen dengan mengaktifkan dan menonaktifkan “berpikir”—di Platform Granite.
Granite Speech 3.3 8B, bersama dengan semua model Granite baru dan pengadaptasi LoRA, tersedia di Hugging Face. Model Select Instruct juga tersedia melalui mitra platform termasuk (dalam urutan abjad) LMStudio, Ollama, dan Replicate, dan lebih banyak platform yang akan tersedia dalam waktu dekat.
Sejumlah panduan dan formulasi untuk bekerja dengan model Granit tersedia di dokumen Granite dan Granite Snack Cookbook di GitHub. Pengembang dapat memulai model Granite dengan menjelajahi berbagai demo, formulasi, dan tutorial kami yang bermanfaat, seperti:
1"MATH 500 Benchmark," Vals AI, terakhir diperbarui 24 Maret 2025
Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.
Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.