IBM Granite 3.3: Pengenalan ucapan, penalaran yang disempurnakan, dan LoRA RAG

16 April 2025

 

Penulis

Kate Soule

Director, Technical Product Management, Granite

IBM

Dave Bergmann

Senior Writer, AI Models

IBM

Berikut ini adalah sekilas informasi penting:

  • Kami merilis Granite Speech 3.3 8B, model Speech to Text (STT) baru yang unggul dalam pengenalan ucapan (ASR) otomatis dan terjemahan ucapan otomatis (AST).
  • Model audio baru ini dibangun di atas Granite 3.3 8B Instruct, pembaruan terbaru pada model bahasa besar (LLM) perusahaan kami yang tangguh. Di samping kemampuan penalaran yang ditingkatkan, model Granite 3.3 Instruct kini menawarkan kemampuan fill-in-the-middle (FIM) selain prediksi token berikutnya yang standar.
  • Untuk meningkatkan aplikasi berbasis Granite yang sudah ada, kami juga merilis rangkaian adaptor LoRA yang berfokus pada generasi dengan dukungan pengambilan data (RAG) untuk Granite 3.2. Masukan akan menginformasikan pengembangan adaptor LoRA untuk Granite 3.3 Instruct yang akan segera dirilis, serta untuk generasi mendatang dari Granite LLM.
  • Di samping adaptor konvensional ini, IBM Research juga telah mengembangkan serangkaian LoRA yang diaktifkan (aLoRA), sebuah jenis baru adaptasi tingkat rendah (LoRA) eksperimental yang memangkas biaya inferensi dan kebutuhan memori sekaligus memungkinkan peralihan tanpa hambatan di antara adaptor.
  • Seperti biasa, semua model dan alat Granite dirilis sebagai sumber terbuka di bawah lisensi Apache 2.0 standar.
  • Semua model Granite 3.3 dan alat terkait tersedia di Hugging Face. Granite 3.3 Instruct juga tersedia di IBM watsonx.ai, serta melalui mitra platform termasuk LMStudio, Ollama, dan Replicate.


Peluncuran hari ini merupakan perluasan lain dari jejak multimodal IBM Granite. Diawali oleh Granite Speech 8B, model Speech to Text resmi pertama kami, Granite 3.3 menandai awal dari eksplorasi kami ke kemampuan audio. Bersamaan dengan penambahan kemampuan visi dan penalaran terkini, IBM terus mengembangkan kemampuan beradaptasi seri Granite di seluruh contoh penggunaan perusahaan yang paling dibutuhkan oleh pelanggan dan komunitas sumber terbuka.

Granite Speech 3.3 8B dilengkapi dengan Granite 3.3 8B Instruct, Model Bahasa Besar (LLM) yang menjadi fondasinya, dan model bahasa yang lebih kecil (2B). Kecanggihan proses penalaran model teks yang lebih baik dari pendahulunya dan penambahan kemampuan fill-in-the-middle (FIM) memfasilitasi beragam contoh penggunaan yang lebih luas, terutama dalam domain pengodean.

Kami juga merilis serangkaian adaptor LoRA yang telah diperbarui dan diperluas untuk meningkatkan kinerja (dan terutama berfokus pada RAG) untuk model Granite 3.2 8B Instruct yang telah dirilis sebelumnya melalui Granite Experiments, sebuah pusat bagi IBM Research untuk menguji berbagai ide sumber terbuka. Inovasi LoRA lebih lanjut, termasuk rangkaian adaptor untuk Granite 3.3 Instruct, akan diluncurkan dalam beberapa minggu mendatang.

Granite Speech 3.3 8B: Transkripsi dan terjemahan yang akurat dan efisien

Granite Speech 3.3 8B adalah model STT input audio (dan input teks) dan output teks yang ringkas dan hemat biaya, yang ditujukan untuk digunakan dalam aplikasi perusahaan yang memproses input ucapan dan dioptimalkan untuk pengenalan ucapan otomatis (ASR) dan terjemahan ucapan otomatis (AST).

Pada tugas transkripsi, Granite Speech 3.3 secara konsisten memberikan akurasi yang lebih besar daripada pesaing model terbuka dan tertutup terkemuka dalam pengujian di beberapa kumpulan data publik terkemuka.

Model ini juga menyediakan terjemahan otomatis dari bahasa Inggris ke beragam bahasa, termasuk bahasa Prancis, Spanyol, Italia, Jerman, Portugis, Jepang, dan Mandarin. Dalam pengujian IBM terhadap kinerja AST, Granite Speech 3.3 8B mengimbangi berbagai model terkemuka seperti GPT-4o dari OpenAI dan Gemini 2.0 Flash dari Google untuk aneka bahasa yang didukung oleh Granite dalam kumpulan data CoVost. Informasi lebih lanjut tentang kinerja terjemahan tersedia di kartu model Hugging Face model ini.

Arsitektur dan desain

Dalam hal arsitektur, Granite Speech 3.3 terdiri dari:

  • Sebuah encoder ucapan, yang terdiri dari 10 blok conformer yang dilatih dengan Connectionist Temporal Classification (CTC) pada kumpulan data yang berfokus pada ASR.
  • Proyektor ucapan—dalam hal ini transformator kueri 2 lapis(Q-former)—yang memproyeksikan penyematan audio ke ruang di mana audio tersebut dapat ditafsirkan oleh LLM.
  • LLM—yaitu Granite 3.3 8B Instruksi dengan panjang konteks 128 Ribu.
  • Adaptor LoRA, diterapkan ke matriks kueri dan proyeksi nilai LLM saat data audio tersedia.

Berbeda dengan model terintegrasi langsung yang menggabungkan ucapan dan teks dalam satu lintasan, Granite Speech 3.3 menggunakan desain dua lintasan. Misalnya, untuk mengajukan pertanyaan kepada model tentang file audio, diperlukan panggilan awal untuk mentranskripsi audio dan prompt kedua untuk menanyakan model tentang teks yang ditranskripsi tersebut. Jika prompt berisi token “<audio> ” dan file .wav yang sesuai, Granite Speech akan menggunakan encoder audio, proyektor, dan adaptor LoRa. Jika tidak, model hanya akan berjalan dalam mode teks menggunakan Granite 3.3 Instruct 8B

.

Pendekatan dua jalur ini memastikan bahwa kinerja Granite Speech 3.3 8B pada kueri teks mencerminkan kinerja LLM yang mendasarinya (Granite 3.3 8B Instruct), sehingga menghindari penurunan kinerja berbasis teks yang biasa terjadi pada banyak model multimodal. Dengan menyediakan akses ke platform inferensi yang dikonfigurasikan untuk melayani model teks dan ucapan dengan baik, pengembang pada dasarnya dapat memahami Granite Speech 3.3 8B sebagai versi Granite 3.3 8B Instruct dengan tambahan kemampuan input audio.

Tidak seperti model ASR berbasis Whisper konvensional, Granite Speech 3.3 dapat menerima input dengan panjang yang berubah-ubah—dalam pengujian, model ini dapat memproses file audio berdurasi 20 menit pada GPU H100 80GB dengan nyaman, namun tetap pada batas waktu 30 detik. Pada model berbasis Whisper, file audio yang melebihi batas maksimum tersebut harus dipotong menjadi potongan file berdurasi 30 detik, yang sering kali menimbulkan ketidakakuratan pada momen di mana pemotongan 30 detik ini dilakukan. Sebagai aturan umum, semakin sedikit pemotongan artifisial yang harus Anda lakukan, semakin sedikit ketidakakuratan yang Anda sebabkan.

Meskipun Granite Speech 3.3 seolah-olah dapat menyerap input audio yang agak panjang, namun perlu dicatat bahwa model ini belum disempurnakan pada data audio yang panjang. Untuk mempertahankan akurasi yang konsisten, kami menyarankan batas 1 menit untuk setiap unit input audio yang terpisah.

Jalan untuk perbaikan

Granite Speech 3.3 hanya menunjukkan pembukaan awal eksplorasi IBM ke dalam kemampuan audio untuk seri Granite. Penelitian yang sedang berlangsung untuk meningkatkan Granite Speech untuk rilis masa depan—khususnya di Granite 4—meliputi:

  • Kode multibahasa: Saat ini, encoder audio Granite Speech 3.3 hanya tersedia dalam bahasa Inggris. Langkah selanjutnya untuk Granite Speech melibatkan encoder audio yang multibahasa dan peka terhadap fenomena paralinguistik, yang memungkinkan kami mengaktifkan input multibahasa yang sebenarnya.
  • Resep data yang disempurnakan: Resep pelatihan masa depan akan menggabungkan lebih banyak data pelatihan yang lebih berkualitas, dengan pembuatan data sintetis untuk contoh penggunaan yang ditargetkan memainkan peran penting. Kami juga bereksperimen dengan langkah-langkah penyempurnaan dan penyeimbangan data tambahan.
  • Fusi modalitas sebelumnya: Kami menjelajahi implementasi struktur yang lebih terpadu yang menggabungkan fitur audio di semua tahap pelatihan model Granite masa depan.
  • Deteksi emosi: Model Granite Speech yang akan datang akan mendukung kemampuan speech emotion recognition (SER) dengan melatih encoder akustik kami agar lebih peka terhadap peristiwa audio nonleksikal.

Granite 3.3 Instruct: FIM dan peningkatan penalaran

Versi terbaru dari model instruksi hanya teks yang disesuaikan, Granite 3.3 8B Instruct dan Granite 3.3 2B Instruct menambahkan kemampuan fill-in-the-middle (FIM) dan terus menyempurnakan kemampuan berpikir yang diperkenalkan di Granite 3.2.

Kami juga merilis pelengkap model dasar mereka—Granite 3.3 8B Base dan Granite 3.3 2B Base, yang sekarang menggantikan pendahulunya dari Granite 3.1—untuk memberikan para pengembang akses ke berbagai model dengan kemampuan FIM kami untuk melakukan upaya penyempurnaan sendiri.

Mengisi bagian tengah

LLM Autoregresif—LLM yang biasanya digunakan untuk menghasilkan teks—pada dasarnya dirancang untuk bergerak maju, dari kiri ke kanan. LLM ini dilatih melalui pembelajaran pengawasan mandiri untuk secara berulang memprediksi token berikutnya dalam sebuah urutan, berdasarkan informasi dari token sebelumnya, hingga urutan tersebut dianggap lengkap. Meskipun desain tersebut cocok untuk beraneka ragam tugas generatif yang mengesankan, namun secara inheren gagal dalam jenis tugas yang berbeda: memprediksi token yang benar berdasarkan token yang datang sebelum dan sesudahnya. Dengan kata lain, LLM autoregresif konvensional tidak dapat "mengisi bagian tengah."

Untuk mengadaptasi model autoregresif untuk pengisian membutuhkan desain ulang tugas pelatihan yang pada intinya "mengelabui" LLM agar dapat memprediksi token di tengah, menggunakan kemampuan prediksi intrinsiknya dari kiri ke kanan. Hal ini umumnya membutuhkan pembagian bagian sampel menjadi awalan (token sebelumnya), akhiran (token yang datang setelahnya), dan tengah (token yang akan diprediksi melalui kemampuan pengisian), kemudian mengatur ulang bagian tersebut sedemikian rupa sehingga model diberikan awalan dan akhiran sebelum diminta untuk memprediksi token tengah. Granite 3.3 menggunakan token khusus untuk memungkinkan model menghasilkan konten yang disesuaikan dengan kondisi pada awalan dan akhiran.

Meskipun FIM memiliki beragam contoh penggunaan, ini terutama berlaku untuk tugas pengodean, mulai dari perbaikan kode dan koneksi kesalahan hingga pemfaktoran ulang hingga menghasilkan kode boilerplate dengan cepat dan memungkinkan penyisipan argumen fungsi atau docstring.

Peningkatan penalaran

Fokus kami untuk Granite 3.2 adalah memperkaya kemampuan penalaran model Instruct melalui Optimasi Preferensi Pikiran (TPO) untuk meningkatkan kemampuan mereka dalam mengikuti instruksi yang rumit tanpa mengorbankan kinerja umum. Fokus kami untuk Granite 3.3 Instruct adalah untuk mempertahankan manfaat tersebut sekaligus memperkaya kinerja model pada penalaran matematika yang kompleks.

Dibangun di atas model dasar Granite 3.3 yang telah diperbarui dan disempurnakan melalui pembelajaran penguatan dengan berbagai tahap menggunakan TPO dan Group Relative Policy Optimization (GRPO), kedua model Granite 3.3 Instruct menunjukkan peningkatan yang signifikan pada tolok ukur sangat teknis yang biasanya dikaitkan dengan kemampuan "penalaran".

Kinerja Granite 3.3 8B pada tolok ukur MATH500 menempatkannya dengan mudah di depan Claude 3.5 Haiku dari Anthropic (64,2%) dan Llama 3.1 8B Instruct dari Meta (44,4%), kurang lebih sejajar dengan Mistral Small 3 dengan parameter 24B (70,6%), dan nyaris tidak ada yang tertinggal dari Claude 3.5 Soneta (72,4%) dan GPT-4o Mini dari OpenAI (72,6%).1

Seperti halnya model Instruct Granite 3.2, "berpikir" dapat dengan mudah diaktifkan dan dinonaktifkan, sehingga pengembang dapat memprioritaskan penalaran chain-of-thought (CoT) yang disempurnakan ketika mereka membutuhkannya dan memprioritaskan efisiensi biaya serta latensi rendah ketika mereka tidak membutuhkannya.

Menyempurnakan RAG melalui adaptor LoRA

Untuk meningkatkan aplikasi berbasis Granite yang sudah ada dan menginformasikan pengembangan adaptor LoRA yang meningkatkan kinerja generasi berikutnya, IBM juga merilis koleksi 5 adaptor LoRA (sebagian besar) khusus RAG untuk Granite 3.2 8B Instruct melalui Granite Experiments, sebuah pusat bagi IBM Research untuk menguji berbagai ide sumber terbuka. Masing-masing adaptor LoRA ini memanfaatkan pengetahuan intrinsik model untuk memungkinkan tugas tertentu, seperti menulis ulang kueri pengambilan atau mendeteksi halusinasi.

Penelitian IBM mengembangkan adaptor LoRA "konvensional" ini bersama dengan adaptor yang menggunakan jenis adaptasi tingkat rendah baru yang kami sebut sebagai LoRA diaktifkan (aLoRA). Pertukaran antara adaptor LoRA standar sering kali memperlambat kinerja karena model harus menghitung ulang konteks percakapan yang sedang berlangsung menggunakan model baru. Namun tidak seperti LoRA standar, aLoRA IBM hanya menggunakan kembali cache key-value (KV) yang sudah ada, sehingga tidak perlu menghitung ulang konteks (atau "prefill") lagi. LoRA yang diaktifkan sesuai dengan kualitas pembuatan LoRA standar sekaligus memberikan keuntungan waktu proses dan komputasi yang signifikan. Kode sumber untuk menjalankan aLoRA tersedia di sini.

Deteksi Halusinasi RAG
Bahkan dengan RAG, LLM terkadang dapat berhalusinasi. Ketika dilengkapi dengan LoRa Deteksi Halusinasi RAG, model akan memberikan “skor kesetiaan” antara 0—1 (dalam peningkatan 0,1), yang mencerminkan seberapa dekat output mencerminkan informasi yang terkandung dalam dokumen yang diambil. Skor kesetiaan yang lebih rendah menunjukkan risiko halusinasi yang lebih tinggi. Model akan menghasilkan output tidak dapat dijawab ketika pertanyaan tidak dapat dijawab dengan informasi dari sumber yang tersedia.

Penulisan Ulang Kueri RAG
Mesin pengambilan mengembalikan hasil yang jauh lebih baik dalam menanggapi kueri mandiri yang berisi semua informasi yang relevan daripada yang mereka lakukan dalam menanggapi kueri yang memerlukan konteks dari percakapan sebelumnya agar dapat ditindaklanjuti. Dengan dilengkapi Query Rewrite LoRA, model ini akan secara otomatis menulis ulang kueri pengguna tidak mandiri menjadi kueri yang sepenuhnya mandiri. Sebagai contoh, pertimbangkan pertukaran ini:


Pengguna: "Siapa CEO Apple?"
Model: “Tim Cook adalah Chief Executive Officer Apple Inc.”
Pengguna: “Bagaimana dengan Microsoft?”

Model akan meneruskan pertanyaan pertama pengguna apa adanya, tetapi menulis ulang pertanyaan kedua sebagai, "Siapa CEO Microsoft?". Dalam pengujian, penulisan ulang ini meningkatkan relevansi respons model sebanyak 21 poin persentase.

Meskipun dirancang dengan mempertimbangkan RAG, Query Rewrite tidak memerlukan keberadaan dokumen RAG: Query Rewrite juga dapat digunakan untuk menulis ulang kueri pengguna untuk contoh penggunaan lain, seperti pemanggilan alat.

RAG Citation Generation
Ketika dilengkapi dengan RAG Citation Generation LoRA, model ini akan menghasilkan kutipan untuk setiap kalimat dari outputnya (jika kalimat tersebut diinformasikan oleh sumber eksternal). Setiap kutipan tingkat kalimat tidak hanya mencatat sumber apa pun yang dirujuk, tetapi juga berisi sekumpulan kalimat dari sumber yang dikutip yang mendukung output yang sesuai.

Prediksi Kemampuan Memberikan Jawaban RAG
Ketika dilengkapi dengan RAG Answerability Prediction LoRA, model akan menentukan apakah kueri pengguna dapat dijawab dengan menggunakan informasi yang tersedia dalam dokumen yang terhubung. Klasifikasi biner ini—“dapat dijawab” atau “tidak dapat dijawab”—dapat digunakan untuk, antara lain, menyaring pertanyaan yang tidak dapat dijawab (mengurangi halusinasi) atau memerintahkan model untuk menanyakan kembali pengambil dokumen dengan cara yang berbeda.

Prediksi Ketidakpastian
Untuk setiap output model, Uncertainty LoRA—dihasilkan oleh penelitian kalibrasi model AI MIT-IBM Watson AI Lab—memungkinkan model untuk menghasilkan "skor kepastian" dikuantifikasi mulai dari 0 hingga 9 (mewakili 5% hingga 95% kepastian, berturut-turut). Skor ini pada dasarnya mencerminkan sejauh mana respons model didukung oleh informasi yang terkandung dalam data pelatihannya.

Menggabungkan RAG LoRA

Sementara RAG tradisional memerlukan satu kesimpulan—prompt langsung yang didasarkan pada konteks spesifik—menghasilkan output model tunggal, kami mengusulkan penggunaan LoRA ini dalam alur kerja yang memanfaatkan beberapa adaptor LoRa di beberapa inferensi sebelum memberikan respons model akhir.

Misalnya, Anda dapat terlebih dahulu mengimplementasikan Query Rewrite untuk (bila perlu) menulis ulang prompt awal dengan cepat untuk mendapatkan akurasi pengambil dokumen yang optimal. Setelah respons yang ditingkatkan untuk pengambilan model dihasilkan menggunakan prompt yang ditulis ulang, Anda dapat menerapkan RAG Deteksi Halusinasi untuk memverifikasi tingkat kesetiaan yang sesuai pada informasi dalam dokumen yang diambil. Jika skor kesetiaan berada di bawah ambang batas yang dapat diterima, alur kerja Anda dapat mengarahkan model untuk mengambil ulang sampel respons hingga skor kesetiaan melebihi ambang batas tersebut. Setelah halusinasi tidak lagi terdeteksi, barulah Anda dapat menggunakan RAG Citation untuk respons akhir yang diberikan kepada pengguna.

Hal ini pada dasarnya mirip dengan RAG yang setara dengan penskalaan komputasi waktu uji coba, menopang beberapa inferensi untuk meningkatkan dan memperkaya output akhir model. Kami sangat antusias untuk melihat bagaimana komunitas sumber terbuka akan mengimplementasikan dan bereksperimen dengan adaptor LoRA baru ini. Informasi lebih lanjut tentang RAG LoRA dan dampaknya terhadap kinerja model tersedia di makalah teknis yang menyertai.

Apa selanjutnya untuk IBM Granite?

IBM Research secara aktif melatih Granite 4.0, sebuah model generasi baru yang menunjukkan perkembangan besar dari arsitektur Granite dan menunjukkan keuntungan yang menjanjikan dalam hal kecepatan, panjang konteks, dan kapasitas. Meskipun detail spesifiknya belum akan diumumkan hingga kuartal kedua, para klien, mitra, dan pengembang dapat mengandalkan IBM untuk mempertahankan komitmennya terhadap berbagai model kecil dan praktis yang dapat dijalankan dengan biaya dan latensi yang rendah.

Memulai Granite 3.3

Berbagai model Granite 3.3 Instruct yang baru telah tersedia di IBM watsonx.ai, studio terpadu dan menyeluruh untuk pengembangan AI perusahaan. Anda dapat mencoba Granite 3.3 Instruct 8B—dan dengan mudah bereksperimen dengan mengaktifkan dan menonaktifkan "berpikir"—di Granite Playground.

Granite Speech 3.3 8B, bersama dengan semua model Granite terbaru dan adaptor LoRA, tersedia di Hugging Face. Model Instruct tertentu juga tersedia melalui mitra platform termasuk (sesuai urutan abjad) LMStudio, Ollama, dan Replicate, dan lebih banyak lagi yang akan tersedia dalam waktu dekat.

Sejumlah panduan dan resep untuk bekerja dengan model Granite tersedia di dokumen Granite dan Buku Panduan Granite di GitHub. Pengembang dapat memulai dengan model Granite dengan menjelajahi berbagai demo, resep, dan tutorial yang berguna, seperti:

Jelajahi model IBM Granite 3.3 baru→
 

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Catatan kaki

1"MATH 500 Benchmark," Vals AI, terakhir diperbarui 24 Maret 2025

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung