IBM Granite 3.3: Pengenalan ucapan, penalaran yang disempurnakan, dan LoRA RAG

Ilustrasi isometrik kubus dalam nuansa hijau

Penulis

Kate Soule

Director, Technical Product Management, Granite

IBM

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Berikut ini adalah informasi penting secara sekilas:

  • Kami merilis Granite Speech 3.3 8B, model Speech to Text (STT) baru yang unggul dalam pengenalan ucapan (ASR) otomatis dan terjemahan ucapan otomatis (AST).
  • Model audio baru ini dibangun di atas Granite 3.3 8B Instruct, pembaruan terbaru pada model bahasa besar (LLM) perusahaan kami yang tangguh. Selain kemampuan penalaran yang ditingkatkan, model Granite 3.3 Instruct kini menawarkan kemampuan fill-in-the-middle (FIM ) sebagai tambahan dari prediksi token berikutnya standar.
  • Untuk meningkatkan aplikasi berbasis Granite yang sudah ada, kami juga merilis serangkaian pengadaptasi LoRA yang berfokus pada generasi dengan dukungan pengambilan data (RAG) untuk Granite 3.2. Masukan akan menginformasikan pengembangan pengadaptasi LoRA untuk Granite 3.3 Instruct, yang akan segera dirilis, serta untuk generasi masa depan Granite LLM.
  • Di samping pengadaptasi konvensional ini, IBM Research juga telah mengembangkan serangkaian LoRA yang diaktifkan (aLoRA), sebuah jenis adaptasi tingkat rendah (LoRA) eksperimental baru yang memangkas biaya inferensi dan kebutuhan memori sekaligus memungkinkan peralihan tanpa hambatan di antara pengadaptasi.
  • Seperti biasa, semua model dan alat Granite dirilis sebagai sumber terbuka di bawah lisensi Apache 2.0 standar.
  • Semua model Granite 3.3 dan alat terkait tersedia di Hugging Face. Granite 3.3 Instruct juga tersedia di IBM watsonx.ai, serta melalui mitra platform termasuk LMStudio, Ollama, dan Replicate.


Peluncuran hari ini merupakan perluasan lain dari jejak multimodal IBM Granite. Diawali oleh Granite Speech 8B, model Speech to Text resmi pertama kami, Granite 3.3 menandai awal dari eksplorasi kami ke kemampuan audio. Selain penambahan kemampuan visi dan penalaran terkini, IBM terus mengembangkan keserbagunaan seri Granite di seluruh contoh penggunaan perusahaan yang paling dibutuhkan oleh pelanggan dan komunitas sumber terbuka.

Yang bergabung dengan Granite Speech 3.3 8B adalah Granite 3.3 8B Instruct, model bahasa besar (LLM) yang berfungsi sebagai fondasinya, dan mitranya yang lebih kecil (2B). Kecanggihan yang ditingkatkan dari proses penalaran model teks dibandingkan pendahulunya dan penambahan kemampuan fill-in-the-middle (FIM) memfasilitasi beragam contoh penggunaan yang berlaku, terutama dalam domain pengodean.

Kami juga merilis serangkaian pengadaptasi LoRA yang meningkatkan kinerja (dan terutama berfokus pada RAG) yang diperbarui dan diperluas untuk model Granite 3.2 8B Instruct yang dirilis sebelumnya melalui Granite Experiments, platform IBM Research untuk menguji ide-ide sumber terbuka. Inovasi LoRA lebih lanjut, termasuk rangkaian pengadaptasi untuk Granite 3.3 Instruct, akan diluncurkan dalam beberapa minggu mendatang. ­­­

Granite Speech 3.3 8B: Transkripsi dan terjemahan yang akurat dan efisien

Granite Speech 3.3 8B adalah model STT yang menerima input audio (dan teks) dan menghasilkan teks yang ringkas dan hemat biaya. Model ini dirancang untuk digunakan dalam aplikasi perusahaan yang memproses input ucapan dan dioptimalkan untuk pengenalan ucapan otomatis (ASR) dan terjemahan ucapan otomatis (AST).

Pada tugas transkripsi, Granite Speech 3.3 secara konsisten memberikan akurasi yang lebih besar daripada pesaing model terbuka dan tertutup terkemuka dalam pengujian di beberapa kumpulan data publik terkemuka.

Bagan yang menampilkan kinerja LLM pada tolok ukur pengenalan ucapan Di beberapa kumpulan data pengujian, Granite Speech 3.3 8B secara konsisten memiliki tingkat kesalahan terendah untuk tugas transkripsi.

Model ini juga menyediakan terjemahan otomatis dari bahasa Inggris ke beragam bahasa, termasuk bahasa Prancis, Spanyol, Italia, Jerman, Portugis, Jepang, dan Mandarin. Dalam pengujian kinerja AST IBM, Granite Speech 3.3 8B mengimbangi model eksklusif terkemuka seperti GPT-4o dari OpenAI dan Gemini 2.0 Flash milik Google pada bahasa yang didukung Granite dalam kumpulan data CoVost. Informasi lebih lanjut tentang kinerja penerjemahan tersedia dalam kartu model Hugging Face.

Arsitektur dan desain

Dalam hal arsitektur, Granite Speech 3.3 terdiri dari:

  • Sebuah encoder ucapan, yang terdiri dari 10 blok conformer yang dilatih dengan Connectionist Temporal Classification (CTC) pada kumpulan data yang berfokus pada ASR.
  • Proyektor ucapan —dalam hal ini, transformator kueri 2 lapis (Q-former)—yang memproyeksikan penanaman audio ke ruang di mana mereka dapat ditafsirkan oleh LLM.
  • LLM—yaitu Granite 3.3 8B Instruct dengan panjang konteks 128 Ribu.
  • Pengadaptasi LoRA, digunakan pada matriks kueri dan proyeksi nilai LLM ketika data audio tersedia.

Berbeda dengan model terintegrasi langsung yang menggabungkan ucapan dan teks dalam sekali jalan, Granite Speech 3.3 menggunakan desain dua jalur. Misalnya, untuk mengajukan pertanyaan kepada model tentang file audio, diperlukan panggilan awal untuk mentranskripsikan audio dan prompt kedua untuk menanyakan kepada model tentang teks yang ditranskripsikan. Jika prompt berisi token "<audio> ” dan file .wav yang sesuai, Granite Speech akan menggunakan encoder audio, proyektor, dan pengadaptasi LoRa. Jika tidak, model hanya akan berjalan dalam mode teks menggunakan Granite 3.3 Instruct 8B.

Pendekatan dua lintasan ini memastikan bahwa kinerja Granite Speech 3.3 8B pada kueri teks mencerminkan LLM yang mendasarinya (Granite 3.3 8B Instruct), sehingga menghindari degradasi pada kinerja berbasis teks yang khas dari banyak model multimodal. Dengan akses ke platform inferensi yang dikonfigurasi untuk melayani model teks dan ucapan dengan benar, pengembang pada dasarnya dapat memahami Granite Speech 3.3 8B sebagai versi Granite 3.3 8B Instruct dengan kemampuan input audio tambahan.

Tidak seperti model ASR berbasis Whisper konvensional, Granite Speech 3.3 dapat menerima input dengan panjang variabel—dalam pengujian, model ini dapat dengan mudah memproses file audio berdurasi 20 menit pada GPU H100 80GB—ketimbang diperbaiki ke jendela 30 detik. Pada model berbasis Whisper, file audio yang melebihi batas maksimum harus dipotong menjadi beberapa potongan berdurasi 30 detik, yang sering kali menimbulkan ketidakakuratan pada saat pemotongan 30 detik ini dilakukan. Sebagai aturan umum, semakin sedikit potongan buatan yang perlu Anda buat, semakin sedikit ketidaktepatan yang Anda sebabkan.

Meskipun Granite Speech 3.3 sepertinya dapat menyerap input audio yang agak panjang, perlu dicatat bahwa model tersebut belum disesuaikan pada data audio yang panjang. Untuk mempertahankan akurasi yang konsisten, kami menyarankan batas 1 menit untuk setiap unit input audio diskrit.

Jalan untuk perbaikan

Granite Speech 3.3 hanya merupakan pembuka dari eksplorasi IBM pada kemampuan audio untuk seri Granite. Penelitian yang sedang berlangsung untuk meningkatkan Granite Speech untuk rilis mendatang—terutama di Granite 4—meliputi:

  • Pengodean multibahasa: Saat ini, encoder audio Granite Speech 3.3 hanya tersedia dalam bahasa Inggris. Langkah selanjutnya yang penting untuk Granite melibatkan encoder audio multibahasa dan sensitif terhadap fenomena paralinguistik yang memungkinkan kami untuk mengaktifkan input multibahasa yang sebenarnya.
  • Formulasi data yang disempurnakan: Resep pelatihan masa depan akan menggabungkan lebih banyak data pelatihan yang lebih berkualitas, dengan pembuatan data sintetis untuk contoh penggunaan yang tepat sasaran memainkan peran penting. Kami juga bereksperimen dengan langkah-langkah penyempurnaan dan penyeimbangan data tambahan.
  • Fusi modalitas sebelumnya: Kami sedang menggali implementasi struktur lebih terpadu yang menggabungkan fitur audio di semua tahap pelatihan model Granite masa depan.
  • Deteksi emosi: Model Granite Speech yang akan datang akan mendukung kemampuan pengenalan emosi ucapan (SER) dengan melatih encoder akustik kami agar lebih peka terhadap peristiwa audio nonleksikal.

Granite 3.3 Instruct: FIM dan peningkatan penalaran

Versi terbaru dari model instruksi hanya teks yang disesuaikan, Granite 3.3 8B Instruct dan Granite 3.3 2B Instruct menambahkan kemampuan fill-in-the-middle (FIM) dan terus menyempurnakan kemampuan berpikir yang diperkenalkan di Granite 3.2.

Kami juga merilis pelengkap model dasar mereka—Granite 3.3 8B Base dan Granite 3.3 2B Base, yang sekarang menggantikan pendahulunya dari Granite 3.1—untuk memberikan para pengembang akses ke berbagai model kami dengan kemampuan FIM untuk melakukan upaya penyempurnaan sendiri.

Mengisi bagian tengah

Autoregressive LLM—LLM yang biasanya digunakan untuk menghasilkan teks—pada dasarnya dirancang untuk bergerak maju, dari kiri ke kanan. Mereka dilatih melalui pembelajaran yang diawasi sendiri untuk secara berulang memprediksi token berikutnya dalam urutan, berdasarkan informasi dari token sebelumnya, hingga urutan dianggap selesai. Meskipun desain tersebut cocok untuk berbagai tugas generatif yang mengesankan, desain tersebut secara inheren gagal dalam jenis tugas yang berbeda: memprediksi token yang benar berdasarkan token yang datang sebelum dan sesudahnya. Dengan kata lain, LLM autoregresif konvensional tidak dapat “mengisi bagian tengah.”

Mengadaptasi model autoregresif untuk pengisian membutuhkan desain ulang tugas pelatihan yang pada dasarnya "mengelabui" LLM untuk memprediksi token di tengah menggunakan kemampuannya memprediksi kiri ke kanan yang intrinsik. Hal ini biasanya membutuhkan pembagian bagian sampel menjadi awalan (token yang mendahului), akhiran (token yang muncul setelahnya), dan tengah (token yang akan diprediksi melalui pengisian), kemudian mengatur ulang bagian tersebut sedemikian rupa sehingga model diberikan awalan dan akhiran sebelum diminta untuk memprediksi token tengah. Granite 3.3 menggunakan token khusus untuk memungkinkan model menghasilkan konten yang dikondisikan pada awalan dan akhiran.

Meskipun FIM memiliki beragam contoh penggunaan, namun teknik ini terutama relevan untuk tugas pengodean, mulai dari perbaikan kode dan koneksi kesalahan hingga pemfaktoran ulang, sampai menghasilkan dengan cepat kode boilerplate dan memungkinkan pengisian argumen fungsi atau docstring.

Peningkatan penalaran

Fokus kami untuk Granite 3.2 adalah memperkaya kemampuan penalaran model Instruct melalui Thought Preference Optimization (TPO) untuk meningkatkan kemampuan mereka dalam mengikuti instruksi yang rumit tanpa mengorbankan kinerja umum. Fokus kami untuk Granite 3.3 Instruct adalah mempertahankan keuntungan tersebut sekaligus memperkaya kinerja model pada penalaran matematika yang kompleks.

Dibangun di atas model dasar Granite 3.3 yang telah diperbarui dan disempurnakan melalui pembelajaran penguatan dengan berbagai tahap menggunakan TPO dan Group Relative Policy Optimization (GRPO), kedua model Granite 3.3 Instruct menunjukkan peningkatan yang signifikan pada tolok ukur sangat teknis yang biasanya dikaitkan dengan kemampuan "penalaran".

Kinerja Granite 3.3 8B pada tolok ukur MATH500 dengan mudah mengungguli Claude 3.5 Haiku Anthropic (64,2%) dan Llama 3.1 8B Instruct Meta (44,4%), kira-kira setara dengan parameter 24B Mistral Small 3 (70,6%), dan hanya tertinggal sedikit di belakang Claude 3.5 Soneta (72,4%) dan OpenAI GPT-4o Mini (72,6%).1

Tabel yang menampilkan kinerja Granite LLM pada matematika yang kompleks Perbaikan Granite 3.3 pada tolok ukur penalaran matematika yang kompleks

Seperti halnya model Instruct Granite 3.2, "berpikir" dapat dengan mudah diaktifkan dan dinonaktifkan, sehingga pengembang dapat memprioritaskan penalaran chain-of-thought (CoT) yang ditingkatkan ketika mereka membutuhkannya dan memprioritaskan efisiensi biaya serta latensi rendah ketika mereka tidak membutuhkannya.

Menyempurnakan RAG melalui adaptor LoRA

Untuk meningkatkan aplikasi berbasis Granite yang ada dan menginformasikan pengembangan pengadaptasi LoRA generasi berikutnya yang meningkatkan kinerja, IBM juga merilis koleksi 5 (kebanyakan) pengadaptasi LoRA khusus RAG untuk Granite 3.2 8B Instruct melalui Granite Experiments, sebuah platform IBM Research untuk menguji ide-ide sumber terbuka. Masing-masing pengadaptasi LoRa ini memanfaatkan pengetahuan intrinsik model untuk memungkinkan tugas tertentu, seperti menulis ulang kueri pengambilan atau mendeteksi halusinasi.

IBM Research mengembangkan pengadaptasi LoRA "konvensional" ini bersama pengadaptasi lainnya yang menggunakan jenis adaptasi tingkat rendah baru yang kami sebut LoRA yang diaktifkan (aLoRA) . Pertukaran antara pengadaptasi LoRA standar sering kali memperlambat kinerja karena model harus menghitung ulang konteks percakapan yang sedang berlangsung menggunakan pengadaptasi yang baru. Tidak seperti LoRA standar, aLoRA dari IBM hanya menggunakan kembali cache nilai kunci (KV) yang ada, menghindari kebutuhan untuk menghitung ulang lagi konteks (atau “prefill”). LoRA yang diaktifkan sesuai dengan kualitas pembuatan LoRA standar sekaligus memberikan keuntungan waktu proses dan komputasi yang signifikan. Kode sumber untuk menjalankan aLoRA tersedia di sini.

Deteksi Halusinasi RAG
Bahkan dengan RAG, LLM terkadang bisa berhalusinasi. Ketika dilengkapi dengan LoRa Deteksi Halusinasi RAG, model akan memberikan “skor kesetiaan” antara 0–1 (dengan penambahan 0,1), yang mencerminkan seberapa dekat output mencerminkan informasi yang terkandung dalam dokumen yang diambil. Skor kesetiaan yang lebih rendah menunjukkan risiko halusinasi yang lebih tinggi. Model akan memberikan output tidak dapat dijawab ketika pertanyaan tidak dapat dijawab dengan informasi dari sumber yang tersedia.

Penulisan Ulang Kueri RAG
Mesin pencarian memberikan hasil yang jauh lebih baik dalam menanggapi kueri mandiri yang berisi semua informasi relevan daripada hasil yang diperolehnya dalam menanggapi kueri yang memerlukan konteks dari percakapan sebelumnya agar dapat ditindaklanjuti. Dilengkapi dengan Query Rewrite LoRA, model ini akan secara otomatis menulis ulang kueri pengguna tidak mandiri menjadi kueri yang sepenuhnya mandiri. Sebagai contoh, pertimbangkan pertukaran ini:

Pengguna: "Siapa CEO Apple?"
Model: "Tim Cook adalah Chief Executive Officer Apple Inc."
Pengguna: "Bagaimana dengan Microsoft?"

Model ini akan meneruskan kueri pertama pengguna apa adanya, tetapi menulis ulang kueri kedua sebagai, "Siapa CEO Microsoft?". Dalam pengujian, penulisan ulang ini meningkatkan relevansi respons model sebanyak 21 poin persentase.

Meskipun dirancang dengan mempertimbangkan RAG, Query Rewrite tidak memerlukan keberadaan dokumen RAG: Query Rewrite juga dapat digunakan untuk menulis ulang kueri pengguna untuk contoh penggunaan lain, seperti pemanggilan alat.

Pembuatan Kutipan RAG
Bila dilengkapi dengan RAG Citation Generaton LoRA, model akan menghasilkan kutipan untuk setiap kalimat dalam output (jika kalimat tersebut diperoleh dari sumber eksternal mana pun). Setiap kutipan tingkat kalimat tidak hanya mencatat sumber apa pun yang dirujuk, tetapi juga berisi sekumpulan kalimat dari sumber yang dikutip yang mendukung kalimat output yang sesuai dari model ini.

RAG Answerability Prediction
Ketika dilengkapi dengan RAG Answerability Prediction LoRA, model akan menentukan apakah kueri pengguna dapat dijawab dengan menggunakan informasi yang tersedia dalam dokumen yang terhubung. Klasifikasi biner ini—“dapat dijawab” atau “tidak dapat dijawab”—dapat digunakan untuk, antara lain, menyaring pertanyaan yang tidak dapat dijawab (mengurangi halusinasi) atau memicu model untuk meminta pengambil dokumen kembali dengan cara yang berbeda.

Prediksi Ketidakpastian
Untuk setiap output model, LoRA Ketidakpastian—dihasilkan dari penelitian kalibrasi model AIMIT-IBM Watson AI Lab—memungkinkan model untuk menghasilkan "skor kepastian" terkuantisasi mulai dari 0 hingga 9 (mewakili kepastian 5% hingga 95%, berturut-turut). Skor ini mencerminkan sejauh mana respons model didukung oleh informasi yang terkandung dalam data pelatihannya.

Menggabungkan RAG LoRA

Sementara RAG tradisional hanya melakukan satu kesimpulan—prompt langsung yang didasarkan pada konteks spesifik—menghasilkan satu output model, kami mengusulkan penggunaan LoRA ini dalam alur kerja yang memanfaatkan beberapa pengadaptasi LoRa di beberapa inferensi sebelum memberikan respons model akhir.

Misalnya, Anda dapat terlebih dahulu menerapkan Query Rewrite untuk (bila perlu) dengan cepat menulis ulang prompt untuk akurasi pengambil dokumen yang optimal. Setelah respons penambahan pengambilan model dihasilkan menggunakan prompt yang ditulis ulang, Anda kemudian dapat menerapkan Deteksi halusinasi RAG untuk memverifikasi tingkat kesetiaan yang sesuai dengan informasi dalam dokumen yang diambil. Jika nilai kesetiaan berada di bawah ambang batas yang dapat diterima, alur kerja Anda dapat mengarahkan model untuk membuat ulang sampel respons hingga nilai kesetiaan melebihi ambang batas tersebut. Setelah halusinasi tidak lagi terdeteksi, Anda kemudian dapat menggunakan RAG Citations untuk respons akhir yang diberikan kepada pengguna.

Hal ini pada dasarnya mirip dengan RAG yang setara dengan penskalaan komputasi waktu pengujian, yang memberikan beberapa inferensi untuk meningkatkan dan memperkaya output akhir model. Kami sangat senang melihat bagaimana komunitas sumber terbuka akan mengimplementasikan dan bereksperimen dengan pengadaptasi LoRA baru ini. Informasi lebih lanjut tentang RAG LoRA dan dampaknya terhadap kinerja model tersedia di makalah teknis terlampir.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Apa selanjutnya untuk IBM Granite?

IBM Research secara aktif melatih Granite 4.0, generasi baru model yang mewakili perkembangan besar arsitektur Granite dan menunjukkan peningkatan yang menjanjikan dalam kecepatan, panjang konteks, dan kapasitas. Meskipun detail spesifik tidak akan diumumkan sampai Q2, klien, mitra, dan pengembang dapat mengandalkan IBM untuk mempertahankan komitmennya terhadap berbagai model kecil dan praktis yang dapat dijalankan dengan biaya rendah dan latensi.

Memulai Granite 3.3

Model Granite 3.3 Instruct baru tersedia di IBM watsonx.ai, studio terpadu kami yang menyeluruh untuk pengembangan AI perusahaan. Anda dapat mencoba Granite 3.3 Instruct 8B—dan dengan mudah bereksperimen dengan mengaktifkan dan menonaktifkan “berpikir”—di Platform Granite.

Granite Speech 3.3 8B, bersama dengan semua model Granite baru dan pengadaptasi LoRA, tersedia di Hugging Face. Model Select Instruct juga tersedia melalui mitra platform termasuk (dalam urutan abjad) LMStudio, Ollama, dan Replicate, dan lebih banyak platform yang akan tersedia dalam waktu dekat.

Sejumlah panduan dan formulasi untuk bekerja dengan model Granit tersedia di dokumen Granite dan Granite Snack Cookbook di GitHub. Pengembang dapat memulai model Granite dengan menjelajahi berbagai demo, formulasi, dan tutorial kami yang bermanfaat, seperti:

Jelajahi model IBM Granite 3.3 baru→
 

Catatan kaki

1"MATH 500 Benchmark," Vals AI, terakhir diperbarui 24 Maret 2025

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung