IBM Granite 3.1: kinerja yang kuat, konteks yang lebih panjang, model penyematan baru, dan banyak lagi

18 Desember 2023

 

Penulis

Kate Soule

Director, Technical Product Management, Granite, IBM

Dave Bergmann

Senior Writer, AI Models, IBM

Berikut ini adalah informasi penting secara sekilas:
  

  • Granite 3.1 8B Instruct memberikan peningkatan kinerja yang signifikan dibandingkan Granite 3.0 8B Instruct. Skor rata-ratanya di seluruh tolok ukur Hugging Face OpenLLM Leaderboard kini termasuk yang tertinggi di antara semua model terbuka di kelasnya.
  • Kami telah memperluas jendela konteks dari seluruh keluarga model bahasa Granite 3. Model padat terbaru kami (Granite 3.1 8B, Granite 3.1 2B), model MoE (Granite 3.1 3B-A800M, Granite 3.1 1B-A400M) dan model guardrail (Granite Guardian 3.1 8B, Granite Guardian 3.1 2B) semuanya memiliki panjang konteks 128 ribu token.
  • Kami merilis serangkaian model penyematan yang sepenuhnya baru. Model Granite Embedding yang dioptimalkan untuk pengambilan data baru ditawarkan dalam empat ukuran, mulai dari parameter 30 juta–278 juta. Seperti model generatif, model ini menawarkan dukungan multibahasa dalam 12 bahasa berbeda: Inggris, Jerman, Spanyol, Prancis, Jepang, Portugis, Arab, Ceko, Italia, Korea, Belanda, dan Mandarin.
  • Granite Guardian 3.1 8B dan 2B dilengkapi kemampuan deteksi halusinasi dalam pemanggilan fungsi baru, yang memungkinkan peningkatan kontrol dan observabilitas bagi agen yang membuat panggilan fungsi eksternal.
  • Semua model Granite 3.1, Granite Guardian 3.1, dan Granite Embedding adalah sumber terbuka di bawah lisensi Apache 2.0.
  • Entri terbaru dalam seri Granite ini mengikuti peluncuran terbaru IBM, yaitu Docling (kerangka kerja sumber terbuka untuk mempersiapkan dokumen untuk RAG dan aplikasi AI generatif lainnya) dan Bee (kerangka kerja sumber terbuka yang tidak tergantung model untuk AI otonom).
  • Granite TTM (TinyTimeMixers), rangkaian model deret waktu yang ringkas namun berkinerja tinggi dari IBM, kini tersedia di watsonx.ai melalui rilis beta watsonx.ai Timeseries Forecasting API dan SDK.
  • Model Granite 3.1 sekarang tersedia di IBM watsonx.ai, serta melalui mitra platform termasuk (dalam urutan sesuai abjad) Docker, Hugging Face, LM Studio, Ollama, dan Replicate.
  • Granite 3.1 juga akan dimanfaatkan secara internal oleh mitra perusahaan: Samsung mengintegrasikan model Granite tertentu ke dalam platform SDS-nya; Lockheed Martin mengintegrasikan model Granite 3.1 ke dalam peralatan AI Factory-nya, yang digunakan oleh lebih dari 10.000 pengembang dan engineer.


Hari ini menandai peluncuran IBM Granite 3.1, pembaruan terkini untuk seri Granite kami yang berisi model bahasa terbuka, berkinerja tinggi, dan dioptimalkan untuk perusahaan. Rangkaian perbaikan, penambahan, dan kemampuan baru ini berfokus terutama pada peningkatan kinerja, akurasi, dan akuntabilitas di contoh penggunaan penting perusahaan seperti penggunaan alat, generasi dengan dukungan pengambilan data (RAG), dan alur kerja agen AI yang dapat diskalakan.

Granite 3.1 dibangun berdasarkan momentum koleksi Granite 3.0 yang baru saja diluncurkan. IBM akan terus merilis model dan fungsionalitas terbaru untuk seri Granite 3 dalam beberapa bulan mendatang, dengan kemampuan multimodal baru yang dijadwalkan untuk dirilis pada Q1 2025.

Model-model Granite baru ini bukan satu-satunya kontribusi IBM terkini yang penting bagi ekosistem sumber terbuka LLM. Rilis hari ini melengkapi serangkaian peluncuran sumber terbuka inovatif terkini, mulai dari kerangka kerja fleksibel untuk mengembangkan agen AI hingga toolkit intuitif untuk membuka informasi penting yang tersimpan dalam PDF, slide presentasi, dan format file lain yang sulit dicerna oleh model. Menggunakan perangkat dan kerangka kerja ini bersama-sama dengan model Granite 3.1 menawarkan kemampuan yang lebih maju bagi pengembang untuk RAG, agen AI, dan alur kerja berbasis LLM lainnya.

Seperti biasa, komitmen historis IBM terhadap sumber terbuka tercermin dalam lisensi sumber terbuka yang permisif dan standar untuk setiap penawaran yang dibahas dalam artikel ini.

Granite 3.1 8B Instruct: meningkatkan standar untuk model perusahaan yang ringan

Upaya IBM dalam pengoptimalan berkelanjutan seri Granite terlihat jelas dalam pertumbuhan model padat 8B andalannya. IBM Granite 3.1 8B Instruct kini mengungguli sebagian besar model terbuka di kelasnya dalam skor rata-rata pada evaluasi tolok ukur akademisi yang disertakan dalam Hugging Face OpenLLM Leaderboard.

Evolusi seri model Granite telah memprioritaskan keunggulan dan efisiensi dalam contoh penggunaan perusahaan, termasuk AI otonom. Kemajuan ini paling jelas terlihat dalam peningkatan kinerja model 8B terbaru secara signifikan pada IFEval, kumpulan data yang menampilkan tugas yang menguji kemampuan model untuk mengikuti instruksi terperinci, dan Multi-step Soft Reasoning (MuSR), yang tugasnya mengukur penalaran dan pemahaman pada dan dari teks yang panjang.

Panjang konteks diperluas

Mendorong lompatan kinerja dari Granite 3.0 ke Granite 3.1 adalah perluasan jendela konteks semua model. Panjang konteks 128 ribu token dari Granite 3.1 setara dengan seri model terbuka terkemuka lainnya, termasuk Llama 3.1–3.3 dan Qwen2.5.

Jendela konteks (atau panjang konteks) dari model bahasa besar (LLM) adalah jumlah teks, dalam token, yang dapat dipertimbangkan oleh LLM pada satu waktu. Jendela konteks yang lebih besar memungkinkan model untuk memproses input yang lebih besar, melakukan pertukaran berkelanjutan yang lebih lama, dan memasukkan lebih banyak informasi ke dalam setiap hasil. Tokenisasi tidak memerlukan “nilai tukar” token-ke-kata yang tetap, tetapi 1,5 token per kata adalah perkiraan yang berguna. 128 ribu token kira-kira setara dengan buku setebal 300 halaman.

Di atas ambang batas sekitar 100 ribu token, kemungkinan baru yang mengesankan muncul, termasuk untuk menjawab pertanyaan multi-dokumen, pemahaman kode tingkat repositori, refleksi mandiri, dan agen otonom berteknologi LLM.1 Panjang konteks Granite 3.1 yang diperluas memberikan jangkauan yang jauh lebih luas untuk contoh penggunaan perusahaan, mulai dari memproses basis kode dan dokumen hukum yang panjang secara keseluruhan hingga meninjau ribuan transaksi keuangan secara bersamaan.

Granite Guardian 3.1: mendeteksi halusinasi pada alur kerja agen

 

Granite Guardian 3.1 8B dan Granite Guardian 3.1 2B kini dapat mendeteksi halusinasi yang mungkin terjadi dalam alur kerja agen, sehingga menghasilkan akuntabilitas dan kepercayaan yang sama pada pemanggilan fungsi yang telah kami sediakan untuk RAG.

Banyak langkah dan subproses terjadi di antara permintaan awal yang dikirim ke agen AI dan hasil yang pada akhirnya ditampilkan kepada pengguna. Untuk memberikan pengawasan menyeluruh, model Granite Guardian 3.1 memantau setiap panggilan fungsi untuk halusinasi sintaksis dan semantik.

Misalnya, jika agen AI diduga meminta informasi dari sumber eksternal, Granite Guardian 3.1 memantau aliran informasi yang dibuat-buat. Jika alur kerja agen memerlukan perhitungan sementara menggunakan angka yang diambil dari catatan bank, granite Guardian 3.1 memeriksa apakah agen menarik panggilan fungsi yang benar dengan angka yang sesuai.

Rilis hari ini merupakan langkah lain menuju akuntabilitas dan kepercayaan untuk setiap komponen alur kerja perusahaan berbasis LLM. Model-model baru Granite Guardian 3.1 tersedia di Hugging Face. Model-model tersebut juga akan tersedia melalui Ollama akhir bulan ini dan di IBM watsonx.ai pada Januari 2025.

Model Granite Embedding

Penyematan merupakan bagian integral dari ekosistem LLM. Cara yang akurat dan efisien untuk merepresentasikan kata, kueri, dan dokumen dalam bentuk numerik sangat penting untuk berbagai tugas perusahaan termasuk pencarian semantik, pencarian vektor, dan RAG, serta memelihara basis data vektor yang efektif. Model penyematan yang efektif dapat secara signifikan meningkatkan pemahaman sistem terhadap maksud pengguna dan meningkatkan relevansi informasi dan sumber dalam menanggapi kueri.

Walaupun dalam dua tahun terakhir ini kita telah melihat penyebaran luas LLM autoregresif sumber terbuka yang makin kompetitif untuk tugas-tugas seperti pembuatan dan peringkasan teks, rilis model penyematan sumber terbuka dari penyedia utama relatif sedikit dan jarang.

Model Granite Embedding yang baru merupakan evolusi yang disempurnakan dari Slate, rangkaian model bahasa khusus encoder berbasis RoBERTA. Dilatih dengan perhatian dan pertimbangan yang sama untuk menyaring bias, kebencian, pelecehan, dan kata-kata kasar (“HAP”) seperti seri Granite lainnya, Granite Embedding ditawarkan dalam empat ukuran model, dua di antaranya mendukung penyematan multibahasa dalam 12 bahasa alami:

  • Granite-Embedding-30M-English
  • Granite-Embedding-125M-English
  • Granite-Embedding-107M-Multilingual
  • Granite-Embedding-278M-Multilingual

Sementara sebagian besar model penyematan terbuka pada Hugging Face MTEB Leaderboard mengandalkan kumpulan data pelatihan yang dilisensikan hanya untuk tujuan penelitian, seperti MS-MARCO, IBM memverifikasi kelayakan komersial semua sumber data yang digunakan untuk melatih Granite Embedding. Menggarisbawahi upaya yang diambil untuk mendukung penggunaan perusahaan, IBM mendukung Granite Embedding dengan ganti rugi yang tidak dibatasi yang sama untuk klaim IP pihak ketiga yang diberikan untuk penggunaan model lain yang dikembangkan IBM.

Ketekunan IBM dalam melakukan kurasi dan penyaringan data pelatihan tidak menghalangi model Granite Embedding Inggris untuk mengimbangi model penanaman sumber terbuka berukuran serupa yang terkemuka dalam evaluasi kinerja internal yang dilakukan dengan kerangka kerja evaluasi BEIR.

Pengujian IBM juga menunjukkan bahwa dua model penyematan baru, Granite-Embedding-30M-English dan Granite-Embedding-107M-Multilingual, secara signifikan melampaui penawaran pesaing dalam hal kecepatan inferensi.

Peluncuran ini memulai peta jalan ambisius IBM Research untuk inovasi berkelanjutan dengan rangkaian model sumber terbuka Granite Embedding. Pembaruan dan peningkatan yang direncanakan untuk tahun 2025 mencakup perluasan konteks, pengoptimalan untuk RAG, dan kemampuan pengambilan multimodal.

Penguraian dokumen dan agen AI

Bersamaan dengan evolusi seri Granite yang berlangsung, IBM melanjutkan komitmennya yang kuat terhadap AI sumber terbuka melalui pengembangan dan rilis sumber terbuka terkini dari berbagai alat inovatif dan kerangka kerja baru untuk membangun dengan LLM. Dioptimalkan untuk model Granite tetapi pada dasarnya terbuka dan tidak tergantung model. Sumber daya buatan IBM ini membantu pengembang memanfaatkan potensi penuh LLM, mulai dari memfasilitasi penyempurnaan alur kerja hingga mengatur sumber RAG dan merakit agen AI otonom.

Docling: menyiapkan dokumen untuk RAG, pra-pelatihan, dan fine tuning

Dari penulisan kreatif hingga RAG, AI generatif pada dasarnya adalah mesin yang berjalan berdasarkan data. Potensi sebenarnya dari model bahasa besar tidak dapat terwujud jika sebagian data tersebut terperangkap dalam format yang tidak dapat dikenali oleh model. LLM tergolong baru, tetapi masalahnya tidak demikian: seperti yang dicanangkan oleh tajuk utama Washington Post satu dekade lalu, “solusi untuk semua masalah kita mungkin terkubur dalam PDF yang tidak dibaca siapa pun.”

Itulah sebabnya IBM Deep Search mengembangkan Docling, alat yang ampuh untuk mengurai dokumen dalam format populer termasuk PDF, DOCX, gambar, PPTX, XLSX, HTML, dan AsciiDoc, serta mengubahnya menjadi format yang ramah model seperti Markdown atau JSON. Hal ini memungkinkan dokumen tersebut, dan informasi di dalamnya, dapat diakses dengan mudah oleh model seperti Granite untuk tujuan RAG dan alur kerja lainnya. Docling memungkinkan integrasi yang mudah dengan kerangka kerja agen seperti LlamaIndex, LangChain, dan Bee, yang memungkinkan pengembang untuk mengintegrasikan alat pendukung ke dalam ekosistem pilihan mereka.

Sebagai alat sumber terbuka di bawah Lisensi MIT permisif, Docling adalah solusi canggih yang melampaui pengenalan karakter optik (OCR) dan ekstraksi teks sederhana. Seperti yang dijelaskan William Caban di Red Hat , Docling mengintegrasikan sejumlah teknik pra-pemrosesan kontekstual dan berbasis elemen: jika tabel mencakup beberapa halaman, Docling paham untuk mengekstraknya sebagai satu tabel; jika halaman tertentu mencampur teks isi, gambar, dan tabel, masing-masing harus diekstraksi secara terpisah sesuai dengan konteks aslinya.

Tim di balik Docling secara aktif tengah mengerjakan fitur-fitur tambahan, termasuk ekstraksi persamaan dan kode serta ekstraksi metadata. Untuk melihat cara kerja Docling, lihat tutorial ini untuk membangun sistem tanya jawab dokumen dengan Docling dan Granite.

Bee: kerangka kerja agen AI untuk model terbuka

Bee Agent Framework adalah kerangka kerja open-source untuk membangun alur kerja agen AI yang kuat dengan LLM open-source, dioptimalkan untuk digunakan dengan model Granite dan Llama (dengan optimasi spesifik model lebih lanjut yang sedang dalam pengembangan). Kerangka kerja ini mencakup serangkaian modul yang memungkinkan pengembang untuk menyesuaikan hampir semua komponen agen AI, mulai dari penanganan memori hingga penggunaan alat dan penanganan kesalahan, serta beberapa fitur observabilitas yang menyediakan insight dan akuntabilitas yang diperlukan untuk penerapan produksi.

Kerangka kerja dengan lancar terintegrasi dengan beberapa model dan serangkaian alat siap pakai yang canggih seperti layanan cuaca dan pencarian internet (atau alat khusus yang dibuat dengan Javascript atau Python). Fungsionalitas penggunaan alat Bee yang fleksibel memungkinkan alur kerja yang disesuaikan dengan kebutuhan spesifik Anda, seperti yang ditunjukkan dalam tutorial ini menggunakan Granite dan Wikipedia yang memanfaatkan alat bawaan untuk menggunakan jendela konteks terbatas secara lebih efektif.

Agen Granite Bee dapat dijalankan secara lokal menggunakan Ollama atau memanfaatkan inferensi yang dihosting dengan watsonx.ai.

Estimasi deret waktu di IBM watsonx.ai

Dirilis awal tahun ini, model TinyTimeMixer (TTM) Timeseries Granite merupakan rangkaian model ringan yang telah dilatih sebelumnya berdasarkan arsitektur baru. Menangani perkiraan zero-shot dan few-shot untuk apa pun mulai dari data sensor IoT hingga harga pasar saham dan permintaan energi, model Timeseries Granite mengungguli banyak model yang ukurannya hingga 10 kali lipat, termasuk TimesFM, Moirai, dan Chronos.2 Sejak 30 Mei, model Granite-timeseries-TTM telah diunduh lebih dari 3,25 juta kali di Hugging Face saja.

Pada bulan November, IBM mengumumkan peluncuran beta dari watsonx.ai Timeseries Forecasting API dan SDK, yang membuat model timeseries Granite tersedia pada platform AI terintegrasi IBM untuk pengembangan aplikasi AI menyeluruh.

Untuk informasi lebih lanjut tentang memulai penggunaan Granite-TTM, lihat tutorial dalam buku panduan IBM Granite Timeseries, seperti buku catatan ini untuk menggunakan watsonx SDK untuk melakukan perkiraan inferensi.

Memulai penggunaan granite 3.1

Model Granite 3.1 kini tersedia di IBM watsonx.ai. Model tersebut juga dapat diakses melalui mitra platform termasuk, berdasarkan urutan abjad, Docker (melalui katalog DockerHub GenAI), Hugging Face, LM Studio, Ollama, dan Replicate. Model Granite 3.1 tertentu juga akan tersedia melalui NVIDIA (sebagai NIM Microservices) pada bulan Januari 2025.

Sejumlah panduan dan tutorial untuk bekerja dengan model granite tersedia di Granite Snack Cookbook di GitHub. Mulai dari mengatur alur kerja menggunakan model bahasa Granite di Langchain hingga menerapkan model Granite Guardian.

Pengembang juga dapat memulai dengan model Granite di Granite model playground atau dengan menjelajahi serangkaian demo dan tutorial bermanfaat di dokumen IBM, seperti:


Jelajahi model Granite 3.1 →

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung