IBM Granite 3.2: penalaran dan visi sumber terbuka

Penulis

Kate Soule

Director, Technical Product Management, Granite

IBM

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

Berikut ini adalah informasi penting secara sekilas:

Granite 3.2 8B Instruct dan Granite 3.2 2B Instruct yang baru menawarkan kemampuan penalaran rantai pemikiran eksperimental yang secara signifikan meningkatkan kemampuan mereka untuk mengikuti instruksi yang kompleks tanpa mengurangi kinerja umum. Proses penalaran dapat diaktifkan dan dimatikan, memungkinkan penggunaan sumber daya komputasi yang efisien.
Ketika dikombinasikan dengan teknik penskalaan inferensi IBM, proses pemikiran yang diperluas dari Granite 3.2 8B Instruct memungkinkannya untuk memenuhi atau melampaui kinerja penalaran model yang jauh lebih besar, termasuk GPT-4o dan Claude 3.5 Sonnet.
Model multimoda baru kami, Granite Vision 3.2 2B, dikembangkan dengan fokus khusus pada pemahaman dokumen, yang menyamai kinerja model terbuka terkemuka yang ukurannya 5 kali lebih besar.
Penambahan terbaru pada rangkaian model Granite Timeseries, Granite-Timeseries-TTM-R2.1, memperluas kemampuan forecasting TTM untuk menyertakan prediksi harian dan mingguan selain tugas forecasting per menit dan per jam yang sudah didukung oleh model TTM sebelumnya.
Kami memperkenalkan ukuran model baru untuk Granite Guardian 3.2, termasuk varian yang berasal dari model bahasa campuran pakar (MoE) 3B-A800M kami. Model-model baru menawarkan peningkatan efisiensi dengan kehilangan kinerja minimal.
Seri model Granite menanamkan sekarang mencakup kemampuan untuk mempelajari penanaman sparse . Granite-Embedding-30M-Sparse menyeimbangkan efisiensi dan skalabilitas di berbagai Sumber daya dan anggaran latensi.
Seperti pendahulunya, semua model IBM Granite baru dirilis secara sumber terbuka di bawah lisensi Apache 2.0 yang bersifat permisif.
Model Granite 3.2 sekarang tersedia di IBM watsonx.ai, Hugging Face, Ollama, LMStudio, dan Replicate.

Granite 3.2, rilis terbaru dalam model IBM Granite generasi ketiga kami, merupakan langkah penting dalam evolusi seri Granite di luar model bahasa langsung. Ditandai dengan fitur penalaran eksperimental dan model bahasa visi resmi pertama kami (VLM), Granite 3.2 memperkenalkan beberapa kemampuan baru yang signifikan ke keluarga Granite.

Rilis ini juga mencakup serangkaian peningkatan pada efisiensi, keampuhan dan keserbagunaan penawaran kami yang sudah ada. Prioritas IBM untuk model praktis yang siap untuk perusahaan Lanjutkan pengejaran kinerja canggih dengan parameter yang semakin sedikit.

Seperti biasa, berbagai model Granite terbaru dengan sumber terbuka di bawah lisensi Apache 2.0. Semua model Granite sekarang tersedia di Hugging Face. Model tertentu juga tersedia melalui platform tambahan, termasuk IBM watsonx.ai. Tutorial, resep, dan sumber daya lainnya tersedia di bagian "Memulai" di akhir artikel ini.

Granite 3.2 Instruksi: Penalaran saat Anda membutuhkannya

Iterasi terbaru dari model bahasa besar khusus teks (LLM) unggulan IBM, Granite 3.2 Instruct 8B dan Granite 3.2 Instruct 2B, telah dilatih untuk menawarkan kemampuan penalaran yang lebih baik dibandingkan dengan model 3.1. Implementasi penalaran kami agak bertentangan dengan tren industri tertentu, sesuai dengan pendekatan praktis IBM untuk meningkatkan kinerja model.

Alih-alih memperumit jalur pengembangan dengan merilis “model penalaran” terpisah, IBM telah memasukkan kemampuan penalaran langsung ke dalam model Instruct inti kami. Proses penalaran internal model dapat dengan mudah diaktifkan dan dinonaktifkan, memastikan penggunaan sumber daya komputasi yang tepat untuk tugas yang sedang dikerjakan.
Sementara teknik berbasis penalaran yang khas meningkatkan kinerja model pada tugas logis (seperti matematika dan pengodean) dengan mengorbankan domain lain, metodologi IBM membawa manfaat penalaran sambil mempertahankan kinerja umum dan keamanan secara keseluruhan.

Fitur eksperimental dari model Granite 3.2 Instruct baru ini hanya mewakili satu dari beberapa eksplorasi yang sedang berlangsung di IBM Research ke dalam evolusi model yang digerakkan oleh penalaran. Pekerjaan lebih lanjut tentang teknik penskalaan inferensi menunjukkan bahwa Granite 3.2 8B Instruct dapat dikalibrasi untuk menyamai atau melampaui kinerja penalaran matematis dari model yang jauh lebih besar, termasuk GPT-4o-0513 dari OpenAI dan Claude-3.5-Sonnet-1022 dari Anthropic.

Mengatasi keuntungan (dan kerugian) dari penalaran

Intuisi yang mendorong kemajuan terbaru dalam penalaran model bahasa berasal dari penelitian tahun 2022 yang menunjukkan bahwa hanya menambahkan frasa “berpikir selangkah demi selangkah,” teknik Rekayasa prompt yang biasa disebut dorongan rantai pemikiran (CoT), secara signifikan meningkatkan output pada tugas penalaran.¹

Penelitian selanjutnya dari tahun 2024 lebih lanjut mengemukakan bahwa meningkatkan komputasi waktu inferensi— yaitu, sumber daya yang digunakan untuk menghasilkan output selama inferensi— dapat meningkatkan kinerja model sebanyak meningkatkan ukuran model atau sumber daya yang digunakan untuk melatihnya. Pendekatan terbaru sebagian besar mengejar penskalaan kesimpulan tersebut melalui penggabungan berbagai kerangka kerja pembelajaran penguatan (RL) yang mendorong "proses berpikir" yang lebih panjang dan lebih kompleks. Yang menarik, penskalaan inferensi telah ditunjukkan secara empiris untuk memungkinkan LLM yang lebih kecil sekalipun melebihi kemampuan penalaran model yang jauh lebih besar.

Terlepas dari kekuatannya, model penalaran bukannya tanpa kerugian. Memahami hal ini, IBM mengambil langkah-langkah yang disengaja untuk mengurangi kerugian ini dalam implementasi spesifik kemampuan penalaran untuk Granite 3.2.

Menghindari inefisiensi

“Model penalaran” biasanya lebih lambat dan lebih mahal daripada LLM umum, karena Anda harus menghasilkan (dan membayar) semua token yang digunakan model untuk “berpikir” tentang respons akhir sebelum benar-benar memberikan output kembali kepada pengguna. IBM Research mencatat salah satu contoh DeepSeek-R1, model penalaran yang menonjol, membutuhkan waktu 50,9 detik untuk menjawab pertanyaan, “Di manakah Roma?”

Ada beberapa skenario di mana waktu dan komputasi ekstra tersebut dapat dengan mudah dibenarkan, tetapi ada juga banyak skenario di mana hal itu menjadi pemborosan sumber daya. Daripada mengharuskan pengembang untuk menyulap pengorbanan ini setiap kali mereka memilih model untuk aplikasi atau alur kerja tertentu, model IBM Granite 3.2 Instruct memungkinkan proses pemikiran yang diperluas diaktifkan atau dimatikan hanya dengan menambahkan parameter "thinking":true ATAU"thinking":false ke titik akhir API.

Anda dapat memanfaatkan proses berpikir Granite 3.2 saat diperlukan atau memprioritaskan efisiensi saat tidak.

Menghindari penurunan kinerja secara umum

Dalam sejarah model penalaran yang relatif singkat, banyak pendekatan terkemuka telah memprioritaskan peningkatan kinerja hanya pada sekumpulan domain yang digerakkan logika yang terfokus secara sempit, seperti matematika atau pengodean. Sementara pekerjaan berkelanjutan IBM dengan teknik penskalaan inferensi telah menghasilkan peningkatan kinerja yang sangat mengesankan pada tolok ukur teknis yang secara konvensional terkait dengan “penalaran,” seperti AIME dan MATH-500, fokus kami untuk Granite 3.2 Instruct adalah memperkaya proses pemikiran model kami untuk secara lebih luas meningkatkan kemampuan mereka untuk mengikuti instruksi yang kompleks.

Fokus tajam pada berbagai tugas teknis yang secara eksplisit ditargetkan oleh pengembang model terkadang dapat mengorbankan domain lain—termasuk kinerja umum dan keamanan—yang pengetahuannya dapat “dilupakan” oleh model jika mereka tidak tercakup secara memadai dalam kumpulan data yang digunakan untuk meningkatkan kinerja penalaran. Untuk menghindari hal ini, IBM mengembangkan Granite 3.2 Instruct dengan menerapkan kerangka kerja pembelajaran penguatan berbasis Thought Preference Optimization (TPO)untuk langsung ke Granite 3.1 Instruct.

Tidak seperti banyak pendekatan umum untuk kemampuan penalaran, ketergantungan TPO yang lebih rendah pada operator atau fungsi logis untuk menilai dan menghargai output model membuatnya lebih mudah untuk menskalakan ke tugas umum. Solusi ini memungkinkan Granite 3.2 Instruct untuk menikmati peningkatan kinerja pada tugas-tugas yang membutuhkan penalaran kompleks tanpa mengorbankan kinerja di tempat lain.

Manfaat dari pendekatan ini paling jelas dalam perbandingan dengan model DeepSeek-R1-Distill , yang (terlepas dari namanya) sebenarnya adalah versi model Llama dan Qwen yang disesuaikan untuk meniru proses penalaran Deepseek-R1. Perlu dicatat di sini bahwa, tidak seperti model R1-Distill, model IBM Granite 3.2 Instruct tidak dilatih menggunakan data yang dihasilkan Deepseek, sangat menyederhanakan implikasi peraturannya.

Pertimbangkan kinerja sebelum dan sesudah penalaran dari model Llama, Qwen, dan Granite berukuran sama di ArenaHard dan Alpaca-Eval-2, tolok ukur populer yang mengukur kemampuan model untuk memikirkan cara mereka melalui instruksi yang sulit. Sementara teknik DeepSeek menurunkan kinerja pada tugas-tugas yang tidak ditargetkan tersebut, teknik CoT yang digunakan untuk mengembangkan Granite 3.1 Instruct menjadi Granite 3.2 Instruct meningkatkan secara signifikan kepatuhan terhadap instruksi.

Demikian juga, Granite 3.2 menghindari pengorbanan pada kinerja umum yang biasanya diperlukan oleh pengenalan kemampuan penalaran.

IBM menjaga masalah penting perusahaan, termasuk keselamatan, di jantung semua keputusan desain. Sementara model yang disuling DeepSeek menunjukkan penurunan yang signifikan dalam kinerja keselamatan (yang diukur dengan kinerja pada tolok ukur AttaQ), pendekatan IBM mempertahankan ketahanan Granite 3.2 Instruct terhadap serangan musuh.

Melanjutkan pekerjaan kami tentang penalaran

Seperti yang telah disebutkan, peluncuran Granite 3.2 hanya menandai awal dari eksplorasi IBM ke dalam kemampuan penalaran untuk model perusahaan. Sebagian besar penelitian kami yang sedang berlangsung bertujuan untuk manfaatkan proses pemikiran Granite 3.2 yang secara inheren lebih lama dan lebih kuat untuk pengoptimalan model lebih lanjut.

Salah satu jalan eksplorasi semacam itu dipusatkan untuk memperkuat Granite 3.2 dengan teknik penskalaan inferensi yang lebih kompleks, termasuk penyaringan partikel dan voting mayoritas (juga disebut konsistensi diri). Eksperimen awal menunjukkan bahwa, ketika digunakan bersama dengan teknik penskalaan inferensi ini, kinerja Granite 3.2 pada tugas penalaran matematika dapat mencocokkan atau melebihi kinerja model perbatasan yang jauh lebih besar.

Granite Vision 3.2 2B: Granite menjadi multimodal

Granite Vision 3.2 2B adalah model bahasa besar ringan dengan kemampuan visi komputer yang menargetkan contoh penggunaan perusahaan sehari-hari, dilatih dengan fokus khusus pada pemahaman dokumen visual. Menangani input gambar dan teks, kinerja Granite Vision 3.2 pada tolok ukur perusahaan penting, seperti DocVQA dan ChartQA, menyaingi model terbuka yang jauh lebih besar.

Meskipun Granite Vision 3.2 2B tidak secara eksplisit dimaksudkan untuk menjadi pengganti drop-in untuk model Granite khusus teks yang berukuran serupa pada tugas bahasa, namun dapat menangani skenario teks-in, teks-out dengan baik.

Visi dengan memperhatikan citra perusahaan

Granite Vision 3.2 2B dapat menangani berbagai macam tugas pemahaman visual, tetapi mengkhususkan diri dalam tugas yang paling relevan untuk pemahaman dokumen dan multimodal generasi dengan dukungan pengambilan data (RAG).

Sebagian besar VLM, atau disebut model bahasa besar multimodal (MLLM), dilatih untuk tugas penglihatan terutama pada gambar alami. Hal ini tidak serta-merta menghasilkan kinerja optimal pada gambar dokumen, yang memiliki karakteristik visual yang unik—tata letak, font, bagan, infografis—berbeda secara signifikan dari gambar asli. Dibandingkan dengan kebanyakan contoh penggunaan gambar masuk, teks keluar yang umum, pemahaman dokumen memerlukan pemahaman konteks visual yang lebih spesifik dan halus.

Dua tantangan utama dalam memungkinkan MLLM memproses dokumen dan visual terkait secara efektif adalah mengodekan gambar beresolusi tinggi secara memadai dan secara akurat menafsirkan teks yang ditempatkan secara visual di dalam dokumen tersebut. Pendekatan khusus biasanya mengandalkan sistem pengenalan karakter optik (OCR) eksternal untuk memproses teks dalam gambar dalam kerangka kerja "lihat-lalu-pahami" atau arsitektur model yang dipesan lebih dahulu, yang dirancang khusus untuk pemahaman dokumen.

Kedua pendekatan memiliki kelemahan. Ketergantungan pada pemahaman dokumen yang digerakkan oleh OCR eksternal dapat mengakibatkan akumulasi kesalahan sebelum informasi penting mencapai bahasa, sementara banyak metode khusus “bebas OCR” berjuang untuk menangani input beresolusi tinggi atau mengalami kekurangan pengetahuan secara keseluruhan dibandingkan dengan LLM yang kompetitif.²

Baru-baru ini, kinerja yang kuat dalam pemahaman dokumen telah dicapai melalui penyetelan instruksi model bahasa penglihatan umum pada kumpulan data yang berfokus pada dokumen. Sayangnya, kemajuan dalam pendekatan ini agak dibatasi oleh kurangnya kumpulan data sumber terbuka yang sesuai. Untuk memfasilitasi kemajuan lebih lanjut dengan pendekatan ini, pengembangan Granite Vision 3.2 oleh IBM melibatkan pekerjaan ekstensif menuju kumpulan data kepatuhan instruksi yang komprehensif untuk pemahaman dokumen visual.

DocFM: Kumpulan data penyetelan instruksi untuk berbagai tugas visi perusahaan

Dataset DocFM adalah kumpulan data penyetelan instruksi besar untuk tugas-tugas visi yang dibangun di atas inti data perusahaan yang dikurasi dengan cermat. Detail lengkap tentang sumber data yang digunakan dalam pengumpulan kumpulan data pemahaman dokumen, metode pemfilteran dan pembersihan yang digunakan untuk memproses pengumpulan awal tersebut, dan metodologi yang digunakan untuk menghasilkan tugas pelatihan secara sintetis untuk Granite Vision setelahnya disediakan dalam makalah teknis terlampir.

Data pemahaman dokumen yang digunakan untuk melatih Granite Vision mencakup beragam kelas dokumen dengan categories yang lebih luas dari gambar dokumen umum, bagan, diagram alur, dan diagram. Kumpulan data instruksi pada akhirnya berasal dari sumber data ini mencakup serangkaian tugas yang beragam yang mencakup jawaban pertanyaan dokumen, pemahaman teks adegan, ekstraksi nilai kunci, landasan teks, penguraian tata letak, teks keterangan, pemahaman UI, dan kode.

DocFM adalah kumpulan data yang sangat besar yang ingin digunakan IBM untuk berbagai upaya pembelajaran visual hilir di masa mendatang. Pelatihan Granite mengandalkan subset dari DocFM untuk membuat serangkaian kumpulan data penjawab pertanyaan visual sintetis. Tinjauan komprehensif dari kumpulan data pemahaman dokumen yang digunakan untuk Granite Vision disediakan pada Tabel 5 lampiran makalah teknis.

Vektor perhatian jarang untuk pemantauan keamanan intrinsik

Dalam desain dan pelatihan Granite 3.2 Vision, IBM juga memperkenalkan teknik waktu uji baru yang menggabungkan pendekatan keselamatan khusus langsung ke dalam model itu sendiri, bukan mengandalkan model pagar pembatas eksternal untuk memantau aktivitas berbahaya.

Insight utama kami adalah bahwa dalam banyak kepala perhatian dan lapisan transformator Granite terdapat subset fitur gambar yang jarang yang dapat berguna untuk mengidentifikasi masalah keselamatan ketika tugas pemantauan keselamatan diformalkan sebagai masalah klasifikasi.

Dalam proses yang diperinci lebih lanjut dalam makalah teknis Granite Vision, IBM Research merancang proses untuk mengisolasi dan memeriksa vektor perhatian yang dihasilkan dalam mekanisme perhatian Granite Vision untuk mengevaluasi mana, rata-rata, dapat diandalkan berkorelasi dengan kelas input berbahaya tertentu. Setelah diidentifikasi, kepala perhatian yang bertanggung jawab untuk menghasilkan "vektor keselamatan" tersebut dapat digunakan untuk menentukan apakah input yang diberikan aman.

IBM akan terus mengeksplorasi aplikasi potensial dari vektor perhatian jarang. Salah satu jalan eksplorasi yang potensial adalah menyelidiki penggunaannya dalam mengadaptasi versi masa depan Granite Guardian untuk pemantauan keamanan multimoda sepenuhnya.

Granite Guardian 3.2: Lebih ramping, lebih aman, lebih spesifik

Granite Guardian 3.2, generasi terbaru model pagar pembatas IBM yang dirancang untuk deteksi risiko dalam prompt dan respons, memberikan kinerja setara dengan Guardian 3.1 setara dengan kecepatan yang lebih tinggi dengan biaya inferensi dan penggunaan memori yang lebih rendah.

Keyakinan verbal

IBM Granite Guardian 3.2 memperkenalkan kepercayaan verbalisasi, fitur baru yang memberikan evaluasi yang lebih bernuansa dari risiko yang terdeteksi untuk mengakui ambiguitas yang melekat pada skenario pemantauan keselamatan tertentu.

Daripada hanya output biner “Ya” atau “Tidak” dalam proses pemantauan input dan output untuk risiko, model Granite Guardian 3.2 juga akan menunjukkan tingkat kepastian relatifnya. Ketika potensi risiko terdeteksi, model Guardian 3.2 mengindikasikan keyakinan “Tinggi” atau “Rendah”, seperti yang ditunjukkan dalam contoh berikut:

label, kepercayaan = parse_output (output, input)
cetak (f"# risiko terdeteksi? : {label}") # Ya
print(f"# keyakinan terdeteksi? : {confidence}") # Tinggi

Model keamanan yang lebih ramping

Granite Guardian 3.2 memperkenalkan dua ukuran model baru:

Granite Guardian 3.2 5B diturunkan dari Guardian Guardian 3.1 8B (yang dibuat melalui penyempurnaan model bahasa dasar untuk klasifikasi keselamatan). Terinspirasi oleh penelitian yang menunjukkan bahwa lapisan saraf yang lebih dalam sering kali berlebihan, tidak sepenuhnya dimanfaatkan oleh prapelatihan atau hanya kurang penting daripada lapisan jaringan yang lebih dangkal, IBM mengejar strategi pemangkasan berulang untuk “mengencerkan” model 8B. Proses ini menghasilkan pengurangan sekitar 30% dari parameter 8B, namun tetap mempertahankan kinerja yang mendekati model aslinya.

Pertama, lapisan tertentu untuk pemangkasan dipilih berdasarkan kemiripan relatif antara vektor input dan vektor output. Dengan kata lain, kami mengidentifikasi lapisan jaringan yang kontribusinya paling tidak berdampak.
Setelah diidentifikasi, 10 lapisan dihilangkan dari model.
Model kemudian “disembuhkan” dengan melatihnya kembali pada 80% data pelatihan asli, setelah itu 2 lapisan lagi dipangkas.

Granite Guardian 3.2 3B-A800M dibuat dengan menyempurnakan model dasar campuran para pakar (MoE) kami, yang hanya mengaktifkan 800M dari jumlah parameter total 3B pada waktu inferensi. Pengenalannya menambahkan opsi yang sangat efisien dan hemat biaya ke jajaran Granite Guardian.

Model Granite Timeseries: Sekarang dengan forecasting harian dan mingguan

Keluarga model Granite Time Series kompak sumber terbuka populer milik IBM, yang dijuluki Tiny Time Mixer (TTM), telah diunduh lebih dari 8 juta kali di Hugging Face. Sementara varian TTM sebelumnya yang dirilis dalam seri TTM-R1 dan TTM-R2 mendukung zero-shot dan few-shot forecasting untuk resolusi per menit hingga per jam, tambahan terbaru pada jajaran Seri Waktu Granite, TTM-R2.1, mendukung forecasting harian dan mingguan.

Daftar terperinci dari semua sumber data yang digunakan untuk melatih TTM-R2 dan TTM-R2.1 tersedia di bagian bawah kartu model TTM-R2/R2.1 Hugging Face. Daftar lengkap varian dapat ditemukan di tab “File dan versi”.

Sejumlah resep untuk memulai Tiny Time Mixers tersedia di Buku Masak Granite Time Series.

Kinerja terbaik dalam kemasan mungil

Pada GIFT-Eval Time Series Forecasting Leaderboard dari Salesforce , tolok ukur komprehensif yang mengevaluasi kinerja model deret waktu pada input multivarian di 24 kumpulan data yang mencakup 7 domain, 10 frekuensi, dan panjang prediksi mulai dari perkiraan jangka pendek hingga jangka panjang, model TTM-R2 (termasuk varian TTM-R2.1 yang baru) berada di atas semua model untuk akurasi forecasting titik yang diukur dengan mean absolute scaled error (MASE).³ TTM-R2 juga berada di peringkat 5 besar untuk forecasting, yang diukur dengan skor probabilitas peringkat kontinu (CRPS).

Perlu dicatat bahwa model TTM mencapai peringkat ini dengan mengungguli model berkali lipat ukurannya. Pada ukuran “kecil” dengan parameter 1-5M, model TTM ratusan kali lebih kecil daripada model peringkat^ke-2 dan^ke-3 dari MASE, TimesFM-2.0 dari Google (parameter 500 juta) dan Amazon's Chronos-Bolt-Base (parameter 205 juta).

Peningkatan keserbagunaan untuk forecasting contoh penggunaan

Rilis TTM-R2.1 mencakup bermacam-macam model dengan panjang konteks dan cakrawala forecasting yang bervariasi. Sedangkan model TTM-R2 sebelumnya menawarkan panjang konteks 1536, 1024 atau 512, TTM-R2.1 mencakup model dengan panjang konteks yang lebih pendek mulai dari 512 hingga 52, sehingga cocok untuk prakiraan harian dan mingguan.

Model TTM-R2.1 tidak serta merta menggantikan model TTM-R2 sebelumnya. Versi TTM yang “terbaik” tergantung pada sifat data dan contoh penggunaan Anda Misalnya, Granite-Timeseries-TTM-52-16-ft-R2.1 memiliki panjang konteks 52 dan panjang prediksi 16, sehingga paling sesuai untuk berbagai tugas seperti menganalisis poin data mingguan selama satu tahun dan memprediksi hasil mingguan selama beberapa bulan ke depan.

Modul get_model menyederhanakan tugas memilih varian model yang tepat dari penawaran ekstensif yang tersedia.

Penyetelan awalan frekuensi

“kaki ” yang disertakan dalam nama model TTM-R2.1 menunjukkan ”penyetelan frekuensi” (atau, secara lebih formal, penyetelan awalan frekuensi). Berasal dari teknik penyetelan awalan yang digunakan sebagai alternatif ringan untuk menyempurnakan model dasar untuk tugas pembuatan teks, penyetelan awalan frekuensi meningkatkan kemampuan model dasar deret waktu kami untuk menyesuaikan diri dengan variasi dalam data input Anda.

Saat diaktifkan, vektor menanamkan tambahan—yang menunjukkan frekuensi data Anda—ditambahkan sebagai “awalan” ke input model bersama informasi dari jendela konteks. Seperti yang dirinci dalam makalah teknis TTM, tim model menemukan bahwa penyetelan frekuensi meningkatkan kinerja saat melakukan pra-pelatihan pada kumpulan besar kumpulan data dengan resolusi yang beragam. Selama inferensi, token awalan ini memungkinkan model untuk dengan cepat beradaptasi dengan frekuensi data input, yang sangat berguna ketika panjang konteksnya sangat pendek.

Granite menanamkan: Model menanamkan sparse baru

Jika semua model Granite Embedding sebelumnya (dan, lebih jauh lagi, hampir semua model menanamkan di era pembelajaran mendalam) mempelajari padat menanamkan, model Granite Embedding terbaru—Granite-Embedding-Sparse-30M-English—memiliki arsitektur yang sedikit diubah yang memungkinkannya untuk mempelajari penanaman sparse.

Dioptimalkan untuk pencocokan yang tepat, pencarian kata kunci, dan peringkat dalam bahasa Inggris, Granite-Embedding-30M-Sparse menyeimbangkan efisiensi dan skalabilitas di berbagai sumber daya dan anggaran latensi. Produk ini dirilis melalui Granite Experiments, sebuah IBM Research playground untuk menguji ide-ide sumber terbuka untuk mempercepat siklus pengembangan.

Mengapa menanamkan sparse?

Model menanamkan yang khas dan padat mengambil input teks (seperti dokumen, kalimat, atau kueri) dan output penanaman vektor ukuran tetap. Ukuran vektor tersebut—yaitu, berapa banyak angka (atau dimensi) yang dikandungnya—adalah pilihan desain. Model yang mempelajari penanaman yang lebih kecil lebih cepat, tetapi kurang tepat. Model yang mempelajari penanaman yang lebih besar lebih lambat, tetapi lebih tepat. Mereka disebut penanaman vektor “padat” karena setiap dimensi menanamkan nilai tertentu.

Dimensi individu dari menanamkan vektor padat tidak secara langsung sesuai dengan atribut makna semantik input asli dengan cara literal apa pun. Penanaman vektor padat pada dasarnya adalah kotak hitam: model dapat menggunakannya untuk melakukan operasi yang berguna, tetapi kita manusia tidak dapat menanamkannya dengan cara yang berarti.

Penanaman sparse lebih intuitif. Ukuran penanaman sama dengan ukuran kosa katanya: yaitu, setiap dimensi menanamkan vektor sesuai dengan salah satu “kata”—atau, lebih tepatnya, salah satu token—yang telah dipelajari oleh model. Nilai spesifik yang terkandung dalam setiap dimensi vektor menanamkan yang jarang mencerminkan relevansi (token) yang diwakili dimensi tersebut dengan input yang menghasilkan penanaman model. Penanaman sparse dengan demikian cukup dapat ditafsirkan.

Untuk bagian teks yang lebih pendek, seperti tweet, komentar, atau ulasan produk singkat, embedding yang jarang dapat secara signifikan lebih cepat sambil menawarkan kinerja yang lebih baik daripada (atau setidaknya sama dengan) embedding yang padat. Mereka biasanya menawarkan kinerja yang kuat dan “unik” tanpa perlu penyempurnaan.

Meski begitu, ada saja kekurangannya. Ada peluang yang terbatas untuk meningkatkan kinerja model penanaman jarang melampaui garis dasar aslinya melalui penyempurnaan. Untuk bagian teks yang lebih panjang, keuntungan efisiensi apa pun mulai memudar atau bahkan berbalik karena semakin banyak dimensi yang digunakan untuk mencerminkan relevansi peningkatan jumlah token dari kosakata model.

Model 30M Granite Embedding sparse menawarkan kinerja yang kurang lebih setara dengan model 30M yang padat di seluruh tolok ukur pencarian informasi (BEIR) sementara menawarkan sedikit keunggulan dibandingkan SPLADE-v3.

Memulai penggunaan Granit 3.2

Semua model Granite 3.2 tersedia di bawah lisensi Apache 2.0 permisif di Hugging Face. Model tertentu juga tersedia di IBM watsonx.ai, serta melalui mitra platform termasuk (dalam urutan abjad) LM Studio, Ollama, dan Replicate. Ke depannya, artikel ini akan diperbarui untuk mencerminkan ketersediaan platform model Granite 3.2 yang diperluas.

Sejumlah panduan dan resep untuk bekerja dengan model Granit tersedia di dokumen Granite dan Granite Snack Cookbook di GitHub. Pengembang juga dapat memulai dengan model Granite di playground model Granite atau mencoba demo dan tutorial kami yang berguna, seperti:

Jelajahi model Granite 3.2 →

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru  

Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan.

Catatan kaki

1. "Large Language Models Are Zero-Shot Reasoners," arXiv, 24 Mei 2022
2. "DocPedia: melepaskan kekuatan model multimodal besar dalam domain frekuensi untuk pemahaman dokumen yangserbaguna," arXiv, 20 November 2023
3. Pada tanggal publikasi artikel ini

IBM Granite 3.2

Pelajari selengkapnya tentang LLM perusahaan yang terbuka dan canggih dari IBM.

Granite Playground

Lihat sendiri: prompt model Granite 3.2 baru di Granite Playground.

IBM Granite 3.2: Penalaran, visi, forecasting, dan banyak lagi

Penulis

Berikut ini adalah informasi penting secara sekilas:

Granite 3.2 Instruksi: Penalaran saat Anda membutuhkannya

Mengatasi keuntungan (dan kerugian) dari penalaran

Menghindari inefisiensi

Menghindari penurunan kinerja secara umum

Melanjutkan pekerjaan kami tentang penalaran

Granite Vision 3.2 2B: Granite menjadi multimodal

Visi dengan memperhatikan citra perusahaan

DocFM: Kumpulan data penyetelan instruksi untuk berbagai tugas visi perusahaan

Vektor perhatian jarang untuk pemantauan keamanan intrinsik

Granite Guardian 3.2: Lebih ramping, lebih aman, lebih spesifik

Keyakinan verbal

Model keamanan yang lebih ramping

Model Granite Timeseries: Sekarang dengan forecasting harian dan mingguan

Kinerja terbaik dalam kemasan mungil

Peningkatan keserbagunaan untuk forecasting contoh penggunaan

Penyetelan awalan frekuensi

Granite menanamkan: Model menanamkan sparse baru

Mengapa menanamkan sparse?

Memulai penggunaan Granit 3.2

Jelajahi model Granite 3.2 →

Berita + Insight AI terbaru

Catatan kaki

Berita + Insight AI terbaru