Apa yang dimaksud dengan model bahasa kecil?

Penyusun

Rina Diane Caballar

Staff Writer

IBM Think

Apa itu model bahasa kecil?

Model bahasa kecil (SLM) adalah model kecerdasan buatan (AI) yang mampu memproses, memahami, dan menghasilkan konten bahasa alami. Sesuai namanya, SLM lebih kecil dalam skala dan ruang lingkup daripada model bahasa besar (LLM).

Dalam hal ukuran, parameter SLM berkisar antara beberapa juta hingga beberapa miliar, berbeda dengan LLM yang memiliki parameter ratusan miliar atau bahkan triliunan. Parameter adalah variabel internal, seperti bobot dan bias, yang dipelajari model selama pelatihan. Parameter ini memengaruhi bagaimana model machine learning berperilaku dan berjalan.

Model bahasa kecil lebih kompak dan efisien daripada model besar mereka. Dengan demikian, SLM membutuhkan lebih sedikit memori dan daya komputasi, sehingga ideal untuk lingkungan dengan sumber daya terbatas seperti perangkat edge dan aplikasi mobile, atau bahkan untuk skenario di mana AI inferencing—ketika model menghasilkan respons terhadap kueri pengguna—harus dilakukan secara offline tanpa jaringan data.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Terima kasih! Anda telah berlangganan.

Langganan Anda akan dikirimkan dalam bahasa Inggris. Anda akan menemukan tautan berhenti berlangganan di setiap buletin. Anda dapat mengelola langganan atau berhenti berlangganan di sini. Lihat Pernyataan Privasi IBM kami untuk informasi lebih lanjut.

Cara kerja model bahasa kecil

LLM berfungsi sebagai dasar untuk SLM. Seperti model bahasa besar, model bahasa kecil menggunakan arsitektur berbasis neural networks yang dikenal sebagai model transformator. Transformator telah menjadi hal yang fundamental dalam pemrosesan bahasa alami (NLP ) dan bertindak sebagai blok bangunan model seperti transformator yang telah dilatih sebelumnya (generative pre-trained transformer atau GPT).

Berikut adalah ikhtisar singkat tentang arsitektur transformator:

  • Enkoder mengubah urutan input menjadi representasi numerik yang disebut penyematan yang mencatat semantik dan posisi token dalam urutan input.

  • Mekanisme perhatian mandiri memungkinkan transformer untuk “memusatkan perhatian mereka” pada token yang paling penting dalam urutan input, terlepas dari posisinya.

  • Dekoder menggunakan mekanisme perhatian mandiri ini dan penyematan enkoder untuk menghasilkan urutan hasil yang paling mungkin secara statistik.

Kompresi model

Teknik kompresi model diterapkan untuk membuat model yang lebih ramping dari model yang lebih besar. Mengompresi model berarti mengurangi ukurannya namun tetap mempertahankan sebanyak mungkin keakuratannya. Berikut ini beberapa metode kompresi model yang umum:

  • Pemangkasan

  • Kuantisasi

  • Faktorisasi peringkat rendah

  • Distilasi pengetahuan

Pemangkasan

Pemangkasan menghilangkan parameter yang kurang penting, berlebihan atau tidak diperlukan dari neural networks. Parameter yang biasanya dipangkas meliputi bobot numerik yang sesuai dengan koneksi antara neuron (dalam kasus ini, bobot akan ditetapkan ke 0), neuron itu sendiri, atau lapisan dalam neural networks.

Model yang dipangkas sering kali perlu disempurnakan setelah pemangkasan untuk menebus hilangnya akurasi. Dan sangat penting untuk mengetahui kapan parameter yang cukup telah dipangkas, karena pemangkasan yang berlebihan dapat menurunkan kinerja model.

Kuantisasi

Kuantisasi mengubah data presisi tinggi menjadi data presisi rendah. Misalnya, bobot model dan nilai aktivasi (angka antara 0 dan 1 yang ditetapkan untuk neuron dalam neural networks) dapat direpresentasikan sebagai bilangan bulat 8-bit alih-alih nomor float point 32-bit. Kuantisasi dapat meringankan beban komputasi dan mempercepat inferensi.

Kuantisasi dapat dimasukkan ke dalam pelatihan model (dikenal sebagai pelatihan yang sadar akan kuantisasi atau QAT) atau dilakukan setelah pelatihan (disebut kuantisasi pasca-pelatihan atau PTQ). PTQ tidak memerlukan daya komputasi dan data pelatihan sebanyak QAT, tetapi QAT dapat menghasilkan model yang lebih akurat.

Faktorisasi peringkat rendah

Faktorisasi peringkat rendah menguraikan matriks bobot yang besar menjadi matriks peringkat yang lebih kecil dan lebih rendah. Pendekatan yang lebih ringkas ini dapat menghasilkan parameter yang lebih sedikit, mengurangi jumlah komputasi dan menyederhanakan operasi matriks yang kompleks.

Namun, faktorisasi peringkat rendah dapat menjadi intensif secara komputasi dan lebih sulit untuk diimplementasikan. Seperti pemangkasan, jaringan terfaktorisasi akan membutuhkan penyempurnaan untuk memulihkan kehilangan akurasi.

Distilasi pengetahuan

Distilasi pengetahuan melibatkan transfer pembelajaran dari “model guru” yang telah dilatih sebelumnya ke “model siswa”. Model siswa dilatih untuk tidak hanya mencocokkan prediksi model guru, tetapi juga meniru proses penalarannya. Dengan demikian, pengetahuan model yang lebih besar pada dasarnya “disuling” menjadi yang lebih kecil.

Distilasi pengetahuan merupakan pendekatan yang populer bagi banyak SLM. Skema distilasi offline biasanya digunakan, di mana bobot model guru dibekukan dan tidak dapat diubah selama proses distilasi.

Akademi AI

Memilih model AI yang tepat untuk contoh penggunaan Anda

Lebih besar tidak selalu lebih baik dalam hal model AI. Pelajari cara menemukan model yang tepat untuk kebutuhan bisnis Anda. Kemudian dapatkan buku panduan untuk membantu Anda mengambil tindakan.

Contoh-contoh model bahasa kecil

Sementara model yang lebih besar tetap menjadi teknologi pilihan bagi banyak perusahaan, model yang lebih kecil dengan cepat mendapatkan tempat. Berikut adalah beberapa contoh SLM yang populer:

  • DistilBERT

  • Gemma

  • GPT-4o mini

  • Granite

  • Llama

  • Ministral

  • Phi

DistilBERT

DistiLbert adalah versi yang lebih ringan dari model dasar BERT perintis Google. Ini menggunakan distilasi pengetahuan untuk membuatnya 40% lebih kecil dan 60% lebih cepat dari pendahulunya, sambil tetap mempertahankan 97% kemampuan pemahaman bahasa alami (natural language understanding) BERT.1

Versi BERT yang diperkecil lainnya termasuk versi kecil dengan 4,4 juta parameter, mini dengan 11,3 juta parameter, kecil dengan 29,1 juta parameter, dan menengah dengan 41,7 juta parameter.2 Sementara itu, MobileBERT disesuaikan untuk perangkat mobile.3

Gemma

Gemma dibuat dan disaring dari teknologi yang sama dengan Google Gemini LLM dan tersedia dalam 2, 7, dan 9 miliar ukuran parameter.4 Gemma tersedia melalui Google AI Studio dan platform Kaggle dan Hugging Face.

Gemini juga memiliki varian yang lebih ringan dalam bentuk Gemini 1.5 Flash-8B dan Gemini 1.0 Nano yang dirancang untuk beroperasi di perangkat mobile.5

GPT-4o mini

GPT-4o mini adalah bagian dari rangkaian model AI GPT-4 OpenAI, yang mendukung chatbot AI generatif ChatGPT. GPT-4o mini adalah varian GPT-4o yang lebih kecil dan hemat biaya. GPT ini memiliki kemampuan multimodal, yang menerima input teks dan gambar dan menghasilkan hasil teks.

Pengguna ChatGPT Free, Plus, Team, dan Enterprise dapat mengakses GPT-4o mini, yang menggantikan GPT-3.5. Pengembang dapat mengakses GPT-4o mini melalui berbagai antarmuka pemrograman aplikasi (API).

Granite

GraniteTM adalah seri unggulan IBM dari model dasar LLM. Koleksi Granite 3.0 mencakup model dasar yang telah dilatih dan disesuaikan dengan instruksi dengan 2 dan 8 miliar parameter. Granite 3.0 juga memiliki campuran SLM pakar (MoE) untuk latensi minimum dan varian yang dioptimalkan untuk mempercepat kecepatan inferensi model.

Model sumber terbuka ini unggul tidak hanya dalam tugas-tugas khusus bahasa tetapi juga dalam domain perusahaan seperti keamanan siber, sebagai agen AI yang menggunakan pemanggilan alat atau fungsi untuk melakukan tugas secara mandiri, dan dalam tugas-tugas Generasi dengan dukungan pengambilan data (RAG) yang melibatkan pengambilan fakta-fakta dari basis pengetahuan eksternal untuk mendasarkan model pada informasi yang paling akurat dan terkini.

Model Granite 3.0 tersedia untuk penggunaan komersial pada produk dalam portofolio IBM Watsonx dan melalui Google Vertex AI, Hugging Face, NVIDIA (sebagai layanan mikro NIM), Ollama dan Replicate.

Llama

Llama adalah jajaran model bahasa sumber terbuka Meta. Llama 3.2 hadir dalam ukuran parameter 1 dan 3 miliar,6 bahkan lebih kecil daripada versi Llama 2dengan 7 miliar parameter sebelumnya.7

Versi terkuantisasi dari model hanya teks multibahasa ini telah diperkecil hingga lebih dari setengah ukurannya dan 2 hingga 3 kali lebih cepat.6 SLM ini dapat diakses melalui Meta, Hugging Face, dan Kaggle.

Ministral

Les Ministraux adalah sekelompok SLM dari Mistral AI. Ministral 3B adalah model terkecil perusahaan dengan 3 miliar parameter, sedangkan Ministral 8B pada parameter 8 miliar adalah penerus Mistral 7B, 1 dari model AI pertama yang dirilis Mistral AI. Kedua model dapat diakses melalui Mistral.8

Ministral 8B mengungguli Mistral 7B dalam tolok ukur yang menilai pengetahuan, akal sehat, matematika, dan keterampilan multibahasa. Untuk inferensi cepat, Ministral 8B menggunakan perhatian jendela geser, mekanisme dinamis untuk berfokus pada "jendela" berukuran tetap tertentu dari urutan masukan, yang memungkinkan model untuk berkonsentrasi hanya pada beberapa kata dalam satu waktu.8

Phi

Phi adalah rangkaian model bahasa kecil dari Microsoft. Phi-2 memiliki 2,7 miliar parameter, sedangkan Phi-3-mini memiliki 3,8 miliar parameter.9

Phi-3-mini dapat menganalisis dan menalar konten teks yang besar karena jendela konteksnya yang panjang, yang merupakan jumlah maksimum teks yang dapat dipertimbangkan oleh model. Menurut Microsoft, PHI-3-Small, parameter SLM 7-miliarnya, akan tersedia pada masa depan. PHI-3-mini dapat diakses di Microsoft Azure AI Studio, Hugging Face, dan Ollama.9

Menggabungkan LLM dan SLM

Kemajuan dalam pengembangan AI telah mengarah pada pendekatan pengoptimalan yang memaksimalkan kekuatan bersama LLM dan SLM:

Pola AI hybrid: Model AI hybrid dapat memiliki model yang lebih kecil yang berjalan di lokasi dan mengakses LLM di cloud publik saat korpus data yang lebih besar diperlukan untuk merespons suatu prompt.

Perutean cerdas: Perutean cerdas dapat diterapkan untuk mendistribusikan beban kerja AI secara lebih efisien. Modul perutean dapat dibuat untuk menerima pertanyaan, mengevaluasinya, dan memilih model yang paling tepat untuk mengarahkan pertanyaan. Model bahasa kecil dapat menangani permintaan dasar, sementara model bahasa besar dapat menangani permintaan yang lebih rumit.

Manfaat model bahasa kecil

Lebih besar tidak selalu lebih baik, dan apa yang kurang dari SLM dalam hal ukuran, dapat ditebus melalui keunggulan ini:

Aksesibilitas: Para peneliti, pengembang AI, dan individu lainnya dapat menjelajahi dan bereksperimen dengan model bahasa tanpa harus berinvestasi pada beberapa GPU (unit pemrosesan grafis) atau peralatan lainnya.

Efisiensi: Rampingnya SLM membuatnya kurang membutuhkan banyak sumber daya, sehingga memungkinkan pelatihan dan penerapan yang cepat.

Kinerja yang efektif: Efisiensi ini tidak mengorbankan kinerja. Model kecil dapat memiliki kinerja yang sebanding atau bahkan lebih baik daripada model besar yang setara. Misalnya, GPT-4o mini melampaui GPT-3.5 Turbo dalam pemahaman bahasa, menjawab pertanyaan, penalaran, penalaran matematika, dan pembuatan kode tolok ukur LLM .10 Kinerja GPT-4o mini juga mendekati saudaranya yang lebih besar, GPT-4o.10

Kontrol privasi dan keamanan yang lebih baik: Karena ukurannya yang lebih kecil, SLM dapat diterapkan di lingkungan komputasi cloud pribadi atau di lokasi, sehingga memungkinkan perlindungan data yang lebih baik serta manajemen dan mitigasi ancaman keamanan siber yang lebih baik. Ini bisa sangat berharga untuk sejumlah sektor seperti keuangan atau perawatan kesehatan di mana privasi dan keamanan sangat penting.

Latensi yang lebih rendah: Parameter yang lebih sedikit berarti waktu pemrosesan yang lebih singkat, sehingga memungkinkan SLM merespons dengan cepat. Sebagai contoh, Granite 3.0 1B-A400M dan Granite 3.0 3B-A800M memiliki jumlah parameter total masing-masing 1 miliar dan 3 miliar, sedangkan jumlah parameter aktifnya pada saat inferensi adalah 400 juta untuk model 1B dan 800 juta untuk model 3B. Hal ini memungkinkan kedua SLM untuk meminimalkan latensi sekaligus memberikan kinerja inferensi yang tinggi.

Lebih ramah lingkungan: Karena membutuhkan lebih sedikit sumber daya komputasi, model bahasa kecil mengonsumsi lebih sedikit energi, sehingga mengurangi jejak karbonnya.

Pengurangan biaya: Organisasi dapat menghemat biaya pengembangan, infrastruktur, dan operasional—seperti memperoleh data pelatihan berkualitas tinggi dalam jumlah besar dan menggunakan perangkat keras canggih—yang seharusnya diperlukan untuk menjalankan model besar.

Keterbatasan model bahasa kecil

Seperti LLM, SLM masih harus bergulat dengan risiko AI. Ini adalah pertimbangan untuk bisnis yang ingin mengintegrasikan model bahasa kecil ke dalam alur kerja internal mereka atau menerapkannya secara komersial untuk aplikasi tertentu.

Bias: Model yang lebih kecil bisa belajar dari bias yang ada pada model yang lebih besar, dan efek riak ini bisa dimanifestasikan dalam output mereka.

Penurunan kinerja pada tugas-tugas yang kompleks: Karena SLM biasanya disetel dengan baik pada tugas-tugas tertentu, SLM mungkin kurang mahir dalam tugas-tugas kompleks yang membutuhkan pengetahuan di seluruh spektrum topik yang komprehensif. Misalnya, Microsoft mencatat bahwa “model Phi-3-nya tidak berkinerja baik pada tolok ukur pengetahuan faktual karena ukuran model yang lebih kecil menghasilkan kapasitas yang lebih kecil untuk mempertahankan fakta.”9

Generalisasi terbatas: Model bahasa kecil tidak memiliki basis pengetahuan yang luas seperti padanannya yang luas, sehingga mungkin lebih cocok untuk tugas bahasa yang ditargetkan.

Halusinasi: Memvalidasi hasil SLM sangat penting untuk memastikan bahwa apa yang mereka hasilkan adalah benar secara faktual.

Model bahasa kecil contoh penggunaannya

Perusahaan dapat melakukan fine-tune SLM pada kumpulan data khusus domain untuk menyesuaikannya dengan kebutuhan spesifik mereka. Kemampuan beradaptasi ini berarti model bahasa kecil dapat digunakan untuk berbagai aplikasi dunia nyata:

Chatbots: Karena latensi rendah dan kemampuan AI percakapannya, SLM dapat mendukung chatbot layanan pelanggan, merespons dengan cepat pertanyaan secara real-time. SLM juga dapat berfungsi sebagai tulang punggung untuk chatbot AI agen yang lebih dari sekadar memberikan respons untuk menyelesaikan tugas untuk pengguna.

Peringkasan konten: Model Llama 3.2 1B dan 3B, misalnya, dapat digunakan untuk meringkas diskusi di ponsel cerdas dan membuat item tindakan seperti acara kalender.6 Demikian pula, Gemini Nano dapat meringkas rekaman audio dan transkrip percakapan.11

AI Generatif: Model ringkas dapat diimplementasikan untuk menyelesaikan dan menghasilkan teks dan kode perangkat lunak. Misalnya, model granite-3b-code-instruct dan granite-8b-code-instruct dapat digunakan untuk menghasilkan, menjelaskan, dan menerjemahkan kode dari prompt bahasa alami.

Penerjemahan bahasa: Banyak model bahasa kecil berkemampuan multibahasa dan telah dilatih dalam bahasa selain bahasa Inggris, sehingga dapat menerjemahkan berbagai bahasa dengan cepat. Karena kemampuannya memahami konteks, mereka dapat menghasilkan terjemahan hampir akurat yang mempertahankan nuansa dan makna teks asli.

Pemeliharaan prediktif: Model ramping cukup kecil untuk diterapkan langsung pada perangkat edge lokal seperti sensor atau perangkat Internet of Things (IoT). Ini berarti bahwa produsen dapat memperlakukan SLM sebagai alat yang mengumpulkan data dari sensor yang dipasang di mesin dan peralatan, dan menganalisis data tersebut secara real-time untuk memprediksi kebutuhan pemeliharaan.

Analisis sentimen: Selain memproses dan memahami bahasa, SLM juga terampil dalam memilah-milah dan mengklasifikasikan teks dalam jumlah yang sangat besar secara objektif. Hal ini membuat SLM cocok untuk menganalisis teks dan mengukur sentimen di baliknya, sehingga membantu dalam memahami masukan pelanggan.

Bantuan navigasi kendaraan: Model secepat dan seringkas SLM dapat berjalan pada komputer onboard kendaraan. Karena kemampuan multimodalnya, model bahasa kecil dapat menggabungkan perintah suara dengan klasifikasi gambar, misalnya, untuk mengidentifikasi rintangan di sekitar kendaraan. Model ini bahkan dapat memanfaatkan kemampuan RAG-nya, mengambil detail dari kode jalan raya atau peraturan jalan untuk membantu driver membuat keputusan mengemudi yang lebih aman dan lebih tepat.

Solusi terkait
Model dasar

Jelajahi perpustakaan model dasar IBM di portfolio watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan percaya diri.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Jelajahi perpustakaan model dasar IBM dalam portofolio IBM watsonx untuk menskalakan AI generatif untuk bisnis Anda dengan penuh percaya diri.

Temukan watsonx.ai Jelajahi model AI IBM Granite
Catatan kaki

Semua tautan berada di luar ibm.com

1 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter, arXiv, 1 Maret 2020

2 Well-Read Students Learn Better: On the Importance of Pre-training Compact Models, arXiv, 25 September 2019

3 MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices, arXiv, 14 Apr 2020

4 Gemma explained: An overview of Gemma model family architectures, Google for Developers, 15 Agustus 2024

5 Gemini Models, Google DeepMind, Diakses pada 17 Oktober 2024

6 Introducing Llama 3.2, Meta, Diakses pada 17 Oktober 2024

7 Meta and Microsoft Introduce the Next Generation of Llama, Meta, 18 Juli 2023

8 Un Ministral, des Ministraux, Mistral AI, 16 Oktober 2024

14 Introducing Phi-3: Redefining what’s possible with SLMs, Microsoft, 23 April 2024

10 GPT-4o mini: advancing cost-efficient intelligence, OpenAI, 18 Juli 2024

11 Gemini Nano, Google DeepMind, Diakses pada 21 Oktober 2024