Apa itu Parameter LLM?

Penyusun

Staff writer

Staff Editor, AI Models

IBM Think

Definisi parameter LLM

Parameter LLM adalah pengaturan yang mengontrol dan mengoptimalkan output dan perilaku model bahasa besar (LLM). Parameter yang dapat dilatih termasuk bobot dan bias, dan dikonfigurasikan sebagai model bahasa besar (LLM) yang belajar dari kumpulan data pelatihannya. Hyperparameter berada di luar model, memandu proses pembelajarannya, menentukan strukturnya, dan membentuk output.

Buletin industri

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Jenis-jenis parameter LLM

Parameter LLM dapat diurutkan menjadi tiga kategori:

Bobot

Bias

Hiperparameter

Bobot

Bobot adalah nilai numerik yang menunjukkan pentingnya bagi LLM untuk menetapkan input tertentu. Tidak semua input diperlakukan sama oleh model kecerdasan buatan (AI) saat menghasilkan respons. Semakin tinggi bobot input, semakin relevan input dengan output model.

Pengaturan parameter yang dapat dilatih seperti bobot dikonfigurasikan oleh algoritma pembelajaran model selama proses pelatihan. Algoritma pembelajaran mengukur kinerja model machine learning (ML) dengan fungsi kerugian, yang berupaya meminimalkan kesalahan dengan mengoptimalkan parameter model.

Dalam jaringan neural, bobot adalah pengali yang menentukan kekuatan sinyal dari satu lapisan neuron ke lapisan neuron berikutnya. Sinyal harus memenuhi ambang kekuatan fungsi aktivasi untuk melewati jaringan. Dengan demikian, bobot secara langsung memengaruhi cara jaringan menyebarkan data melalui lapisannya.

Propagasi balik digunakan untuk menghitung bagaimana perubahan pada nilai bobot memengaruhi kinerja model.

Bias

Seperti bobot, bias juga dikonfigurasikan secara otomatis selama pelatihan Model AI. Bias adalah nilai konstan yang ditambahkan ke nilai sinyal dari lapisan sebelumnya. Model menggunakan bias untuk memungkinkan neuron aktif dalam kondisi di mana bobot saja mungkin tidak cukup untuk meneruskan fungsi aktivasi.

Bias memungkinkan model menjadi lebih fleksibel. Model dapat belajar dari data bahkan jika input tertimbang tidak memenuhi ambang aktivasi. Seperti bobot, bias disesuaikan dengan propagasi balik selama pelatihan untuk mengoptimalkan kinerja model dan meminimalkan kesalahan.

Kombinasi bobot dan bias dalam LLM dapat menghasilkan model dengan miliaran parameter. Selama proses fine-tuning ketika LLM yang telah dilatih sebelumnya dilatih lebih lanjut untuk tugas-tugas hilir, bobot dan biasnya disesuaikan dengan data pelatihan spesifik untuk setiap domain.

Hyperparameter

Hyperparameter adalah pengaturan eksternal yang menentukan perilaku, bentuk, ukuran, penggunaan sumber daya, dan karakteristik lainnya dari model. Proses penyetelan hyperparameter atau penyetelan model menggunakan algoritma untuk menemukan kombinasi optimal dari hyperparameter untuk kinerja yang lebih baik. Bersama dengan rekayasa prompt, penyetelan hyperparameter adalah salah satu metode kustomisasi LLM yang utama.

Hiperparameter arsitektur, seperti jumlah lapisan dan dimensi lapisan tersembunyi, mengonfigurasi ukuran dan bentuk model.

Hyperparameter pelatihan, seperti laju pembelajaran dan ukuran batch, memandu proses pelatihan model. Pelatihan hyperparameter sangat memengaruhi kinerja model dan apakah model memenuhi tolok ukur LLM.

Parameter inferensi, seperti parameter dan pengambilan sampel top-p, menentukan bagaimana model AI generatif menghasilkan outputnya.

Memori dan menghitung hiperparameter, seperti jendela konteks, jumlah maksimum token dalam urutan output dan urutan penghentian, menyeimbangkan kinerja dan kemampuan model dengan kebutuhan sumber daya.

Hyperparameter kualitas output, seperti penalti kemunculan dan penalti frekuensi, membantu LLM menghasilkan output yang lebih bervariasi dan menarik sekaligus mengendalikan biaya.

Akademi AI

Mengapa model dasar merupakan perubahan paradigma untuk AI

Pelajari tentang kelas baru model AI yang dapat digunakan kembali dan fleksibel, yang dapat membuka pendapatan baru, mengurangi biaya, dan meningkatkan produktivitas. Lalu gunakan buku panduan kami untuk mempelajari lebih dalam.

Buka episode

Parameter LLM yang terkenal

Jumlah parameter dalam model yang lebih besar—jaringan neural yang kompleks seperti GPT-4 dan GPT-3, Llama, Gemini, dan model transformer lainnya—dapat mencapai miliaran. Model yang lebih kecil memiliki lebih sedikit parameter, sehingga tidak terlalu membutuhkan banyak komputasi, tetapi juga kurang mampu melihat pola dan hubungan yang kompleks.

Semua parameter membantu menentukan bagaimana model memahami data dunia nyata yang ditemuinya. Tetapi parameter yang paling langsung memengaruhi output model adalah hyperparameternya. Salah satu manfaat dari model sumber terbuka adalah bahwa pengaturan hyperparameternya dapat dilihat.

Penyetelan hyperparameter adalah pilar penting dari penyesuaian LLM: menyesuaikan model untuk tugas-tugas tertentu.

Di antara model hyperparameter yang paling signifikan adalah:

Jumlah lapisan

Jendela konteks

Temperatur

Top-p (pemilihan nukleus)

Top-k

Angka token (token maks)

Tingkat pembelajaran

Penalti frekuensi

Penalti kemunculan

Sekuens penghenti

Jumlah lapisan

Jumlah lapisan dalam jaringan neural adalah hyperparameter penting untuk mengatur ukuran dan kompleksitas model. Jaringan neural terdiri dari lapisan neuron atau node. Makin banyak lapisan antara lapisan input awal dan lapisan output akhir, makin kompleks modelnya.

Tetapi kompleksitas tidak selalu baik. Model yang memiliki terlalu banyak lapisan untuk tugas yang tidak memerlukannya dapat mengalami overfitting dan memboroskan sumber daya komputasi. Sementara itu, model dengan lapisan yang tidak mencukupi akan gagal menangkap pola, hubungan, dan distribusi dalam kumpulan data yang kompleks.

Jendela konteks

Hiperparameter jendela konteks relevan dengan model apa pun yang dibangun di atas arsitektur transformator, seperti LLM sumber terbuka Llama-2. Jendela konteks adalah jumlah maksimum token yang dapat dimasukkan oleh model sekaligus mempertahankan koherensi di seluruh urutan input.

Jendela konteks juga menentukan panjang percakapan yang dapat dipertahankan oleh model tanpa kehilangan jejak konten sebelumnya. Jendela konteks yang lebih besar menghasilkan akurasi yang lebih besar, lebih sedikit halusinasi, dan kemampuan untuk memproses dokumen yang lebih besar atau melakukan percakapan yang lebih panjang.

Namun, jendela konteks yang besar juga membutuhkan sumber daya komputasi yang lebih besar dan dapat memperpanjang waktu pemrosesan untuk menghasilkan respons.

Temperatur

Hyperparameter temperatur LLM mirip dengan dial keacakan atau kreativitas. Menaikkan temperatur akan meningkatkan distribusi probabilitas untuk kata-kata berikutnya yang muncul dalam output model selama pembuatan teks.

Pengaturan temperatur 1 menggunakan distribusi probabilitas standar untuk model. Temperatur yang lebih tinggi dari 1 meratakan distribusi probabilitas, mendorong model untuk memilih rentang token yang lebih luas. Sebaliknya, temperatur yang lebih rendah dari 1 memperlebar distribusi probabilitas, membuat model lebih mungkin untuk memilih token berikutnya yang paling mungkin.

Nilai temperatur yang mendekati 1,0, seperti 0,8, berarti LLM menjadi lebih kreatif dalam merespons, tetapi dengan potensi prediktabilitas yang lebih rendah. Sementara itu, temperatur yang lebih rendah 0,2 akan menghasilkan respons yang lebih deterministik. Model dengan temperatur rendah memberikan output yang dapat diprediksi, jika stabil. Temperatur yang lebih tinggi mendekati 2.0 dapat mulai menghasilkan output yang tidak masuk akal.

Contoh penggunaan akan menjadi dasar nilai temperatur ideal untuk LLM. Chatbot yang dirancang untuk menghibur dan kreatif, seperti ChatGPTmembutuhkan temperatur yang lebih tinggi untuk membuat teks yang mirip dengan manusia. Aplikasi ringkasan teks di bidang yang diatur dengan ketat seperti hukum, kesehatan, atau keuangan memerlukan yang sebaliknya—ringkasan teks yang dihasilkan harus mematuhi persyaratan ketat.

Top-p (pemilihan nukleus)

Seperti temperatur, pemilihan top-p juga memengaruhi keberagaman kata dalam output yang dihasilkan. Top-p bekerja dengan menetapkan ambang probabilitas p untuk token berikutnya dalam sekuens output. Model ini diizinkan untuk menghasilkan respons dengan menggunakan token dalam batas probabilitas.

Dengan pemilihan top-p, token diberi peringkat berdasarkan probabilitas. Token dengan kemungkinan lebih besar untuk muncul berikutnya dalam urutan memiliki skor yang lebih tinggi, dan berlaku sebaliknya untuk token yang kemungkinannya lebih kecil. Model ini mengumpulkan sekelompok token potensial berikutnya hingga skor p kumulatif mencapai ambang batas yang ditetapkan, kemudian secara acak memilih token dari kelompok tersebut.

Ambang batas p yang lebih tinggi menghasilkan output yang lebih beragam, sementara ambang batas yang lebih rendah menjaga akurasi dan koherensi.

Temperatur versus pemilihan top-p

Perbedaan antara temperatur dan pemilihan top-p adalah bahwa ketika temperatur menyesuaikan distribusi probabilitas token potensial, pemilihan top-p membatasi pemilihan token pada kelompok yang terbatas.

Top-k

Hiperparameter top-k adalah pengaturan lain yang berfokus pada keberagaman. Nilai k menetapkan batas untuk jumlah elemen yang dapat dianggap sebagai elemen berikutnya dalam urutan. Elemen diurutkan berdasarkan probabilitas dan k elemen teratas dipilih sebagai kandidat.

Top-p versus top-k

Top-p membatasi kumpulan token hingga p total probabilitas yang ditetapkan, sementara top-k membatasi kumpulan hingga k istilah yang paling mungkin.

Angka token (token maks)

Angka token atau hyperparameter token maks menetapkan batas atas untuk panjang token output. Nilai angka token yang lebih kecil ideal untuk tugas-tugas cepat seperti percakapan chatbot dan tugas-tugas peringkasan yang dapat ditangani oleh model bahasa kecil serta LLM.

Nilai angka token yang lebih tinggi lebih baik ketika output yang lebih panjang diperlukan, seperti jika mencoba menggunakan LLM untuk vibe coding.

Tingkat pembelajaran

Laju pembelajaran adalah hyperparameter penting yang memengaruhi kecepatan model dalam menyesuaikan bobot dan biasnya selama pelatihan dan penyempurnaan. Proses ini sering menggunakan algoritma pembelajaran yang dikenal sebagai penurunan gradien (gradient descent).

Algoritma penurunan gradien mencoba meminimalkan fungsi kerugian yang mengukur kesalahan prediksi model. Pada setiap iterasi pelatihan, algoritma memperbarui bobot model untuk meningkatkan kinerja secara ideal dengan kumpulan data berikutnya.

Tingkat pembelajaran mengontrol sejauh mana bobot diperbarui. Tingkat pembelajaran yang lebih tinggi menyebabkan peningkatan yang lebih besar, mempercepat pelatihan dengan risiko melebihi minimum lokal. Tingkat pembelajaran yang lebih rendah membuat penyesuaian yang lebih halus tetapi membutuhkan lebih banyak iterasi untuk mencapai minimum dan bahkan dapat terhenti.

Salah satu metode yang efektif untuk mengatur laju pembelajaran adalah memulai pelatihan dengan nilai yang lebih tinggi dan menurunkan laju pembelajaran saat model mendekati minimum lokal dari fungsi kerugiannya.

Penalti frekuensi

Hyperparameter penalti frekuensi membantu mencegah model menggunakan istilah secara berlebihan dalam output yang sama. Setelah istilah muncul dalam output, penalti frekuensi menghalangi model untuk menggunakannya kembali nanti.

Model memberikan skor untuk setiap token yang dikenal sebagai logit dan menggunakan logit untuk menghitung nilai probabilitas. Penalti frekuensi secara linear menurunkan nilai logit dari suatu istilah setiap kali istilah tersebut diulang, sehingga makin kecil kemungkinannya untuk dipilih di lain waktu. Nilai penalti frekuensi yang lebih tinggi menurunkan logit dengan jumlah yang lebih besar per aplikasi.

Karena model ini tidak boleh mengulang istilah, maka model ini harus memilih istilah lain, sehingga menghasilkan pilihan kata yang lebih beragam dalam teks yang dihasilkan.

Penalti pengulangan

Penalti pengulangan mirip dengan penalti frekuensi kecuali bahwa penalti itu bersifat eksponensial, bukan linier. Penalti pengulangan menurunkan logit istilah secara eksponensial setiap kali istilah tersebut digunakan kembali, menjadikannya penghalang yang lebih kuat daripada penalti frekuensi. Untuk alasan ini, nilai penalti pengulangan yang lebih rendah direkomendasikan.

Penalti kemunculan

Penalti kemunculan adalah hyperparameter terkait yang bekerja mirip dengan penalti frekuensi, kecuali hanya berlaku sekali. Penalti kemunculan menurunkan nilai logit suatu istilah dengan jumlah yang sama terlepas dari seberapa sering istilah tersebut muncul dalam output, selama istilah tersebut muncul setidaknya sekali.

Jika istilah beruang muncul dalam output sebanyak 10 kali, dan istilah rubah muncul satu kali, beruang memiliki penalti frekuensi yang lebih tinggi daripada rubah. Namun, baik beruang dan rubah memiliki penalti kemunculan yang sama.

Sekuens penghenti

Urutan berhenti adalah untai token yang ditetapkan sebelumnya, yang ketika muncul menyebabkan model mengakhiri urutan output. Misalnya, jika model dirancang untuk mengeluarkan satu kalimat pada satu waktu, urutan berhenti mungkin berupa tanda titik.

Urutan berhenti mempertahankan keringkasan respons tanpa memengaruhi cara model menghasilkan output hingga titik berhenti. Karena mereka memotong respons model, urutan berhenti juga membantu menghemat biaya token saat terhubung ke LLM melalui API.

Mengoptimalkan parameter LLM

Mengoptimalkan parameter internal model yang dapat dilatih—bobot dan biasnya—sangat penting untuk kinerja yang kuat. Setelah model dilengkapi dengan hyperparameter yang optimal, para perancangnya memiliki serangkaian metode yang dapat digunakan untuk membantu membentuk parameter LLM internal.

Fine-tuning menyesuaikan bobot dan bias model untuk tugas-tugas tertentu. Fine-tuning yang efisien parameter (PEFT) membekukan sebagian besar parameter sambil mengubah subkumpulan kecil yang relevan.

Transfer learning adalah sebuah jenis teknik pengoptimalan model yang luas yang semuanya berpusat pada penggunaan pengetahuan model sebelumnya untuk meningkatkan kinerja pada tugas-tugas baru.

Kuantisasi menyederhanakan semua penghitungan di dalam model, membuatnya lebih kecil dan lebih efisien namun tetap merepresentasikan data yang sama.

Penghentian dini mencegah overfitting dengan membatalkan proses latihan ketika berhenti menghasilkan peningkatan kinerja yang nyata.

Cara memilih model dasar yang tepat

Pelajari cara memilih pendekatan yang tepat dalam mempersiapkan kumpulan data dan menggunakan model dasar.

Apa itu parameter LLM?