Apa itu Temperatur LLM?

Penyusun

Data Scientist

Apa yang dimaksud dengan temperatur LLM?

Dalam kecerdasan buatan (AI) dan machine learning, temperatur adalah parameter untuk menyesuaikan output model bahasa besar (LLM). Temperatur mengontrol keacakan teks yang dihasilkan oleh LLM selama inferensi.

LLM menghasilkan teks dengan memprediksi kata berikutnya (atau lebih tepatnya, token berikutnya) sesuai dengan distribusi probabilitas. Setiap token diberi logit (nilai numerik) dari LLM dan total set token dinormalisasi menjadi "distribusi probabilitas softmax." Setiap token diberi "fungsi softmax" yang berada di antara nol dan satu, dan jumlah dari semua probabilitas softmax token adalah satu.

Parameter temperatur LLM memodifikasi distribusi ini. Temperatur yang lebih rendah pada dasarnya membuat token dengan probabilitas tertinggi lebih mungkin untuk dipilih; temperatur yang lebih tinggi meningkatkan kemungkinan model untuk memilih token yang lebih kecil kemungkinannya. Ini terjadi karena nilai temperatur yang lebih tinggi memberikan lebih banyak variabilitas dalam pemilihan token LLM. Pengaturan temperatur yang berbeda pada dasarnya memberikan tingkat keacakan yang berbeda ketika model AI generatif menghasilkan output berupa teks.

Parameter adalah fitur penting untuk mengontrol keacakan dalam kinerja model. Parameter memungkinkan pengguna untuk menyesuaikan output LLM agar lebih sesuai dengan aplikasi pembuatan teks yang berbeda di dunia nyata. Lebih khusus lagi, pengaturan LLM ini memungkinkan pengguna untuk menyeimbangkan koherensi dan kreativitas ketika menghasilkan output untuk contoh penggunaan tertentu. Misalnya, parameter rendah mungkin lebih disukai untuk tugas yang membutuhkan ketelitian dan keakuratan faktual, seperti dokumentasi teknik atau balasan percakapan dengan chatbot. Nilai parameter yang lebih rendah membantu LLM menghasilkan teks yang lebih koheren dan konsisten, serta menghindari respons yang tidak relevan. Sebaliknya, parameter tinggi lebih disukai untuk output kreatif atau tugas kreatif seperti penulisan kreatif atau curah pendapat mengenai konsep. Pengaturan parameter secara efektif memungkinkan pengguna untuk menyempurnakan LLM dan menyesuaikan output model ke hasil yang mereka inginkan.

Temperatur sering berkaitan dengan 'kreativitas', tetapi ini tidak selalu terjadi. Lebih mudahnya, temperatur adalah seberapa luas model menggunakan teks dari data pelatihannya. Max Peeperkorn et al¹ melakukan analisis empiris terhadap output LLM untuk nilai temperatur yang berbeda dan menulis:

"Kami menemukan bahwa temperatur berkorelasi lemah dengan kebaruan, dan tentu saja, berkorelasi sedang dengan inkoherensi, tetapi tidak ada hubungan dengan kohesi atau tipikalitas. Namun, pengaruh temperatur pada kreativitas jauh lebih bernuansa dan lemah daripada yang ditunjukkan oleh klaim "parameter kreativitas"; hasil keseluruhan menunjukkan bahwa LLM menghasilkan output yang sedikit lebih baru saat temperatur makin tinggi.”

Nilai temperatur tinggi dapat membuat output model tampak lebih kreatif, tetapi lebih akurat jika temperatur dianggap kurang ditentukan oleh data pelatihan.

Buletin industri

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Mengonfigurasi temperatur

Banyak API untuk mengakses model termasuk IBM® Granite Instruct atau OpenAIS ChatGPT memiliki parameter untuk mengonfigurasi temperatur serta berbagai parameter LLM lainnya. Tiga parameter yang paling umum adalah:

do_sample: Parameter ini mengontrol apakah model mengambil sampel selama pembuatan teks. Pemilihan adalah metode untuk memvariasikan output teks. Ketika disetel ke "True", model secara acak mengambil sampel dari probabilitas token yang disamarkan, bukan selalu memilih kata yang paling mungkin dari urutan dalam kumpulan data. Faktanya, kita perlu mengatur parameter ini ke true untuk mengaktifkan penyesuaian temperatur untuk LLM yang telah dilatih sebelumnya.

top_k: Parameter ini membatasi pilihan yang dapat diambil oleh model saat melakukan pengambilan sampel acak hanya pada k token dengan kemungkinan lebih besar. Sementara parameter sebelumnya memungkinkan pengambilan sampel secara acak pada token yang diprediksi lainnya di luar token dengan kemungkinan lebih besar, parameter ini membatasi jumlah token potensial yang akan dipilih oleh model. Sementara pengambilan sampel acak membantu menghasilkan output yang lebih bervariasi dan beragam, parameter ini membantu menjaga kualitas teks yang dihasilkan dengan mengecualikan token dengan kemungkinan lebih kecil dari sampel.

top_p: Parameter ini terkadang juga disebut pemilihan nukleus. Ini adalah metode lain untuk membatasi pilihan pengambilan sampel acak untuk menghindari output yang tidak konsisten dan tidak masuk akal. Parameter ini memungkinkan model untuk mempertimbangkan token yang probabilitas kumulatifnya lebih besar dari nilai probabilitas yang ditentukan. Saat memilih token untuk output yang dihasilkan, model hanya memilih sekelompok token yang probabilitas totalnya lebih dari, misalnya, 95%. Meskipun pengambilan sampel acak memungkinkan model untuk memiliki output yang lebih dinamis, parameter p tertinggi memastikan bahwa output mempertahankan koherensi dan konsistensi.

Akademi AI

Mengapa model dasar merupakan perubahan paradigma untuk AI

Pelajari tentang kelas baru model AI yang dapat digunakan kembali dan fleksibel, yang dapat membuka pendapatan baru, mengurangi biaya, dan meningkatkan produktivitas. Lalu gunakan buku panduan kami untuk mempelajari lebih dalam.

Buka episode

Mengontrol output

Seringkali model memungkinkan pengguna untuk mengontrol output dari model secara lebih eksplisit juga. Beberapa parameter yang umum digunakan untuk kontrol output adalah:

Maximum length: Panjang maksimum adalah jumlah total token yang diizinkan untuk dihasilkan oleh AI. Pengaturan ini berguna karena memungkinkan pengguna untuk mengatur panjang respons model dan dapat mencegah respons yang terlalu panjang atau tidak relevan.

Urutan penghentian: Urutan ini memberi tahu model kapan harus berhenti menghasilkan output dan membantu mengontrol panjang dan struktur konten. Meminta LLM untuk menulis email menggunakan "Salam hormat," atau "Hormat kami," sebagai urutan penghentian akan memberi tahu model untuk berhenti sebelum salam penutup. Prompt ini dapat membantu menjaga email tetap singkat dan langsung ke intinya. Urutan penghentian berguna untuk output yang Anda harapkan akan keluar dalam format terstruktur, seperti email, daftar bernomor, atau dialog.

Frequency penalty: Penalti frekuensi adalah pengaturan yang mencegah pengulangan dalam teks yang dihasilkan dengan memberi penalti kepada token secara proporsional sesuai dengan seberapa sering token tersebut muncul. Makin sering token digunakan dalam teks, makin kecil kemungkinan LLM untuk menggunakannya lagi.

Presence penalty: Penalti kemunculan mirip dengan penalti frekuensi, tetapi memberi penalti kepada token berdasarkan apakah token tersebut muncul atau tidak, bukan memberi penalti secara proporsional.

Membandingkan output dengan IBM Granite

Untuk melihat bagaimana temperatur memengaruhi output LLM, lihatlah output yang dibuat oleh model parameter IBM Granite 3.1 2 miliar. Prompt yang diberikan di sini adalah: “Tulis cerita tentang ilmuwan data yang mencintai Python.”

Dengan temperatur 0,1 Granite menghasilkan:

Dahulu kala, di kota San Francisco yang ramai, hiduplah seorang ilmuwan data brilian bernama Alex. Alex dikenal karena keterampilan luar biasanya dalam pemrograman Python dan analisis data. Ia menghabiskan siang dan malam mempelajari dunia data, menggunakan Python untuk mengekstrak insight dan membuat prediksi.

Suatu hari, Alex ditugaskan menganalisis churn pelanggan untuk layanan streaming populer. Ia menggunakan Python untuk membangun model machine learning yang dapat memprediksi pelanggan mana yang kemungkinan akan membatalkan langganan mereka.

Dengan temperatur 0,75 Granite menghasilkan:

Dahulu kala, di kota San Francisco yang ramai, hiduplah seorang ilmuwan data brilian bernama Alex. Alex dikenal karena kecintaan yang mendalam pada Python, bahasa pemrograman yang ia yakini adalah alat yang sempurna untuk analisis data dan machine learning.

Setiap hari, Alex akan bangun pagi, menyeduh seteko kopi, dan duduk di mejanya. Ia akan menghabiskan berjam-jam menulis kode dalam Python, menjelajahi kumpulan data, dan membangun model prediktif. Kecintaannya pada Python bukan hanya tentang bahasa itu sendiri, tetapi juga tentang komunitas yang telah tumbuh di sekitarnya.

Dengan temperatur 1,25 Granite menghasilkan:

Alkisah, di sebuah kota yang ramai dan penuh dengan gedung-gedung pencakar langit yang menjulang tinggi serta lampu neon, ada seorang ilmuwan data yang sangat mencintai Python lebih dari apa pun di dunia. Ilmuwan data ini memiliki perawat kucing bernama Suki. Suki adalah kucing yang penasaran dan suka bermain, selalu ingin menjelajahi setiap sudut dan celah rumah.

Suatu hari, ilmuwan data itu sedang mengerjakan masalah pengodean yang kompleks. Suki terus mengeong keras seolah-olah dia mencoba menyampaikan pesan kepada ilmuwan data. Ilmuwan data itu memperhatikan bahwa suara mengeong yang keras biasanya terjadi saat ia hampir menemukan solusi untuk masalah pengodean yang kompleks.

Perhatikan bahwa meskipun setiap cerita dimulai dengan awal yang sama, namun peningkatan temperatur akan meningkatkan variabilitas teks dan detail yang dihasilkan.

Cara memilih model dasar yang tepat

Pelajari cara memilih pendekatan yang tepat dalam mempersiapkan kumpulan data dan menggunakan model dasar.

Catatan kaki

1 Max Peeperkorn, Tom Kouwenhoven, Dan Brown, dan Anna Jordanous, Is Temperature the Creativity Parameter of Large Language Models?, 2024