Tag

Apa itu penyetelan model?

Tampilan belakang insinyur suara yang memanipulasi papan pencampuran

Penyusun

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

Apa itu penyetelan model?

Penyetelan model adalah proses mengoptimalkan hiperparameter pada model machine learning untuk mencapai kinerja terbaik. Proses ini melibatkan penyesuaian hiperparameter hingga nilai optimal ditemukan, yang menghasilkan peningkatan akurasi, kualitas hasil, dan metrik kinerja lainnya.

Karena penyetelan model bertujuan untuk menemukan hiperparameter optimal, proses ini juga dikenal sebagai optimasi hiperparameter, atau sebagai alternatif, penyetelan hiperparameter.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru  

Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan.

Apa itu hyperparameter?

Hiperparameter adalah variabel konfigurasi model yang nilainya tidak dapat ditentukan langsung dari data pelatihan. Berbagai variabel ini menentukan fitur utama dan cara model berperilaku selama pelatihan. Beberapa hiperparameter, seperti tingkat pembelajaran, mengatur bagaimana model berperilaku selama proses pelatihan. Hiperparameter lainnya menentukan sifat model itu sendiri, seperti yang mengatur jumlah lapisan dalam neural networks.

Ilmuwan data harus mengonfigurasi nilai hiperparameter model machine learning (ML) sebelum memulai pelatihan. Memilih kombinasi hiperparameter yang tepat sebelumnya sangat penting untuk memastikan keberhasilan pelatihan model ML.

Hiperparameter versus parameter model

Parameter model, atau bobot model, adalah variabel yang dipelajari oleh model kecerdasan buatan (AI) selama proses pelatihan. Algoritma AI mempelajari hubungan, pola, dan distribusi dalam kumpulan data pelatihan, kemudian menerapkan temuan tersebut pada data baru untuk membuat prediksi yang akurat.

Saat algoritma machine learning menjalani pelatihan, ia menetapkan dan memperbarui parameter-parameter yang diperlukan untuk meningkatkan kinerjanya. Parameter ini menggambarkan apa yang dipelajari model dari kumpulan data pelatihan dan berubah seiring waktu melalui setiap iterasi algoritma optimisasi.

Mengapa penyetelan model penting?

Penyetelan model sangat penting karena nilai hiperparameter secara langsung memengaruhi kinerja model. Konfigurasi hiperparameter yang tepat membantu model belajar lebih efektif selama pelatihan.

Tanpa penyetelan yang tepat, model dapat mengalami overfitting— kondisi di mana model terlalu menyesuaikan diri dengan data pelatihan dan kesulitan beradaptasi dengan kumpulan data baru. Kekurangan lainnya dapat mencakup bias atau varians model yang berlebihan.

Setiap algoritma machine learning memiliki kombinasi hiperparameter yang optimal, di mana beberapa memiliki dampak lebih besar terhadap kinerja dibandingkan yang lain. Dengan fokus pada penyetelan hiperparameter yang paling berpengaruh, proses optimasi dapat dilakukan lebih efisien, menghemat waktu serta sumber daya komputasi.

Overfitting

Overfitting terjadi ketika model terlalu kompleks untuk data pelatihannya. Hiperparameter yang digunakan membuat neural networks memiliki terlalu banyak lapisan atau parameter yang dapat dilatih. Akibatnya, model menyesuaikan diri terlalu erat dengan kumpulan data pelatihannya. Model yang terlalu pas ini kesulitan beradaptasi dengan data baru karena gagal menggeneralisasi dari data pelatihan.

Bayangkan dua siswa di ruang kelas. Satu siswa belajar dengan menghafal fakta, sementara yang lain berfokus pada pemahaman konsep dasar yang diajarkan. Sejauh ini, keduanya telah berkinerja baik pada tes yang mencakup materi yang sudah diajarkan. Namun, apa yang terjadi ketika mereka harus menerapkan pembelajaran mereka pada topik baru?

Siswa yang dapat menggeneralisasi akan berhasil mentransfer apa yang telah mereka pelajari, sementara siswa yang mengandalkan ingatan mungkin akan kesulitan melakukan hal yang sama. Mereka telah "terlalu menyesuaikan" pemahaman mereka terlalu dekat dengan konten kelas yang spesifik sementara gagal memahami prinsip-prinsip inti.

Bias

Bias adalah perbedaan antara prediksi model dan hasil sebenarnya di dunia nyata. Bias dapat disebabkan oleh kumpulan data yang tidak representatif, tetapi juga bisa terjadi akibat penyetelan model yang kurang optimal—di mana model gagal belajar secara efektif, meskipun data pelatihannya berkualitas.

Model dengan bias tinggi cenderung mengabaikan pola kompleks dalam data pelatihan, sehingga berisiko menghasilkan prediksi yang tidak akurat bahkan selama proses pelatihan. Algoritma yang lebih sederhana, seperti regresi linier, cenderung memiliki bias tinggi karena keterbatasannya dalam menangkap pola kompleks dalam data pelatihan.

Memilih algoritma yang sesuai untuk suatu tugas merupakan langkah awal yang krusial dalam memastikan kinerja optimal, bahkan sebelum proses penyetelan model dilakukan.

Varians

Varians secara terbalik menggambarkan konsistensi prediksi model. Varians tinggi menunjukkan bahwa model cenderung memberikan prediksi yang tidak konsisten saat digunakan pada data baru, meskipun performanya baik pada kumpulan data pelatihan. Model dengan varians tinggi cenderung mengalami overfitting—yaitu ketika model terlalu menyesuaikan diri dengan data pelatihan sehingga gagal menggeneralisasi pola yang sama pada data baru.

Regularisasi adalah teknik yang mengurangi overfitting dengan menyeimbangkan bias dan varians–sehingga model lebih generalis terhadap data baru. Penyetelan model yang efektif mengatur keseimbangan antara bias dan varians untuk menghasilkan prediksi yang optimal di dunia nyata.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Bagaimana cara kerja penyetelan model?

Penyetelan model dilakukan dengan mencari konfigurasi hiperparameter yang membuahkan hasil pelatihan terbaik. Dalam beberapa kasus, terutama saat membangun model yang lebih kecil dan sederhana, ilmuwan data dapat mengatur hiperparameter secara manual sebelum pelatihan. Namun, transformer dan model kompleks lainnya dapat memiliki ribuan kombinasi hiperparameter yang mungkin.

Dengan begitu banyak kemungkinan, ilmuwan data dapat mempersempit ruang pencarian hiperparameter untuk fokus pada kombinasi yang paling berpotensi menghasilkan hasil optimal. Mereka juga dapat menerapkan metode otomatis untuk secara algoritmik mengidentifikasi hiperparameter optimal sesuai dengan contoh penggunaan yang diinginkan.

Metode penyetelan model

Metode penyetelan model yang paling umum meliputi:

Pencarian grid
Pencarian acak
Optimalisasi Bayesian
Hyperband

Pencarian grid

Pencarian grid adalah metode penyetelan model yang menggunakan pendekatan "brute force". Ilmuwan data membuat ruang pencarian yang mencakup semua nilai hiperparameter yang mungkin. Algoritma pencarian grid kemudian menghasilkan semua kombinasi hiperparameter yang ada. Model dilatih dan divalidasi untuk setiap kombinasi hiperparameter, dan model dengan kinerja terbaik dipilih untuk digunakan.

Karena menguji semua kemungkinan nilai hiperparameter, bukan hanya subset tertentu, pencarian grid adalah metode penyetelan yang komprehensif. Kelemahan dari cakupan yang luas ini adalah pencarian grid membutuhkan waktu dan sumber daya komputasi yang besar.

Pencarian acak

Alih-alih menguji setiap kemungkinan konfigurasi hiperparameter, algoritma pencarian acak memilih nilai hiperparameter secara acak dari distribusi statistik yang telah ditentukan. Ilmuwan data mengidentifikasi dan mengumpulkan nilai hiperparameter yang paling potensial, meningkatkan kemungkinan algoritma memilih pilihan yang optimal.

Pencarian acak lebih cepat dan lebih sederhana untuk diimplementasikan dibandingkan dengan pencarian grid. Namun, karena tidak semua kombinasi diuji, metode ini tidak menjamin menemukan konfigurasi hiperparameter yang paling optimal.

Optimalisasi Bayesian

Berbeda dengan pencarian grid dan acak, optimasi Bayesian menentukan nilai hiperparameter dengan mempertimbangkan hasil dari percobaan sebelumnya. Algoritma ini menganalisis hasil pengujian dari nilai hiperparameter sebelumnya untuk memperkirakan nilai yang paling mungkin menghasilkan kinerja yang lebih baik.

Optimasi Bayesian berfungsi dengan membangun model probabilistik untuk memperkirakan fungsi objektif. Fungsi pengganti ini menjadi semakin efisien seiring waktu karena hasilnya terus membaik—Hal ini menghindari pemborosan sumber daya pada nilai hiperparameter yang kurang optimal sambil terus mencari konfigurasi terbaik.

Teknik yang mengoptimalkan model dengan memanfaatkan hasil dari pengujian sebelumnya dikenal sebagai pengoptimalan berbasis model berurutan (SMBO).

Hyperband

Hyperband mengoptimalkan alur kerja pencarian acak dengan memprioritaskan konfigurasi hiperparameter yang menjanjikan sekaligus menghentikan pencarian pada konfigurasi yang kurang potensial. Dalam setiap iterasi pengujian, algoritma hyperband mengeliminasi setengah dari konfigurasi dengan kinerja terendah di antara semua yang diuji.

Pendekatan "successive halving" dalam Hyperband secara bertahap menyaring konfigurasi, mempertahankan hanya yang paling menjanjikan hingga akhirnya menemukan yang terbaik dari kumpulan kandidat awal.

Penyetelan model versus pelatihan model

Penyetelan model berfokus pada pencarian hiperparameter optimal, sementara pelatihan model adalah proses di mana machine learning mempelajari pola dari kumpulan data pelatihan untuk menghasilkan prediksi yang akurat pada data baru.

Proses pelatihan menggunakan algoritma optimasi untuk meminimalkan fungsi kerugian atau fungsi objektif, yang mengukur selisih antara prediksi model dan nilai sebenarnya. Tujuan utama adalah menemukan kombinasi optimal antara bobot dan bias model guna meminimalkan nilai fungsi objektif. Algoritma pengoptimalan memperbarui bobot model secara berkala selama pelatihan.

Keluarga algoritma pengoptimalan penurunan gradien bekerja dengan menurunkan gradien fungsi kerugian untuk menemukan titik minimum, yaitu kondisi di mana model mencapai akurasi tertinggi. Minimum lokal adalah nilai minimum di wilayah tertentu, tetapi mungkin bukan minimum global fungsi—nilai terendah absolut.

Tidak selalu perlu untuk mengidentifikasi minimum global fungsi kerugian. Suatu model dikatakan telah mencapai konvergensi apabila fungsi kerugiannya berhasil diminimalkan.

Validasi silang, pengujian, dan pelatihan ulang

Setelah pelatihan, model menjalani validasi silang—yaitu memeriksa hasil pelatihan dengan bagian lain dari data pelatihan. Prediksi model dibandingkan dengan nilai aktual dari data validasi. Model dengan kinerja terbaik kemudian melanjutkan ke tahap pengujian, di mana prediksinya diperiksa lagi untuk memastikan keakuratannya sebelum diterapkan. Validasi silang dan pengujian sangat penting untuk evaluasi model bahasa besar (LLM).

Pelatihan ulang adalah bagian dari siklus hidup AI dalam MLOps (operasi machine learning) yang memungkinkan model untuk terus diperbarui secara otomatis, sehingga tetap berkinerja optimal seiring waktu.

Penyetelan model versus penyempurnaan

Penyetelan model mengidentifikasi nilai hiperparameter terbaik untuk pelatihan, sedangkan fine-tuning adalah proses mengutak-atik model dasar yang telah dilatih sebelumnya untuk tugas-tugas hilir tertentu. Fine-tuning adalah jenis pembelajaran transfer—ketika pembelajaran model yang sudah ada sebelumnya disesuaikan dengan tugas-tugas baru.

Dalam fine-tuning, model yang telah dilatih sebelumnya dilatih ulang menggunakan kumpulan data yang lebih kecil dan spesifik, yang disesuaikan dengan contoh penggunaan tertentu. Pada awalnya, melatih model pada kumpulan data kecil berisiko mengalami overfitting, tetapi melatih dengan kumpulan data yang besar dan umum dapat membantu mengurangi risiko tersebut.

Contoh hyperparameter

Meskipun setiap algoritma memiliki kumpulan hiperparameter-nya sendiri, banyak di antaranya bersifat umum dan digunakan pada algoritma serupa. Hiperparameter yang umum digunakan dalam neural networks untuk mendukung model bahasa besar (LLM) antara lain:

Tingkat pembelajaran
Peluruhan laju pembelajaran
Epochs
Ukuran batch
Momentum
Jumlah lapisan tersembunyi
Node per lapisan
Fungsi aktivasi

Tingkat pembelajaran

Tingkat pembelajaran mengontrol seberapa besar perubahan bobot model dalam setiap iterasi pelatihan. Tingkat pembelajaran yang lebih tinggi memungkinkan model belajar lebih cepat, tetapi juga meningkatkan risiko melewati titik minimum lokal pada fungsi kerugian. Sementara itu, tingkat pembelajaran yang rendah dapat menyebabkan waktu pelatihan yang berlebihan, meningkatkan sumber daya dan tuntutan biaya.

Peluruhan laju pembelajaran

Peluruhan laju pembelajaran adalah hiperparameter yang memperlambat laju pembelajaran algoritma ML dari waktu ke waktu. Model ini memperbarui parameternya dengan lebih cepat pada awalnya, kemudian dengan nuansa yang lebih besar saat mendekati konvergensi, sehingga mengurangi risiko overshoot.

Epochs

Pelatihan model dilakukan dengan mengekspos model pada data pelatihan secara berulang memperbarui bobotnya. Sebuah epoch terjadi setiap kali model memproses seluruh kumpulan data pelatihan, sementara hiperparameter epoch menentukan jumlah total iterasi dalam proses pelatihan.

Ukuran batch

Algoritma machine learning tidak selalu memproses seluruh kumpulan data pelatihan dalam setiap iterasi proses optimasi. Sebagai gantinya, kumpulan data pelatihan dibagi menjadi beberapa batch, di mana bobot model diperbarui pada setiap batch. Ukuran batch mengacu kepada jumlah sampel data yang diproses dalam setiap batch.

Momentum

Momentum adalah kecenderungan algoritma ML untuk memperbarui bobotnya ke arah yang sama dengan pembaruan sebelumnya. Bayangkan momentum sebagai keyakinan algoritma terhadap proses pembelajarannya. Momentum yang tinggi membantu algoritma mencapai konvergensi lebih cepat, namun dengan risiko melewati minimum lokal yang penting. Sebaliknya, momentum rendah dapat menyebabkan algoritma bergerak bolak-balik dengan pembaruannya, sehingga menghambat kemajuan.

Jumlah lapisan tersembunyi

Neural networks meniru struktur otak manusia dengan terdiri atas beberapa lapisan neuron atau node yang saling terhubung. Kompleksitas ini memungkinkan model canggih, seperti transformator, untuk menangani tugas-tugas generatif yang rumit. Model dengan lebih sedikit lapisan lebih sederhana dan efisien, sementara model dengan lebih banyak lapisan dapat menangani tugas yang lebih kompleks.

Node per lapisan

Setiap lapisan dalam neural networks memiliki jumlah node yang telah ditetapkan sebelumnya. Semakin banyak node dalam suatu lapisan, semakin baik model dalam menangkap hubungan kompleks antar data. Namun, ini juga meningkatkan kebutuhan komputasi.

Fungsi aktivasi

Fungsi aktivasi adalah hiperparameter yang memungkinkan model membentuk batas nonlinier untuk membedakan kelompok data dengan lebih akurat. Ketika titik data tidak dapat diklasifikasikan secara akurat dengan garis lurus, fungsi aktivasi memberikan fleksibilitas yang memungkinkan model membentuk divisi yang lebih kompleks.

Neural networks tanpa aktivasi pada dasarnya adalah model regresi linier.

Cara memilih model dasar yang tepat

Pelajari cara memilih pendekatan yang tepat dalam mempersiapkan kumpulan data dan menggunakan model dasar.

Sumber daya

Mencapai ROI: Agen AI dalam Bisnis Anda

Bergabunglah dengan IBM untuk webinar di mana kami mendemonstrasikan cara menemukan ROI nyata melalui inisiatif AI agen, dengan contoh penggunaan di seluruh industri, kasus, dan bahkan kisah sukses IBM sendiri.

IBM dinobatkan sebagai Pemimpin dalam Ilmu Data & Machine Learning

Pelajari alasan IBM diakui sebagai Pemimpin dalam Gartner® Magic Quadrant™ 2025 untuk Ilmu Data dan Platform Machine Learning.

Dari proyek AI hingga keuntungan: Bagaimana AI agen dapat mempertahankan pengembalian keuangan

Pelajari bagaimana organisasi beralih dari meluncurkan AI dalam uji coba yang berbeda menjadi menggunakannya untuk mendorong transformasi pada intinya.

Tingkatkan keahlian AI Anda

Akses katalog lengkap kami yang terdiri dari lebih dari 100 kursus online dengan membeli langganan individu atau multi-pengguna hari ini, yang memungkinkan Anda untuk memperluas keterampilan Anda di berbagai produk kami dengan harga murah.

Jelajahi IBM Granite

IBM® Granite adalah rangkaian model AI terbuka, berkinerja, dan tepercaya yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.

IBM AI Academy

Dipandu oleh pemimpin terkemuka IBM, kurikulum dirancang untuk membantu pemimpin bisnis dalam mendapatkan pengetahuan yang diperlukan demi memprioritaskan investasi AI untuk mendorong pertumbuhan.

Cara Kerja AI 2024

Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara agar Anda sukses menerapkannya.

Panduan CEO 2025: 5 perubahan pikiran untuk meningkatkan pertumbuhan bisnis

Terapkan lima pola pikir ini untuk menghadapi ketidakpastian, mendorong transformasi bisnis, dan mempercepat pertumbuhan dengan bantuan AI agen.

Buka kekuatan AI generatif dan ML

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Cara berkembang di era baru AI ini dengan kepercayaan dan keyakinan

Pelajari tiga elemen penting dari strategi AI yang kuat: menciptakan keunggulan kompetitif, meningkatkan skala AI di seluruh bisnis, dan mengembangkan AI yang tepercaya.

Solusi terkait

IBM® watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Jelajahi watsonx.ai

Solusi kecerdasan buatan (AI)

Manfaatkan AI di bisnis Anda dengan perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI

Konsultasi dan layanan kecerdasan buatan (AI)

Layanan IBM Consulting AI membantu merancang ulang cara kerja bisnis dengan AI untuk transformasi.

Jelajahi layanan AI

Ambil langkah selanjutnya

Dapatkan akses ke berbagai kemampuan dalam satu alat untuk seluruh siklus pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai

Pesan demo langsung

Apa itu penyetelan model?

Penyusun

Apa itu penyetelan model?

Berita + Insight AI terbaru

Apa itu hyperparameter?

Hiperparameter versus parameter model

Mengapa penyetelan model penting?

Overfitting

Bias

Varians

Decoding AI: Rangkuman Berita Mingguan

Bagaimana cara kerja penyetelan model?

Metode penyetelan model

Pencarian grid

Pencarian acak

Optimalisasi Bayesian

Hyperband

Penyetelan model versus pelatihan model

Validasi silang, pengujian, dan pelatihan ulang

Penyetelan model versus penyempurnaan

Contoh hyperparameter

Tingkat pembelajaran

Peluruhan laju pembelajaran

Epochs

Ukuran batch

Momentum

Jumlah lapisan tersembunyi

Node per lapisan

Fungsi aktivasi

Share

Sumber daya

Berita + Insight AI terbaru