Penyetelan model adalah proses mengoptimalkan hiperparameter pada model machine learning untuk mencapai kinerja terbaik. Proses ini melibatkan penyesuaian hiperparameter hingga nilai optimal ditemukan, yang menghasilkan peningkatan akurasi, kualitas hasil, dan metrik kinerja lainnya.
Karena penyetelan model bertujuan untuk menemukan hiperparameter optimal, proses ini juga dikenal sebagai optimasi hiperparameter, atau sebagai alternatif, penyetelan hiperparameter.
Hiperparameter adalah variabel konfigurasi model yang nilainya tidak dapat ditentukan langsung dari data pelatihan. Berbagai variabel ini menentukan fitur utama dan cara model berperilaku selama pelatihan. Beberapa hiperparameter, seperti tingkat pembelajaran, mengatur bagaimana model berperilaku selama proses pelatihan. Hiperparameter lainnya menentukan sifat model itu sendiri, seperti yang mengatur jumlah lapisan dalam neural networks.
Ilmuwan data harus mengonfigurasi nilai hiperparameter model machine learning (ML) sebelum memulai pelatihan. Memilih kombinasi hiperparameter yang tepat sebelumnya sangat penting untuk memastikan keberhasilan pelatihan model ML.
Parameter model, atau bobot model, adalah variabel yang dipelajari oleh model kecerdasan buatan (AI) selama proses pelatihan. Algoritma AI mempelajari hubungan, pola, dan distribusi dalam kumpulan data pelatihan, kemudian menerapkan temuan tersebut pada data baru untuk membuat prediksi yang akurat.
Saat algoritma machine learning menjalani pelatihan, ia menetapkan dan memperbarui parameter-parameter yang diperlukan untuk meningkatkan kinerjanya. Parameter ini menggambarkan apa yang dipelajari model dari kumpulan data pelatihan dan berubah seiring waktu melalui setiap iterasi algoritma optimisasi.
Penyetelan model sangat penting karena nilai hiperparameter secara langsung memengaruhi kinerja model. Konfigurasi hiperparameter yang tepat membantu model belajar lebih efektif selama pelatihan.
Tanpa penyetelan yang tepat, model dapat mengalami overfitting— kondisi di mana model terlalu menyesuaikan diri dengan data pelatihan dan kesulitan beradaptasi dengan kumpulan data baru. Kekurangan lainnya dapat mencakup bias atau varians model yang berlebihan.
Setiap algoritma machine learning memiliki kombinasi hiperparameter yang optimal, di mana beberapa memiliki dampak lebih besar terhadap kinerja dibandingkan yang lain. Dengan fokus pada penyetelan hiperparameter yang paling berpengaruh, proses optimasi dapat dilakukan lebih efisien, menghemat waktu serta sumber daya komputasi.
Overfitting terjadi ketika model terlalu kompleks untuk data pelatihannya. Hiperparameter yang digunakan membuat neural networks memiliki terlalu banyak lapisan atau parameter yang dapat dilatih. Akibatnya, model menyesuaikan diri terlalu erat dengan kumpulan data pelatihannya. Model yang terlalu pas ini kesulitan beradaptasi dengan data baru karena gagal menggeneralisasi dari data pelatihan.
Bayangkan dua siswa di ruang kelas. Satu siswa belajar dengan menghafal fakta, sementara yang lain berfokus pada pemahaman konsep dasar yang diajarkan. Sejauh ini, keduanya telah berkinerja baik pada tes yang mencakup materi yang sudah diajarkan. Namun, apa yang terjadi ketika mereka harus menerapkan pembelajaran mereka pada topik baru?
Siswa yang dapat menggeneralisasi akan berhasil mentransfer apa yang telah mereka pelajari, sementara siswa yang mengandalkan ingatan mungkin akan kesulitan melakukan hal yang sama. Mereka telah "terlalu menyesuaikan" pemahaman mereka terlalu dekat dengan konten kelas yang spesifik sementara gagal memahami prinsip-prinsip inti.
Bias adalah perbedaan antara prediksi model dan hasil sebenarnya di dunia nyata. Bias dapat disebabkan oleh kumpulan data yang tidak representatif, tetapi juga bisa terjadi akibat penyetelan model yang kurang optimal—di mana model gagal belajar secara efektif, meskipun data pelatihannya berkualitas.
Model dengan bias tinggi cenderung mengabaikan pola kompleks dalam data pelatihan, sehingga berisiko menghasilkan prediksi yang tidak akurat bahkan selama proses pelatihan. Algoritma yang lebih sederhana, seperti regresi linier, cenderung memiliki bias tinggi karena keterbatasannya dalam menangkap pola kompleks dalam data pelatihan.
Memilih algoritma yang sesuai untuk suatu tugas merupakan langkah awal yang krusial dalam memastikan kinerja optimal, bahkan sebelum proses penyetelan model dilakukan.
Varians secara terbalik menggambarkan konsistensi prediksi model. Varians tinggi menunjukkan bahwa model cenderung memberikan prediksi yang tidak konsisten saat digunakan pada data baru, meskipun performanya baik pada kumpulan data pelatihan. Model dengan varians tinggi cenderung mengalami overfitting—yaitu ketika model terlalu menyesuaikan diri dengan data pelatihan sehingga gagal menggeneralisasi pola yang sama pada data baru.
Regularisasi adalah teknik yang mengurangi overfitting dengan menyeimbangkan bias dan varians–sehingga model lebih generalis terhadap data baru. Penyetelan model yang efektif mengatur keseimbangan antara bias dan varians untuk menghasilkan prediksi yang optimal di dunia nyata.
Penyetelan model dilakukan dengan mencari konfigurasi hiperparameter yang membuahkan hasil pelatihan terbaik. Dalam beberapa kasus, terutama saat membangun model yang lebih kecil dan sederhana, ilmuwan data dapat mengatur hiperparameter secara manual sebelum pelatihan. Namun, transformer dan model kompleks lainnya dapat memiliki ribuan kombinasi hiperparameter yang mungkin.
Dengan begitu banyak kemungkinan, ilmuwan data dapat mempersempit ruang pencarian hiperparameter untuk fokus pada kombinasi yang paling berpotensi menghasilkan hasil optimal. Mereka juga dapat menerapkan metode otomatis untuk secara algoritmik mengidentifikasi hiperparameter optimal sesuai dengan contoh penggunaan yang diinginkan.
Metode penyetelan model yang paling umum meliputi:
Pencarian grid
Pencarian acak
Optimalisasi Bayesian
Hyperband
Pencarian grid adalah metode penyetelan model yang menggunakan pendekatan "brute force". Ilmuwan data membuat ruang pencarian yang mencakup semua nilai hiperparameter yang mungkin. Algoritma pencarian grid kemudian menghasilkan semua kombinasi hiperparameter yang ada. Model dilatih dan divalidasi untuk setiap kombinasi hiperparameter, dan model dengan kinerja terbaik dipilih untuk digunakan.
Karena menguji semua kemungkinan nilai hiperparameter, bukan hanya subset tertentu, pencarian grid adalah metode penyetelan yang komprehensif. Kelemahan dari cakupan yang luas ini adalah pencarian grid membutuhkan waktu dan sumber daya komputasi yang besar.
Alih-alih menguji setiap kemungkinan konfigurasi hiperparameter, algoritma pencarian acak memilih nilai hiperparameter secara acak dari distribusi statistik yang telah ditentukan. Ilmuwan data mengidentifikasi dan mengumpulkan nilai hiperparameter yang paling potensial, meningkatkan kemungkinan algoritma memilih pilihan yang optimal.
Pencarian acak lebih cepat dan lebih sederhana untuk diimplementasikan dibandingkan dengan pencarian grid. Namun, karena tidak semua kombinasi diuji, metode ini tidak menjamin menemukan konfigurasi hiperparameter yang paling optimal.
Berbeda dengan pencarian grid dan acak, optimasi Bayesian menentukan nilai hiperparameter dengan mempertimbangkan hasil dari percobaan sebelumnya. Algoritma ini menganalisis hasil pengujian dari nilai hiperparameter sebelumnya untuk memperkirakan nilai yang paling mungkin menghasilkan kinerja yang lebih baik.
Optimasi Bayesian berfungsi dengan membangun model probabilistik untuk memperkirakan fungsi objektif. Fungsi pengganti ini menjadi semakin efisien seiring waktu karena hasilnya terus membaik—Hal ini menghindari pemborosan sumber daya pada nilai hiperparameter yang kurang optimal sambil terus mencari konfigurasi terbaik.
Teknik yang mengoptimalkan model dengan memanfaatkan hasil dari pengujian sebelumnya dikenal sebagai pengoptimalan berbasis model berurutan (SMBO).
Hyperband mengoptimalkan alur kerja pencarian acak dengan memprioritaskan konfigurasi hiperparameter yang menjanjikan sekaligus menghentikan pencarian pada konfigurasi yang kurang potensial. Dalam setiap iterasi pengujian, algoritma hyperband mengeliminasi setengah dari konfigurasi dengan kinerja terendah di antara semua yang diuji.
Pendekatan "successive halving" dalam Hyperband secara bertahap menyaring konfigurasi, mempertahankan hanya yang paling menjanjikan hingga akhirnya menemukan yang terbaik dari kumpulan kandidat awal.
Penyetelan model berfokus pada pencarian hiperparameter optimal, sementara pelatihan model adalah proses di mana machine learning mempelajari pola dari kumpulan data pelatihan untuk menghasilkan prediksi yang akurat pada data baru.
Proses pelatihan menggunakan algoritma optimasi untuk meminimalkan fungsi kerugian atau fungsi objektif, yang mengukur selisih antara prediksi model dan nilai sebenarnya. Tujuan utama adalah menemukan kombinasi optimal antara bobot dan bias model guna meminimalkan nilai fungsi objektif. Algoritma pengoptimalan memperbarui bobot model secara berkala selama pelatihan.
Keluarga algoritma pengoptimalan penurunan gradien bekerja dengan menurunkan gradien fungsi kerugian untuk menemukan titik minimum, yaitu kondisi di mana model mencapai akurasi tertinggi. Minimum lokal adalah nilai minimum di wilayah tertentu, tetapi mungkin bukan minimum global fungsi—nilai terendah absolut.
Tidak selalu perlu untuk mengidentifikasi minimum global fungsi kerugian. Suatu model dikatakan telah mencapai konvergensi apabila fungsi kerugiannya berhasil diminimalkan.
Setelah pelatihan, model menjalani validasi silang—yaitu memeriksa hasil pelatihan dengan bagian lain dari data pelatihan. Prediksi model dibandingkan dengan nilai aktual dari data validasi. Model dengan kinerja terbaik kemudian melanjutkan ke tahap pengujian, di mana prediksinya diperiksa lagi untuk memastikan keakuratannya sebelum diterapkan. Validasi silang dan pengujian sangat penting untuk evaluasi model bahasa besar (LLM).
Pelatihan ulang adalah bagian dari siklus hidup AI dalam MLOps (operasi machine learning) yang memungkinkan model untuk terus diperbarui secara otomatis, sehingga tetap berkinerja optimal seiring waktu.
Penyetelan model mengidentifikasi nilai hiperparameter terbaik untuk pelatihan, sedangkan fine-tuning adalah proses mengutak-atik model dasar yang telah dilatih sebelumnya untuk tugas-tugas hilir tertentu. Fine-tuning adalah jenis pembelajaran transfer—ketika pembelajaran model yang sudah ada sebelumnya disesuaikan dengan tugas-tugas baru.
Dalam fine-tuning, model yang telah dilatih sebelumnya dilatih ulang menggunakan kumpulan data yang lebih kecil dan spesifik, yang disesuaikan dengan contoh penggunaan tertentu. Pada awalnya, melatih model pada kumpulan data kecil berisiko mengalami overfitting, tetapi melatih dengan kumpulan data yang besar dan umum dapat membantu mengurangi risiko tersebut.
Meskipun setiap algoritma memiliki kumpulan hiperparameter-nya sendiri, banyak di antaranya bersifat umum dan digunakan pada algoritma serupa. Hiperparameter yang umum digunakan dalam neural networks untuk mendukung model bahasa besar (LLM) antara lain:
Tingkat pembelajaran
Peluruhan laju pembelajaran
Epochs
Ukuran batch
Momentum
Jumlah lapisan tersembunyi
Node per lapisan
Fungsi aktivasi
Tingkat pembelajaran mengontrol seberapa besar perubahan bobot model dalam setiap iterasi pelatihan. Tingkat pembelajaran yang lebih tinggi memungkinkan model belajar lebih cepat, tetapi juga meningkatkan risiko melewati titik minimum lokal pada fungsi kerugian. Sementara itu, tingkat pembelajaran yang rendah dapat menyebabkan waktu pelatihan yang berlebihan, meningkatkan sumber daya dan tuntutan biaya.
Peluruhan laju pembelajaran adalah hiperparameter yang memperlambat laju pembelajaran algoritma ML dari waktu ke waktu. Model ini memperbarui parameternya dengan lebih cepat pada awalnya, kemudian dengan nuansa yang lebih besar saat mendekati konvergensi, sehingga mengurangi risiko overshoot.
Pelatihan model dilakukan dengan mengekspos model pada data pelatihan secara berulang memperbarui bobotnya. Sebuah epoch terjadi setiap kali model memproses seluruh kumpulan data pelatihan, sementara hiperparameter epoch menentukan jumlah total iterasi dalam proses pelatihan.
Algoritma machine learning tidak selalu memproses seluruh kumpulan data pelatihan dalam setiap iterasi proses optimasi. Sebagai gantinya, kumpulan data pelatihan dibagi menjadi beberapa batch, di mana bobot model diperbarui pada setiap batch. Ukuran batch mengacu kepada jumlah sampel data yang diproses dalam setiap batch.
Momentum adalah kecenderungan algoritma ML untuk memperbarui bobotnya ke arah yang sama dengan pembaruan sebelumnya. Bayangkan momentum sebagai keyakinan algoritma terhadap proses pembelajarannya. Momentum yang tinggi membantu algoritma mencapai konvergensi lebih cepat, namun dengan risiko melewati minimum lokal yang penting. Sebaliknya, momentum rendah dapat menyebabkan algoritma bergerak bolak-balik dengan pembaruannya, sehingga menghambat kemajuan.
Neural networks meniru struktur otak manusia dengan terdiri atas beberapa lapisan neuron atau node yang saling terhubung. Kompleksitas ini memungkinkan model canggih, seperti transformator, untuk menangani tugas-tugas generatif yang rumit. Model dengan lebih sedikit lapisan lebih sederhana dan efisien, sementara model dengan lebih banyak lapisan dapat menangani tugas yang lebih kompleks.
Setiap lapisan dalam neural networks memiliki jumlah node yang telah ditetapkan sebelumnya. Semakin banyak node dalam suatu lapisan, semakin baik model dalam menangkap hubungan kompleks antar data. Namun, ini juga meningkatkan kebutuhan komputasi.
Fungsi aktivasi adalah hiperparameter yang memungkinkan model membentuk batas nonlinier untuk membedakan kelompok data dengan lebih akurat. Ketika titik data tidak dapat diklasifikasikan secara akurat dengan garis lurus, fungsi aktivasi memberikan fleksibilitas yang memungkinkan model membentuk divisi yang lebih kompleks.
Neural networks tanpa aktivasi pada dasarnya adalah model regresi linier.
Kami menyurvei 2.000 organisasi tentang inisiatif AI mereka untuk mengetahui apa yang berhasil, apa yang tidak, dan cara Anda untuk maju.
IBM Granite adalah rangkaian model AI kami yang terbuka, berkinerja, dan tepercaya, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.
Akses katalog lengkap kami yang terdiri dari lebih dari 100 kursus online dengan membeli langganan individu atau multi-pengguna hari ini, memungkinkan Anda untuk memperluas keterampilan Anda di berbagai produk kami dengan satu harga murah.
Dipandu oleh pemimpin terkemuka IBM, kurikulumnya dirancang untuk membantu pemimpin bisnis dalam mendapatkan pengetahuan yang diperlukan untuk memprioritaskan investasi AI yang dapat mendorong pertumbuhan.
Ingin mendapatkan laba yang lebih baik atas investasi AI Anda? Pelajari bagaimana meningkatkan AI gen di berbagai bidang utama mendorong perubahan dengan membantu para pemikir terbaik Anda membangun dan memberikan solusi baru yang inovatif.
Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.
Selami 3 elemen penting dari strategi AI yang kuat: menciptakan keunggulan kompetitif, meningkatkan skala AI di seluruh bisnis, dan memajukan AI yang dapat dipercaya.