Apa itu penyetelan model?

21 Januari 2025

Penyusun

Ivan Belcic

Staff writer

Cole Stryker

Editorial Lead, AI Models, Gather

Apa itu penyetelan model?

Penyetelan model adalah proses mengoptimalkan hiperparameter pada model machine learning untuk mencapai kinerja terbaik. Proses ini melibatkan penyesuaian hiperparameter hingga nilai optimal ditemukan, yang menghasilkan peningkatan akurasi, kualitas hasil, dan metrik kinerja lainnya.

Karena penyetelan model bertujuan untuk menemukan hiperparameter optimal, proses ini juga dikenal sebagai optimasi hiperparameter, atau sebagai alternatif, penyetelan hiperparameter.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Apa itu hyperparameter?

Hiperparameter adalah variabel konfigurasi model yang nilainya tidak dapat ditentukan langsung dari data pelatihan. Berbagai variabel ini menentukan fitur utama dan cara model berperilaku selama pelatihan. Beberapa hiperparameter, seperti tingkat pembelajaran, mengatur bagaimana model berperilaku selama proses pelatihan. Hiperparameter lainnya menentukan sifat model itu sendiri, seperti yang mengatur jumlah lapisan dalam neural networks.

Ilmuwan data harus mengonfigurasi nilai hiperparameter model machine learning (ML) sebelum memulai pelatihan. Memilih kombinasi hiperparameter yang tepat sebelumnya sangat penting untuk memastikan keberhasilan pelatihan model ML.

Hiperparameter versus parameter model

Parameter model, atau bobot model, adalah variabel yang dipelajari oleh model kecerdasan buatan (AI) selama proses pelatihan. Algoritma AI mempelajari hubungan, pola, dan distribusi dalam kumpulan data pelatihan, kemudian menerapkan temuan tersebut pada data baru untuk membuat prediksi yang akurat.

Saat algoritma machine learning menjalani pelatihan, ia menetapkan dan memperbarui parameter-parameter yang diperlukan untuk meningkatkan kinerjanya. Parameter ini menggambarkan apa yang dipelajari model dari kumpulan data pelatihan dan berubah seiring waktu melalui setiap iterasi algoritma optimisasi.

Mengapa penyetelan model penting?

Penyetelan model sangat penting karena nilai hiperparameter secara langsung memengaruhi kinerja model. Konfigurasi hiperparameter yang tepat membantu model belajar lebih efektif selama pelatihan.

Tanpa penyetelan yang tepat, model dapat mengalami overfitting— kondisi di mana model terlalu menyesuaikan diri dengan data pelatihan dan kesulitan beradaptasi dengan kumpulan data baru. Kekurangan lainnya dapat mencakup bias atau varians model yang berlebihan.

Setiap algoritma machine learning memiliki kombinasi hiperparameter yang optimal, di mana beberapa memiliki dampak lebih besar terhadap kinerja dibandingkan yang lain. Dengan fokus pada penyetelan hiperparameter yang paling berpengaruh, proses optimasi dapat dilakukan lebih efisien, menghemat waktu serta sumber daya komputasi.

      Overfitting

      Overfitting terjadi ketika model terlalu kompleks untuk data pelatihannya. Hiperparameter yang digunakan membuat neural networks memiliki terlalu banyak lapisan atau parameter yang dapat dilatih. Akibatnya, model menyesuaikan diri terlalu erat dengan kumpulan data pelatihannya. Model yang terlalu pas ini kesulitan beradaptasi dengan data baru karena gagal menggeneralisasi dari data pelatihan.

      Bayangkan dua siswa di ruang kelas. Satu siswa belajar dengan menghafal fakta, sementara yang lain berfokus pada pemahaman konsep dasar yang diajarkan. Sejauh ini, keduanya telah berkinerja baik pada tes yang mencakup materi yang sudah diajarkan. Namun, apa yang terjadi ketika mereka harus menerapkan pembelajaran mereka pada topik baru?

      Siswa yang dapat menggeneralisasi akan berhasil mentransfer apa yang telah mereka pelajari, sementara siswa yang mengandalkan ingatan mungkin akan kesulitan melakukan hal yang sama. Mereka telah "terlalu menyesuaikan" pemahaman mereka terlalu dekat dengan konten kelas yang spesifik sementara gagal memahami prinsip-prinsip inti.

      Bias

      Bias adalah perbedaan antara prediksi model dan hasil sebenarnya di dunia nyata. Bias dapat disebabkan oleh kumpulan data yang tidak representatif, tetapi juga bisa terjadi akibat penyetelan model yang kurang optimal—di mana model gagal belajar secara efektif, meskipun data pelatihannya berkualitas.

      Model dengan bias tinggi cenderung mengabaikan pola kompleks dalam data pelatihan, sehingga berisiko menghasilkan prediksi yang tidak akurat bahkan selama proses pelatihan. Algoritma yang lebih sederhana, seperti regresi linier, cenderung memiliki bias tinggi karena keterbatasannya dalam menangkap pola kompleks dalam data pelatihan.

      Memilih algoritma yang sesuai untuk suatu tugas merupakan langkah awal yang krusial dalam memastikan kinerja optimal, bahkan sebelum proses penyetelan model dilakukan.

      Varians

      Varians secara terbalik menggambarkan konsistensi prediksi model. Varians tinggi menunjukkan bahwa model cenderung memberikan prediksi yang tidak konsisten saat digunakan pada data baru, meskipun performanya baik pada kumpulan data pelatihan. Model dengan varians tinggi cenderung mengalami overfitting—yaitu ketika model terlalu menyesuaikan diri dengan data pelatihan sehingga gagal menggeneralisasi pola yang sama pada data baru.

      Regularisasi adalah teknik yang mengurangi overfitting dengan menyeimbangkan bias dan varians–sehingga model lebih generalis terhadap data baru. Penyetelan model yang efektif mengatur keseimbangan antara bias dan varians untuk menghasilkan prediksi yang optimal di dunia nyata.

      Mixture of Experts | Podcast

      Decoding AI: Rangkuman Berita Mingguan

      Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

      Bagaimana cara kerja penyetelan model?

      Penyetelan model dilakukan dengan mencari konfigurasi hiperparameter yang membuahkan hasil pelatihan terbaik. Dalam beberapa kasus, terutama saat membangun model yang lebih kecil dan sederhana, ilmuwan data dapat mengatur hiperparameter secara manual sebelum pelatihan. Namun, transformer dan model kompleks lainnya dapat memiliki ribuan kombinasi hiperparameter yang mungkin.

      Dengan begitu banyak kemungkinan, ilmuwan data dapat mempersempit ruang pencarian hiperparameter untuk fokus pada kombinasi yang paling berpotensi menghasilkan hasil optimal. Mereka juga dapat menerapkan metode otomatis untuk secara algoritmik mengidentifikasi hiperparameter optimal sesuai dengan contoh penggunaan yang diinginkan.

        Metode penyetelan model

        Metode penyetelan model yang paling umum meliputi:

        • Pencarian grid

        • Pencarian acak

        • Optimalisasi Bayesian

        • Hyperband

        Pencarian grid

        Pencarian grid adalah metode penyetelan model yang menggunakan pendekatan "brute force". Ilmuwan data membuat ruang pencarian yang mencakup semua nilai hiperparameter yang mungkin. Algoritma pencarian grid kemudian menghasilkan semua kombinasi hiperparameter yang ada. Model dilatih dan divalidasi untuk setiap kombinasi hiperparameter, dan model dengan kinerja terbaik dipilih untuk digunakan.

        Karena menguji semua kemungkinan nilai hiperparameter, bukan hanya subset tertentu, pencarian grid adalah metode penyetelan yang komprehensif. Kelemahan dari cakupan yang luas ini adalah pencarian grid membutuhkan waktu dan sumber daya komputasi yang besar.

          Pencarian acak

          Alih-alih menguji setiap kemungkinan konfigurasi hiperparameter, algoritma pencarian acak memilih nilai hiperparameter secara acak dari distribusi statistik yang telah ditentukan. Ilmuwan data mengidentifikasi dan mengumpulkan nilai hiperparameter yang paling potensial, meningkatkan kemungkinan algoritma memilih pilihan yang optimal.

          Pencarian acak lebih cepat dan lebih sederhana untuk diimplementasikan dibandingkan dengan pencarian grid. Namun, karena tidak semua kombinasi diuji, metode ini tidak menjamin menemukan konfigurasi hiperparameter yang paling optimal.

          Optimalisasi Bayesian

          Berbeda dengan pencarian grid dan acak, optimasi Bayesian menentukan nilai hiperparameter dengan mempertimbangkan hasil dari percobaan sebelumnya. Algoritma ini menganalisis hasil pengujian dari nilai hiperparameter sebelumnya untuk memperkirakan nilai yang paling mungkin menghasilkan kinerja yang lebih baik.

          Optimasi Bayesian berfungsi dengan membangun model probabilistik untuk memperkirakan fungsi objektif. Fungsi pengganti ini menjadi semakin efisien seiring waktu karena hasilnya terus membaik—Hal ini menghindari pemborosan sumber daya pada nilai hiperparameter yang kurang optimal sambil terus mencari konfigurasi terbaik.

          Teknik yang mengoptimalkan model dengan memanfaatkan hasil dari pengujian sebelumnya dikenal sebagai pengoptimalan berbasis model berurutan (SMBO).

            Hyperband

            Hyperband mengoptimalkan alur kerja pencarian acak dengan memprioritaskan konfigurasi hiperparameter yang menjanjikan sekaligus menghentikan pencarian pada konfigurasi yang kurang potensial. Dalam setiap iterasi pengujian, algoritma hyperband mengeliminasi setengah dari konfigurasi dengan kinerja terendah di antara semua yang diuji.

            Pendekatan "successive halving" dalam Hyperband secara bertahap menyaring konfigurasi, mempertahankan hanya yang paling menjanjikan hingga akhirnya menemukan yang terbaik dari kumpulan kandidat awal.

            Penyetelan model versus pelatihan model

            Penyetelan model berfokus pada pencarian hiperparameter optimal, sementara pelatihan model adalah proses di mana machine learning mempelajari pola dari kumpulan data pelatihan untuk menghasilkan prediksi yang akurat pada data baru.

            Proses pelatihan menggunakan algoritma optimasi untuk meminimalkan fungsi kerugian atau fungsi objektif, yang mengukur selisih antara prediksi model dan nilai sebenarnya. Tujuan utama adalah menemukan kombinasi optimal antara bobot dan bias model guna meminimalkan nilai fungsi objektif. Algoritma pengoptimalan memperbarui bobot model secara berkala selama pelatihan.

            Keluarga algoritma pengoptimalan penurunan gradien bekerja dengan menurunkan gradien fungsi kerugian untuk menemukan titik minimum, yaitu kondisi di mana model mencapai akurasi tertinggi. Minimum lokal adalah nilai minimum di wilayah tertentu, tetapi mungkin bukan minimum global fungsi—nilai terendah absolut.

            Tidak selalu perlu untuk mengidentifikasi minimum global fungsi kerugian. Suatu model dikatakan telah mencapai konvergensi apabila fungsi kerugiannya berhasil diminimalkan.

            Validasi silang, pengujian, dan pelatihan ulang

            Setelah pelatihan, model menjalani validasi silang—yaitu memeriksa hasil pelatihan dengan bagian lain dari data pelatihan. Prediksi model dibandingkan dengan nilai aktual dari data validasi. Model dengan kinerja terbaik kemudian melanjutkan ke tahap pengujian, di mana prediksinya diperiksa lagi untuk memastikan keakuratannya sebelum diterapkan. Validasi silang dan pengujian sangat penting untuk evaluasi model bahasa besar (LLM).

            Pelatihan ulang adalah bagian dari siklus hidup AI dalam MLOps (operasi machine learning) yang memungkinkan model untuk terus diperbarui secara otomatis, sehingga tetap berkinerja optimal seiring waktu.

            Penyetelan model versus penyempurnaan

            Penyetelan model mengidentifikasi nilai hiperparameter terbaik untuk pelatihan, sedangkan fine-tuning adalah proses mengutak-atik model dasar yang telah dilatih sebelumnya untuk tugas-tugas hilir tertentu. Fine-tuning adalah jenis pembelajaran transfer—ketika pembelajaran model yang sudah ada sebelumnya disesuaikan dengan tugas-tugas baru.

            Dalam fine-tuning, model yang telah dilatih sebelumnya dilatih ulang menggunakan kumpulan data yang lebih kecil dan spesifik, yang disesuaikan dengan contoh penggunaan tertentu. Pada awalnya, melatih model pada kumpulan data kecil berisiko mengalami overfitting, tetapi melatih dengan kumpulan data yang besar dan umum dapat membantu mengurangi risiko tersebut.

            Contoh hyperparameter

            Meskipun setiap algoritma memiliki kumpulan hiperparameter-nya sendiri, banyak di antaranya bersifat umum dan digunakan pada algoritma serupa. Hiperparameter yang umum digunakan dalam neural networks untuk mendukung model bahasa besar (LLM) antara lain:

            • Tingkat pembelajaran

            • Peluruhan laju pembelajaran

            • Epochs

            • Ukuran batch

            • Momentum

            • Jumlah lapisan tersembunyi

            • Node per lapisan

            • Fungsi aktivasi

            Tingkat pembelajaran

            Tingkat pembelajaran mengontrol seberapa besar perubahan bobot model dalam setiap iterasi pelatihan. Tingkat pembelajaran yang lebih tinggi memungkinkan model belajar lebih cepat, tetapi juga meningkatkan risiko melewati titik minimum lokal pada fungsi kerugian. Sementara itu, tingkat pembelajaran yang rendah dapat menyebabkan waktu pelatihan yang berlebihan, meningkatkan sumber daya dan tuntutan biaya.

            Peluruhan laju pembelajaran

            Peluruhan laju pembelajaran adalah hiperparameter yang memperlambat laju pembelajaran algoritma ML dari waktu ke waktu. Model ini memperbarui parameternya dengan lebih cepat pada awalnya, kemudian dengan nuansa yang lebih besar saat mendekati konvergensi, sehingga mengurangi risiko overshoot.

            Epochs

            Pelatihan model dilakukan dengan mengekspos model pada data pelatihan secara berulang memperbarui bobotnya. Sebuah epoch terjadi setiap kali model memproses seluruh kumpulan data pelatihan, sementara hiperparameter epoch menentukan jumlah total iterasi dalam proses pelatihan.

            Ukuran batch

            Algoritma machine learning tidak selalu memproses seluruh kumpulan data pelatihan dalam setiap iterasi proses optimasi. Sebagai gantinya, kumpulan data pelatihan dibagi menjadi beberapa batch, di mana bobot model diperbarui pada setiap batch. Ukuran batch mengacu kepada jumlah sampel data yang diproses dalam setiap batch.

            Momentum

            Momentum adalah kecenderungan algoritma ML untuk memperbarui bobotnya ke arah yang sama dengan pembaruan sebelumnya. Bayangkan momentum sebagai keyakinan algoritma terhadap proses pembelajarannya. Momentum yang tinggi membantu algoritma mencapai konvergensi lebih cepat, namun dengan risiko melewati minimum lokal yang penting. Sebaliknya, momentum rendah dapat menyebabkan algoritma bergerak bolak-balik dengan pembaruannya, sehingga menghambat kemajuan.

            Jumlah lapisan tersembunyi

            Neural networks meniru struktur otak manusia dengan terdiri atas beberapa lapisan neuron atau node yang saling terhubung. Kompleksitas ini memungkinkan model canggih, seperti transformator, untuk menangani tugas-tugas generatif yang rumit. Model dengan lebih sedikit lapisan lebih sederhana dan efisien, sementara model dengan lebih banyak lapisan dapat menangani tugas yang lebih kompleks.

            Node per lapisan

            Setiap lapisan dalam neural networks memiliki jumlah node yang telah ditetapkan sebelumnya. Semakin banyak node dalam suatu lapisan, semakin baik model dalam menangkap hubungan kompleks antar data. Namun, ini juga meningkatkan kebutuhan komputasi.

            Fungsi aktivasi

            Fungsi aktivasi adalah hiperparameter yang memungkinkan model membentuk batas nonlinier untuk membedakan kelompok data dengan lebih akurat. Ketika titik data tidak dapat diklasifikasikan secara akurat dengan garis lurus, fungsi aktivasi memberikan fleksibilitas yang memungkinkan model membentuk divisi yang lebih kompleks.

            Neural networks tanpa aktivasi pada dasarnya adalah model regresi linier.

            Solusi terkait
            IBM watsonx.ai

            Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

            Temukan watsonx.ai
            Solusi kecerdasan buatan (AI)

            Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

            Jelajahi solusi AI
            Konsultasi dan layanan AI

            Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

            Jelajahi layanan AI
            Ambil langkah selanjutnya

            Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

            Jelajahi watsonx.ai Pesan demo langsung