Apa itu Pelatihan Model?

Apa itu pelatihan model?

Pelatihan model adalah proses “mengajari” model machine learning untuk mengoptimalkan kinerja pada kumpulan data tugas sampel yang relevan dengan contoh penggunaan akhir model. Jika data pelatihan sangat mirip dengan masalah dunia nyata yang akan ditangani oleh model, mempelajari pola dan korelasinya akan memungkinkan model yang terlatih untuk membuat prediksi yang akurat pada data baru .

Proses pelatihan adalah langkah paling penting dalam siklus model AI, mulai dari sistem prakiraan yang dibangun di atas algoritme regresi linier dasar hingga neural networks kompleks yang mendukung AI generatif.

Pelatihan model adalah langkah machine learning (ML) di mana “pembelajaran” terjadi. Dalam machine learning, pembelajaran melibatkan penyesuaian parameter model ML. Parameter ini mencakup bobot dan bias dalam fungsi matematika yang membentuk algoritme mereka. Tujuan dari penyesuaian ini adalah untuk menghasilkan output yang lebih akurat. Nilai spesifik untuk bobot dan bias ini, yang merupakan hasil akhir dari pelatihan model, adalah manifestasi nyata dari "pengetahuan" model.

Secara matematis, tujuan dari pembelajaran ini adalah untuk meminimalkan fungsi kerugian yang mengukur kesalahan output model pada permintaan pelatihan. Ketika output dari fungsi kerugian berada di bawah ambang batas yang telah ditentukan sebelumnya—yang berarti kesalahan model pada tugas pelatihan cukup kecil—model dianggap "terlatih". Dalam pembelajaran penguatan, tujuannya dibalik: alih-alih meminimalkan fungsi kerugian, parameter model dioptimalkan untuk memaksimalkan fungsi imbalan.

Dalam praktiknya, pelatihan model memerlukan siklus pengumpulan dan kurasi data, yang menjalankan model pada data pelatihan tersebut, mengukur kerugian, mengoptimalkan parameter yang sesuai, dan menguji kinerja model pada kumpulan data validasi. Alur kerja ini berlangsung secara berulang sampai hasil yang memuaskan telah tercapai. Pelatihan yang memadai mungkin juga memerlukan penyesuaian hyperparameter—pilihan struktural yang memengaruhi proses pembelajaran tetapi tidak dapat dipelajari sendiri—dalam proses yang disebut penyetelan hyperparameter.

Terkadang, model yang sudah terlatih dapat disempurnakan untuk tugas atau domain yang lebih spesifik melalui pembelajaran lebih lanjut tentang data pelatihan baru. Meskipun pelatihan dari nol dan penyempurnaan berikutnya adalah “pelatihan”, tetapi dalam konteks ini, yang pertama biasanya disebut “prapelatihan” (untuk menghindari kerancuan). Fine-tuning atau penyempurnaan adalah salah satu dari beberapa jenis pembelajaran transfer, istilah umum untuk teknik machine learning yang mengadaptasi model pra-terlatih untuk penggunaan baru.

Buletin industri

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Model vs algoritma

Meskipun kata "model" dan "algoritme" sering digunakan secara bergantian dalam bidang kecerdasan buatan, tetapi keduanya tidaklah sama. Perbedaannya utamanya terletak pada hubungan setiap istilah dengan pelatihan model.

Algoritma adalah prosedur, biasanya dijelaskan dalam bahasa matematika atau pseudocode, yang digunakan untuk menghasilkan prediksi atau membuat keputusan berdasarkan input yang diberikan.
Model adalah hasil dari proses mengoptimalkan parameter algoritme untuk meningkatkan kinerjanya pada kumpulan data pelatihan tertentu—dan kemudian pada data baru yang menyerupai contoh pelatihan tersebut. Dalam istilah ilmu data, proses ini disebut “menyesuaikan” algoritme dengan kumpulan data.

Dalam hal lain, model AI digunakan untuk membuat prediksi atau keputusan, dan algoritme adalah logika matematis yang digunakan oleh model tersebut. Dua model dapat menggunakan algoritme dasar yang sama, tetapi memiliki nilai yang berbeda untuk bobot dan bias di dalam algoritme tersebut karena keduanya dilatih dengan data yang berbeda.

Pembelajaran mendalam adalah bagian dari machine learning yang modelnya adalah neural networks dengan banyak lapisan—dan oleh karena itu bersifat "dalam"—bukan algoritme yang dirancang secara eksplisit seperti regresi logistik atau Naïve Bayes. Dua model pembelajaran mendalam mungkin memiliki struktur yang sama, seperti autoencoder standar, tetapi berbeda dalam jumlah lapisan, jumlah neuron per lapisan atau fungsi aktivasi setiap neuron.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Jenis-jenis pelatihan model

Dalam sebagian besar konteks, pelatihan hampir identik dengan pembelajaran: seorang ilmuwan data melatih; model belajar. Pembelajaran memerlukan penyesuaian parameter algoritme machine learning sampai output model yang dihasilkan memenuhi beberapa metrik akurasi atau kegunaan. Pelatihan memerlukan pengumpulan data pelatihan dan penyetelan hyperparameter—seperti memilih fungsi kerugian, mengatur tingkat pembaruan parameter atau mengubah arsitektur neural networks—untuk memfasilitasi pembelajaran tersebut.

Model AI biasanya dikategorikan sebagai salah satu dari tiga paradigma machine learning yang berbeda: pembelajaran yang diawasi , pembelajaran tanpa pengawasan, atau pembelajaran penguatan. Setiap jenis machine learning memiliki contoh penggunaan yang unik, hyperparameter, algoritme, dan proses pelatihan.

Pembelajaran yang diawasi digunakan ketika model dilatih untuk memprediksi output “benar” untuk input. Ini berlaku untuk tugas-tugas yang memerlukan beberapa tingkat akurasi relatif terhadap beberapa “kebenaran dasar” eksternal, seperti klasifikasi atau regresi.

Pembelajaran tanpa pengawasan digunakan ketika model dilatih untuk melihat pola intrinsik dan korelasi dalam data. Tidak seperti pembelajaran yang diawasi, pembelajaran tanpa pengawasan tidak mengasumsikan adanya kebenaran dasar eksternal yang harus dibandingkan dengan output.

Pembelajaran penguatan digunakan ketika model dilatih untuk mengevaluasi lingkungannya dan mengambil tindakan yang akan mendapatkan imbalan terbesar.

Perlu diperhatikan bahwa definisi dan perbedaan antara masing-masing paradigma machine learning tidak selalu formal atau mutlak. Misalnya, pembelajaran dengan pengawasan mandiri (SSL) dapat digolongkan sebagai pembelajaran yang diawasi atau tanpa pengawasan, tergantung pada aspek mana dari definisi istilah tersebut yang menjadi fokus. Pembelajaran semi terawasi menggabungkan pembelajaran tanpa pengawasan dan pembelajaran yang diawasi.

Perlu juga diperhatikan bahwa beberapa jenis machine learning terkadang dapat digunakan untuk melatih sistem AI tunggal. Misalnya, versi model bahasa besar (LLM) yang digunakan untuk aplikasi percakapan seperti chatbot biasanya menjalani pra-pelatihan yang diawasi secara mandiri, diikuti oleh penyempurnaan yang diawasi dan, selanjutnya, pembelajaran penguatan dari masukan manusia (RLHF).

Pembelajaran dengan pengawasan

Sebagai bentuk pelatihan dominan untuk neural networks yang terdiri dari model pembelajaran mendalam, pembelajaran yang diawasi mendukung sebagian besar model AI canggih saat ini. Pembelajaran yang diawasi adalah paradigma pelatihan utama untuk tugas-tugas yang membutuhkan akurasi, seperti klasifikasi atau regresi. 

Melatih model untuk akurasi membutuhkan perbandingan prediksi output untuk input tertentu dengan prediksi yang “benar” untuk input tersebut—biasanya disebut dengan kebenaran dasar. Dalam pembelajaran terawasi konvensional, kebenaran dasar tersebut disediakan oleh pasangan data berlabel. Misalnya, data pelatihan untuk model deteksi objek memasangkan gambar mentah (input) dengan versi gambar beranotasi yang menunjukkan lokasi dan klasifikasi setiap objek di dalamnya (output).

Karena metode pelatihan ini membutuhkan manusia dalam prosesnya untuk memberikan kebenaran dasar, metode ini disebut sebagai pembelajaran “terawasi”. Namun, karakteristik definitif dari pembelajaran terawasi bukanlah keterlibatan manusia, melainkan penggunaan beberapa kebenaran dasar dan minimalisasi fungsi kerugian yang mengukur divergensi darinya. Perbedaan ini menjadi penting karena teknik pembelajaran baru yang inovatif menemukan cara untuk secara implisit menyimpulkan "pseudolabel" dari data yang tidak berlabel.

Untuk mengakomodasi gagasan yang lebih fleksibel tentang pembelajaran yang diawasi, terminologi ML modern menggunakan "pengawasan" atau "sinyal pengawasan" untuk merujuk pada sumber kebenaran dasar apa pun. Dalam pembelajaran mandiri, yang secara nominal “tidak diawasi” karena menggunakan data tanpa label, sinyal pengawasan diturunkan dari struktur data yang tidak berlabel itu sendiri. Sebagai contoh, LLM dilatih sebelumnya melalui SSL dengan memprediksi kata-kata yang disamarkan dalam sampel teks, dengan teks asli yang berfungsi sebagai kebenaran dasar.

Pembelajaran tanpa pengawasan

Tidak seperti pembelajaran terawasi, pembelajaran tak terawasi tidak mengasumsikan adanya jawaban yang "benar", dan oleh karena itu tidak melibatkan sinyal pengawas atau fungsi kerugian konvensional. Algoritme pembelajaran tanpa pengawasan berusaha menemukan pola intrinsik dalam data yang tidak berlabel, seperti kemiripan, korelasi, atau pengelompokan potensial, dan sangat berguna ketika pola tersebut tidak selalu terlihat oleh pengamat manusia.

Kategori yang menonjol dari algoritme pembelajaran tanpa pengawasan meliputi:

Algoritme pembuatan klaster membagi titik data yang tidak berlabel ke dalam “klaster,” atau pengelompokan, berdasarkan kedekatan atau kesamaan satu sama lain. Misalnya, k-means clustering, algoritme pengelompokan yang populer, digunakan dalam segmentasi pasar untuk mengelompokkan pelanggan dengan atribut yang sama ke dalam $k$ kelompok.
Algoritma asosiasi melihat korelasi, seperti antara tindakan tertentu dan kondisi tertentu. Sebagai contoh, bisnis e-commerce seperti Amazon menggunakan model asosiasi tidak diawasi untuk mendukung mesin rekomendasi.
Algoritme reduksi dimensi dirancang untuk mengurangi kompleksitas data dengan merepresentasikannya dengan jumlah fitur yang lebih sedikit—yaitu, merepresentasikannya dalam dimensi yang lebih sedikit—sekaligus mempertahankan karakteristiknya yang bermakna. Mereka memiliki beberapa contoh penggunaan, termasuk kompresi data, visualisasi data, dan rekayasa fitur.

Seperti namanya, algoritme pembelajaran tanpa pengawasan dapat dipahami secara luas sebagai "mengoptimalkan diri mereka sendiri". Misalnya, animasi dari profesor Universitas Utah Andrey Shabalin, Ph.D., menunjukkan bagaimana algoritme k-means clustering secara berulang mengoptimalkan centroid setiap klaster.

Dengan demikian, melatih model AI yang menggunakan algoritme pembelajaran tanpa pengawasan biasanya merupakan masalah penyesuaian hyperparameter. Misalnya, dalam algoritme pengelompokan, jumlah kluster yang ideal ( $k$ ) tidak selalu jelas dan mungkin memerlukan eksperimen manual untuk menghasilkan hasil yang optimal.

Pembelajaran penguatan

Sementara pembelajaran yang diawasi melatih model dengan mengoptimalkannya agar mencocokkan contoh ideal dan algoritme pembelajaran tanpa pengawasan menyesuaikan diri dengan kumpulan data, model pembelajaran penguatan dilatih secara holistik melalui coba-coba. Masalah penguatan tidak hanya melibatkan satu jawaban "benar", melainkan melibatkan keputusan "baik" dan "buruk" (atau mungkin netral).

Alih-alih pasangan data input-output independen yang digunakan dalam pembelajaran yang diawasi, pembelajaran penguatan (RL) beroperasi pada pasangan data keadaan-tindakan-imbalan yang saling bergantung. Kerangka kerja matematika untuk pembelajaran penguatan dibangun utamanya pada komponen ini:

Ruang keadaan berisi semua informasi yang tersedia yang relevan dengan keputusan yang mungkin dibuat model. Biasanya, ini berubah sesuai setiap tindakan yang dilakukan model.
Ruang aksi berisi semua keputusan yang dapat diambil oleh model pada satu waktu. Dalam permainan papan, ruang aksi terdiri dari semua gerakan valid yang tersedia saat itu. Dalam pembuatan teks, ruang aksi terdiri dari seluruh "kosakata" token yang tersedia untuk LLM.
Fungsi imbalan menentukan masukan positif (atau negatif) untuk diberikan kepada model sebagai hasil dari setiap tindakan menjadi sinyal imbalan: kuantifikasi skalar dari masukan tersebut. Misalnya, saat melatih program catur dengan RL, fungsi imbalan dapat memberi insentif pada gerakan yang meningkatkan kemungkinan menang dan menghilangkan insentif pada gerakan yang mengurangi kemungkinan menang. Saat melatih mobil otonom, fungsi imbalan dapat menghilangkan insentif pada manuver yang melanggar hukum atau mengurangi probabilitas keselamatan.
Kebijakan adalah "proses berpikir" yang mendorong perilaku agen RL. Secara matematis, kebijakan ( $π$ ) adalah fungsi yang mengambil keadaan ( $s$ ) sebagai input dan mengembalikan tindakan ( $a$ ): $π (s) \to a$ .

Tujuan dari algoritme RL adalah untuk mengoptimalkan sebuah kebijakan untuk menghasilkan imbalan yang maksimal. Dalam pembelajaran penguatan mendalam, kebijakan direpresentasikan sebagai neural networks yang parameternya terus diperbarui untuk memaksimalkan fungsi penghargaan (alih-alih meminimalkan fungsi kerugian).

Cara melatih model machine learning

Siklus pengembangan model terdiri dari beberapa proses, beberapa di antaranya diulang berkali-kali sampai hasil yang memuaskan tercapai.

Meskipun pembelajaran penguatan, pembelajaran terawasi, dan pembelajaran tanpa pengawasan masing-masing memiliki elemen pelatihan yang unik untuk paradigma mereka, alur kerja umum yang diperlukan untuk melatih model terdiri dari langkah-langkah berikut:

Pemilihan model
Pengumpulan data
Persiapan data
Memilih hiperparameter
Kinerja pada data pelatihan
Menghitung kerugian (atau imbalan)
Mengoptimalkan parameter
Evaluasi model

Pemilihan model

Memilih algoritme yang tepat (atau arsitektur neural networks) tidak hanya merupakan fungsi dari masalah yang perlu Anda selesaikan dan jenis data yang akan digunakan oleh model. Jenis model yang ideal juga tergantung pada apakah Anda memprioritaskan kecepatan dan efisiensi dibanding akurasi dan kinerja (atau sebaliknya), dan pada anggaran dan perangkat keras atau sumber daya komputasi yang tersedia untuk Anda. Misalnya, pelatihan atau penyempurnaan LLM sering membutuhkan beberapa unit pemrosesan grafis (GPU).

Pengumpulan data

Memperoleh data pelatihan berkualitas tinggi untuk contoh penggunaan Anda bukanlah hal yang sepele, terutama untuk model pembelajaran mendalam yang sering kali membutuhkan ribuan bahkan jutaan contoh untuk pelatihan yang memadai. Meskipun pipeline data eksklusif menghadirkan peluang unik untuk kustomisasi dan keunggulan kompetitif, ada kumpulan data sumber terbuka terkemuka yang tersedia untuk sebagian besar domain dan tugas. Di beberapa bidang, terutama pemrosesan bahasa alami (NLP), menghasilkan data sintetis adalah pilihan yang kian banyak dilakukan.

Persiapan data

Agar dapat digunakan untuk pelatihan, data mentah—terutama jika dikumpulkan secara langsung atau dikumpulkan dari berbagai sumber data—biasanya memerlukan beberapa pemrosesan awal, yang mungkin termasuk membersihkan data, menormalkan nilai, dan menstandarkan format. Banyak layanan yang tersedia mengotomatiskan beberapa atau semua proses ini, seperti Docling, alat sumber terbuka yang mengubah PDF dan format file lainnya menjadi teks yang lebih dapat dibaca mesin sekaligus mempertahankan elemen struktural yang penting.

Untuk pembelajaran yang diawasi, data harus diberi label dan terkadang diberi keterangan dengan detail yang signifikan. Contohnya, gambar yang digunakan untuk melatih model segmentasi gambar harus diberi label hingga ke tingkat piksel. Pelabelan ini dapat memerlukan waktu dan tenaga yang signifikan, yang keduanya harus diperhitungkan dalam jadwal dan anggaran.

Memilih hiperparameter

Bahkan setelah Anda memilih algoritme atau arsitektur model, Anda masih memiliki lebih banyak pilihan untuk dibuat. Algoritme ML konvensional jarang sekali cocok untuk semua, dan neural networks bahkan kurang terstandardisasi. Memilih hyperparameter yang tepat, elemen modular dari algoritme yang berada di luar pengoptimalan parameter, sangat penting untuk efisiensi dan keberhasilan pelatihan.

Ketika pelatihan tidak berjalan dengan memuaskan—atau ketika bekerja dengan algoritme pembelajaran tanpa pengawasan atau algoritme pembelajaran yang diawasi non-parametrik seperti decision trees—kinerja model dapat diubah dan ditingkatkan melalui penyetelan hyperparameter. Beberapa percobaan dan kesalahan mungkin diperlukan untuk mencapai tingkat pembelajaran yang optimal, ukuran batch, fungsi kerugian (dan istilah regularisasi), atau algoritme pengoptimalan.

Salah satu parameter tersebut adalah inisialisasi parameter yang dapat dipelajari. Parameter ini biasanya diacak, tetapi bahkan pengacakan parameter pun memiliki beberapa strategi. Parameter awal yang optimal juga dapat “dipelajari” melalui teknik yang disebut pembelajaran meta.

Kinerja pada data pelatihan

Setelah parameter awal dan hyperparameter ditetapkan, model memproses kumpulan contoh data input yang diambil dari kumpulan data pelatihan. Karena parameter awal acak, model umumnya belum menghasilkan output yang "baik". Tujuan dari latihan pertama adalah untuk menetapkan garis dasar untuk kemudian dioptimalkan. Ukuran batch—jumlah contoh yang diproses dalam setiap "batch" sebelum menghitung kerugian dan mengoptimalkan parameter—merupakan hyperparameter yang penting.

Ada banyak kerangka kerja sumber terbuka untuk mengonfigurasi dan menjalankan model machine learning untuk pelatihan, seperti PyTorch, Keras, atau TensorFlow. Sebagian besar beroperasi pada Python atau JavaScript dan, sebagai proyek yang digerakkan oleh komunitas, menawarkan pustaka konten tutorial yang luas untuk pemula.

Menghitung kerugian (atau imbalan)

Seiring model Anda bekerja melalui contoh-contoh pelatihan, fungsi kerugian yang Anda pilih akan melacak perbedaan antara output model dan pembaruan yang “benar” untuk setiap input. Dalam pembelajaran mendalam, di mana model adalah neural networks yang terdiri dari berbagai persamaan yang tersusun di dalam satu sama lain, backpropagation digunakan untuk menghitung bagaimana setiap node neural networks berkontribusi terhadap kerugian keseluruhan.

Dalam pembelajaran yang diawasi, tujuan formal pelatihan biasanya untuk meminimalkan fungsi kerugian. Beberapa arsitektur model, seperti variational autoencoders (VAE), justru merumuskan ulang masalah dalam hal memaksimalkan beberapa proksi untuk fungsi kerugian. Algoritme RL biasanya berusaha untuk memaksimalkan fungsi imbalan dan terkadang secara bersamaan meminimalkan istilah regularisasi yang menghalangi perilaku yang tidak diinginkan.

Mengoptimalkan parameter

Optimalisasi algoritme ML biasanya dilakukan oleh algoritme terpisah. Dalam matematika, algoritme pengoptimalan dirancang untuk meminimalkan atau memaksimalkan beberapa fungsi lain—dalam hal ini, fungsi kerugian atau fungsi imbalan—dengan menentukan nilai optimal untuk variabel dalam fungsi tersebut. Dalam ML, variabel-variabel tersebut adalah bobot dan bias dalam algoritme atau antara node yang berbeda dari neural networks.

Algoritme optimasi yang ideal tergantung pada jenis model yang dilatih. Banyak algoritme ML, dan terutama model berbasis neural networks, menggunakan variasi penurunan gradien. Algoritme tertentu dengan fungsi kuadratik, seperti mesin vektor pendukung (SVM), mungkin lebih baik dijalankan oleh pemrograman kuadratik. Algoritme regresi linier biasanya dioptimalkan melalui algoritme kuadrat terkecil. Pembelajaran penguatan memiliki algoritme optimasi sendiri, seperti optimasi kebijakan proksimal (PPO), optimasi kebijakan langsung (DPO), atau kritik aktor keuntungan (A2C). 

Urutan langkah pelatihan ini—dengan menetapkan hyperparameter, menjalankan model pada sekumpulan data pelatihan, menghitung kerugian dan mengoptimalkan parameter—diulangi di beberapa iterasi hingga kerugian telah diminimalkan secara memadai.

Evaluasi model

Kinerja yang sangat baik pada data pelatihan tidak dengan sendirinya menjadi bukti konklusif bahwa model telah berhasil dilatih dan dipersiapkan untuk penerapan di dunia nyata. Harus diberikan perhatian khusus untuk menghindari overfitting, di mana model pada dasarnya telah menghafal data pelatihan tetapi tidak dapat melakukan generalisasi dengan baik ke data baru (sehingga mengalahkan tujuan pelatihan). Overfitting dapat dipahami sebagai machine learning yang setara dengan "mengajar untuk ujian."

Untuk menghindari overfitting, praktik standarnya adalah menyisihkan sebagian dari kumpulan data pelatihan dalam proses yang disebut validasi silang. Proses ini memungkinkan model untuk diuji pada data baru yang belum dilihatnya, demi memastikan bahwa model telah dilatih dengan benar.

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Apa itu pelatihan model?