Pembelajaran yang diawasi adalah machine learning yang menggunakan kumpulan data input dan output berlabel manusia untuk melatih model kecerdasan buatan. Model terlatih mempelajari hubungan yang mendasari antara input dan output, memungkinkannya untuk memprediksi output yang benar berdasarkan data input dunia nyata baru yang tidak berlabel.
Data berlabel terdiri atas contoh titik data bersama dengan output atau jawaban yang benar. Saat data input dimasukkan ke algoritma machine learning, algoritma tersebut akan menyesuaikan bobotnya hingga model tersebut sesuai. Data pelatihan berlabel secara eksplisit mengajarkan model untuk mengidentifikasi hubungan antara fitur dan label data.
Machine learning yang diawasi membantu organisasi memecahkan berbagai masalah dunia nyata dalam skala besar, seperti mengklasifikasikan spam atau memprediksi harga saham. Metode ini dapat digunakan untuk membangun model machine learning yang sangat akurat.
Pembelajaran terawasi menggunakan kumpulan data pelatihan berlabel untuk memahami hubungan antara data input dan output. Ilmuwan data secara manual membuat kumpulan data pelatihan yang berisi data input beserta label yang sesuai. Pembelajaran yang diawasi melatih model untuk menerapkan output yang benar pada input baru dalam contoh penggunaan dunia nyata.
Selama pelatihan, algoritma model memproses kumpulan data yang besar untuk mengeksplorasi potensi korelasi antara input dan output. Kemudian, kinerja model dievaluasi dengan data pengujian untuk mengetahui apakah berhasil dilatih. Validasi silang adalah proses pengujian model menggunakan bagian yang berbeda dari kumpulan data.
Kelompok algoritma penurunan gradien, termasuk stochastic gradient descent (SGD), adalah algoritma pengoptimalan yang paling sering digunakan, atau algoritma pembelajaran, ketika melatih neural networks dan model machine learning lainnya. Algoritma optimasi model menilai akurasi melalui fungsi kerugian: persamaan yang mengukur perbedaan antara prediksi model dan nilai aktual.
Kemiringan fungsi kerugian, atau gradien, adalah metrik utama kinerja model. Algoritma optimasi menurunkan gradien untuk meminimalkan nilainya. Selama pelatihan, algoritma optimasi memperbarui parameter model—aturan operasi atau “pengaturan”—untuk mengoptimalkan model.
Proses pembelajaran yang diawasi yang khas mungkin terlihat seperti ini:
Sebagai contoh pembelajaran yang diawasi, pertimbangkan model klasifikasi gambar yang dibuat untuk mengenali gambar kendaraan dan menentukan jenis kendaraan tersebut. Model seperti itu dapat memberi daya CAPTCHA yang digunakan banyak situs web untuk mendeteksi bot spam.
Untuk melatih model ini, ilmuwan data menyiapkan kumpulan data berlabel yang berisi banyak contoh kendaraan bersama dengan jenis kendaraan yang sesuai: mobil, sepeda motor, truk, sepeda, dan banyak lagi. Algoritma model mencoba mengidentifikasi pola dalam data pelatihan yang menyebabkan input—gambar kendaraan—menerima output yang ditunjuk—jenis kendaraan.
Tebakan model diukur berdasarkan nilai data aktual dalam rangkaian pengujian untuk menentukan apakah prediksinya akurat. Jika tidak, siklus pelatihan dilanjutkan hingga kinerja model mencapai tingkat akurasi yang memuaskan. Prinsip generalisasi mengacu pada kemampuan model untuk membuat prediksi yang tepat pada data baru dari distribusi yang sama dengan data pelatihannya.
Tugas pembelajaran yang diawasi dapat dibagi secara luas menjadi masalah klasifikasi dan regresi:
Klasifikasi dalam machine learning menggunakan algoritma untuk mengurutkan data ke dalam kategori. Mengenali entitas tertentu dalam kumpulan data dan mencoba untuk menentukan bagaimana entitas tersebut harus diberi label atau didefinisikan. Algoritma klasifikasi yang umum digunakan adalah pengklasifikasi linier, mesin vektor pendukung (SVM), decision trees, k-nearest neighbor dan hutan acak.
Neural networks unggul dalam menangani masalah klasifikasi yang kompleks. Neural Networks adalah arsitektur pembelajaran mendalam yang memproses data pelatihan dengan lapisan-lapisan node yang meniru otak manusia. Setiap node terdiri atas input, bobot, bias (ambang batas), dan output. Jika nilai output melebihi ambang batas yang ditetapkan, node akan “menembak” atau mengaktifkan, meneruskan data ke lapisan berikutnya dalam jaringan.
Regresi digunakan untuk memahami hubungan antara variabel dependen dan independen. Dalam masalah regresi, output adalah nilai kontinu, dan model mencoba memprediksi output target. Tugas regresi termasuk proyeksi untuk pendapatan penjualan atau perencanaan keuangan. Regresi linier, regresi logistik, dan regresi polinomial adalah tiga contoh algoritma regresi.
Karena kumpulan data besar biasanya mengandung banyak fitur, ilmuwan data dapat menyederhanakan kompleksitas ini melalui pengurangan dimensi. Teknik ilmu data ini mengurangi jumlah fitur menjadi yang paling penting untuk memprediksi label data, yang menjaga akurasi sekaligus meningkatkan efisiensi.
Algoritma optimasi seperti penurunan gradien melatih berbagai algoritma machine learning yang unggul dalam tugas pembelajaran yang diawasi.
Naive Bayes: Naive Bayes adalah algoritme klasifikasi yang mengadopsi prinsip independensi bersyarat kelas dari teorema Bayes. Hal ini berarti bahwa kehadiran satu fitur tidak mempengaruhi kehadiran fitur lain dalam probabilitas suatu hasil, dan setiap prediktor memiliki efek yang sama terhadap hasil itu.
Pengklasifikasi Bayes Naif termasuk multinomial, Bernoulli dan Gaussian Naive Bayes. Teknik ini sering digunakan dalam klasifikasi teks, identifikasi spam dan sistem rekomendasi.
Regresi linier: Regresi linier digunakan untuk mengidentifikasi hubungan antara suatu variabel terikat yang berkesinambungan dengan satu atau lebih variabel bebas. Hal ini biasanya digunakan untuk membuat prediksi tentang hasil masa depan.
Regresi linier menyatakan hubungan antar variabel sebagai garis lurus. Ketika hanya ada satu variabel independen dan satu variabel dependen, ini dikenal sebagai regresi linier sederhana. Ketika jumlah variabel independen meningkat, teknik ini disebut sebagai regresi linier ganda.
Regresi nonlinier: Terkadang, output tidak dapat direproduksi dari input linier. Dalam kasus ini, output harus dimodelkan dengan fungsi nonlinier. Regresi nonlinier mengungkapkan hubungan antara variabel melalui garis nonlinier, atau melengkung. Model nonlinier dapat menangani hubungan kompleks dengan banyak parameter.
Regresi logistik: Regresi logistik menangani variabel dependen kategori—ketika variabel tersebut memiliki output biner, seperti benar atau salah atau positif atau negatif. Sementara model regresi linear dan regresi logistik berupaya memahami hubungan antara input data, regresi logistik terutama memecahkan masalah klasifikasi biner, seperti identifikasi spam.
Regresi polinomial: Mirip dengan model regresi lainnya, regresi polinomial memodelkan hubungan antara variabel pada grafik. Fungsi yang digunakan dalam regresi polinomial mengekspresikan hubungan ini melalui derajat eksponensial. Regresi polinomial merupakan bagian dari regresi nonlinier.
Mesin vektor pendukung (Support Vector Machine/SVM): Mesin vektor pendukung digunakan untuk klasifikasi dan regresi data. Konon, biasanya menangani masalah klasifikasi. Di sini, SVM memisahkan kelas titik data dengan batas keputusan atau hyperplane. Tujuan dari algoritma SVM adalah untuk memplot hyperplane yang memaksimalkan jarak antara kelompok-kelompok titik data.
K-nearest neighbor: K-nearest neighbor (KNN) adalah algoritma nonparametrik yang mengklasifikasikan titik data berdasarkan kedekatan dan hubungannya dengan data lain yang tersedia. Algoritma ini mengasumsikan bahwa titik data serupa dapat ditemukan berdekatan saat ditampilkan secara matematis dalam grafik.
Kemudahan penggunaan dan waktu kalkulasi yang rendah membuatnya efisien ketika digunakan untuk mesin rekomendasi dan pengenalan gambar. Tetapi seiring bertambahnya kumpulan data pengujian, waktu pemrosesan semakin memanjang, membuatnya kurang menarik untuk tugas klasifikasi.
Hutan acak: Hutan acak adalah algoritma machine learning fleksibel yang diawasi yang digunakan untuk tujuan klasifikasi dan regresi. Istilah "hutan" merujuk kepada kumpulan decision trees yang tidak berkorelasi, yang digabungkan untuk mengurangi varians dan meningkatkan akurasi.
Pembelajaran yang diawasi bukan satu-satunya metode pembelajaran untuk melatih model machine learning. Jenis machine learning lainnya meliputi:
Pembelajaran tanpa pengawasan
Pembelajaran semi-diawasi
Pembelajaran yang diawasi mandiri
Pembelajaran penguatan
Perbedaan antara pembelajaran yang diawasi dan pembelajaran tidak diawasi adalah machine learning tidak diawasi menggunakan data yang tidak berlabel. Model dibiarkan menemukan pola dan hubungan dalam data dengan sendirinya. Banyak model AI generatif awalnya dilatih dengan pembelajaran tidak diawasi dan kemudian dengan pembelajaran yang diawasi untuk meningkatkan keahlian domain.
Pembelajaran yang tidak diawasi dapat membantu memecahkan masalah klaster atau asosiasi di mana properti umum dalam kumpulan data tidak pasti. Algoritma pengelompokan umum adalah hierarkis, K-mean, dan model campuran Gaussian.
Pembelajaran semi-diawasi memberi label sebagian dari data input. Karena dapat memakan waktu dan biaya untuk mengandalkan keahlian domain untuk memberi label data dengan tepat untuk pembelajaran yang diawasi, pembelajaran semi terawasi dapat menjadi alternatif yang menarik.
Pembelajaran mandiri (SSL) meniru pembelajaran yang diawasi dengan data tanpa label. Daripada menggunakan label yang dibuat secara manual dari kumpulan data pembelajaran yang diawasi, tugas SSL dikonfigurasikan sehingga model dapat menghasilkan label implisit dari data yang tidak terstruktur. Kemudian, fungsi kerugian model menggunakan label tersebut sebagai pengganti label aktual untuk menilai kinerja model.
Pembelajaran yang diawasi sendiri melihat penggunaan luas dalam tugas visi komputer dan pemrosesan bahasa alami (NLP) yang membutuhkan kumpulan data besar yang sangat mahal dan memakan waktu untuk diberi label.
Pembelajaran penguatan melatih agen otonom, seperti robot dan mobil self-driving, untuk membuat keputusan melalui interaksi lingkungan. Pembelajaran penguatan tidak menggunakan data berlabel dan juga berbeda dari pembelajaran yang tidak diawasi karena pembelajaran ini dilakukan dengan cara coba-coba dan memberi penghargaan, bukan dengan mengidentifikasi pola yang mendasari di dalam kumpulan data.
Model pembelajaran yang diawasi dapat membangun dan memajukan aplikasi bisnis, termasuk:
Pengenalan gambar dan objek: Algoritma pembelajaran yang diawasi dapat digunakan untuk menemukan lokasi, mengisolasi, dan mengategorikan objek dari video atau gambar, menjadikannya berguna dengan visi komputer dan tugas analisis gambar.
Analisis prediktif:Model pembelajaran yang diawasi membuat sistem analitik prediktif untuk memberikan insight. Hal ini memungkinkan perusahaan untuk mengantisipasi hasil berdasarkan variabel output dan membuat keputusan berbasis data, pada gilirannya membantu para pemimpin bisnis membenarkan pilihan mereka atau pivot untuk manfaat organisasi.
Regresi juga memungkinkan penyedia layanan kesehatan untuk memprediksi hasil berdasarkan kriteria pasien dan data historis. Model prediktif dapat menilai risiko pasien terhadap penyakit atau kondisi tertentu berdasarkan data biologis dan gaya hidup mereka.
Analisis sentimen pelanggan: Organisasi dapat mengekstrak dan mengklasifikasikan informasi penting dari sejumlah besar data—termasuk konteks, emosi, dan niat—dengan intervensi manusia yang minimal. Analisis sentimen memberikan pemahaman yang lebih baik tentang interaksi pelanggan dan dapat digunakan untuk meningkatkan upaya keterlibatan merek.
Segmentasi pelanggan: Model regresi dapat memprediksi perilaku pelanggan berdasarkan berbagai sifat dan tren historis. Bisnis dapat menggunakan model prediktif untuk menyegmentasikan basis pelanggan mereka dan menciptakan persona pembeli untuk meningkatkan upaya pemasaran dan pengembangan produk.
Deteksi spam: Deteksi spam adalah contoh lain dari model pembelajaran yang diawasi. Dengan menggunakan algoritma klasifikasi yang diawasi, organisasi bisa melatih basis data untuk mengenali pola atau anomali pada data baru untuk mengatur korespondensi terkait spam dan non-spam secara efektif.
Forecasting: Model regresif unggul dalam forecasting berdasarkan tren historis, sehingga cocok untuk digunakan dalam industri. Perusahaan juga dapat menggunakan regresi untuk memprediksi kebutuhan inventaris, memperkirakan gaji karyawan, dan menghindari potensi gangguan rantai pasokan.
Mesin rekomendasi: Dengan model pembelajaran yang diawasi, penyedia konten dan pasar digital dapat menganalisis pilihan, preferensi, dan pembelian pelanggan serta membangun mesin rekomendasi yang menawarkan rekomendasi yang disesuaikan sehingga lebih mungkin untuk dikonversi.
Meskipun pembelajaran yang diawasi dapat menawarkan keuntungan bisnis seperti insight data yang mendalam dan otomatisasi yang ditingkatkan, itu mungkin bukan pilihan terbaik untuk semua situasi.
Batasan personal: Model pembelajaran yang diawasi dapat membutuhkan tingkat keahlian tertentu untuk menatanya secara akurat.
Keterlibatan manusia: Model pembelajaran yang diawasi tidak mampu belajar mandiri. Ilmuwan data harus memvalidasi output kinerja model.
Persyaratan waktu: Kumpulan data pelatihan berukuran besar dan harus diberi label secara manual, yang membuat proses pembelajaran yang diawasi memakan waktu.
Ketidakfleksibelan: Model pembelajaran terawasi sulit untuk memberi label pada data di luar batas-batas kumpulan data pelatihan mereka. Model pembelajaran tanpa pengawasan mungkin lebih mampu menangani data baru.
Bias: Kumpulan data memiliki resiko kemungkinan kesalahan manusia dan ke partialitas yang lebih tinggi, sehingga algoritma belajar secara tidak benar.
Overfitting: Pembelajaran yang diawasi terkadang dapat mengakibatkan overfitting: di mana sebuah model menjadi terlalu disesuaikan dengan kumpulan data pelatihannya. Akurasi tinggi dalam pelatihan dapat mengindikasikan overfitting dibandingkan dengan kinerja yang umumnya kuat. Menghindari overfitting mengharuskan model diuji dengan data yang berbeda dari data pelatihan.
Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.
Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.