Apa yang dimaksud dengan pembelajaran tanpa pengawasan?

23 September 2021

Apa yang dimaksud dengan pembelajaran tanpa pengawasan?

Pembelajaran tanpa pengawasan, juga dikenal sebagai pembelajaran mesin tanpa pengawasan, menggunakan algoritma machine learning (ML) untuk menganalisis dan mengelompokkan kumpulan data yang tidak berlabel. Algoritma ini menemukan pola tersembunyi atau pengelompokan data tanpa perlu campur tangan manusia.

Kemampuan pembelajaran tanpa pengawasan untuk menemukan persamaan dan perbedaan informasi menjadikannya solusi ideal untuk analisis data eksplorasi, strategi penjualan silang, segmentasi pelanggan, dan pengenalan gambar.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Pendekatan pembelajaran tanpa pengawasan umum

Model pembelajaran tanpa pengawasan digunakan untuk tiga tugas utama—pengelompokan, asosiasi, dan pengurangan dimensi. Di bawah ini kami akan mendefinisikan setiap metode pembelajaran dan menyoroti algoritma umum dan pendekatan untuk melakukannya secara efektif.

Pengelompokan

Pengelompokan adalah teknik penambangan data yang mengelompokkan data tanpa label berdasarkan persamaan atau perbedaannya. Algoritma klaster digunakan untuk memproses objek data mentah dan tidak diklasifikasikan ke dalam kelompok yang diwakili oleh struktur atau pola dalam informasi. Algoritma pengelompokan dapat dikategorikan ke dalam beberapa jenis, khususnya eksklusif, tumpang tindih, hirarkis, dan probabilistik.

Pengelompokan Eksklusif dan Tumpang Tindih

Pengelompokan eksklusif adalah bentuk pengelompokan yang menetapkan titik data hanya dapat ada dalam satu klaster. Ini juga dapat disebut sebagai pengelompokan “keras”. Pengelompokan K-means adalah contoh metode pengelompokan eksklusif yang membagi titik data ke dalam K klaster, di mana K adalah jumlah klaster yang ditentukan berdasarkan jarak ke pusat masing-masing klaster. Titik data yang paling dekat dengan sentroid tertentu akan dikelompokkan di bawah kategori yang sama. Nilai K yang lebih besar menunjukkan pengelompokan yang lebih kecil dengan tingkat granularitas lebih tinggi, sedangkan nilai K yang lebih kecil menghasilkan pengelompokan yang lebih besar dengan tingkat granularitas lebih rendah. Pengelompokan k-means biasanya digunakan untuk segmentasi pasar, pengelompokan dokumen, segmentasi gambar, dan kompresi gambar.

Klaster yang tumpang tindih berbeda dengan pengelompokan eksklusif karena memungkinkan titik data menjadi bagian dari beberapa klaster dengan tingkat keanggotaan yang terpisah. Pengelompokan k-means “lunak” atau fuzzy k-means adalah contoh klaster yang tumpang tindih.

Pengelompokan hierarkis

Pengelompokan hierarkis, juga dikenal sebagai analisis klaster hierarkis (HCA), adalah algoritma pengelompokan tanpa pengawasan yang dapat dikategorikan dalam dua cara: aglomeratif atau memecah belah.

Pengelompokan aglomeratif dianggap sebagai “pendekatan dari bawah ke atas.” Titik datanya diisolasi sebagai pengelompokan terpisah pada awalnya, dan kemudian digabungkan bersama secara berulang berdasarkan kesamaan sampai satu klaster telah tercapai. Empat metode berbeda biasanya digunakan untuk mengukur kesamaan:

  1. Keterkaitan Ward: Metode ini menyatakan bahwa jarak antara dua klaster ditentukan oleh peningkatan jumlah kuadrat setelah klaster digabungkan.

  2. Keterkaitan rata-rata: Metode ini ditentukan oleh jarak rata-rata antara dua titik di setiap klaster.

  3. Keterkaitan lengkap (atau maksimum): Metode ini ditentukan oleh jarak maksimum antara dua titik di setiap klaster.

  4. Hubungan tunggal (atau minimum): Metode ini ditentukan oleh jarak minimum antara dua titik di setiap klaster.

Jarak Euclidean adalah metrik yang paling umum digunakan untuk menghitung jarak ini; Namun, metrik lain, seperti jarak Manhattan, juga dikutip dalam literatur pengelompokan.

Pengelompokan divisif dapat didefinisikan sebagai kebalikan dari pengelompokan aglomeratif; sebaliknya, pengelompokan ini mengambil pendekatan “top-down”. Dalam hal ini, klaster data tunggal dibagi berdasarkan perbedaan antara titik data. Pengelompokan yang memecah belah tidak umum digunakan, tetapi masih perlu diperhatikan dalam konteks pengelompokan hierarkis. Proses pengelompokan biasanya divisualisasikan menggunakan dendrogram, yaitu diagram berbentuk pohon yang mencatat penggabungan atau pemisahan titik data pada setiap iterasi.

Pengelompokan probabilistik

Model probabilistik adalah teknik tanpa pengawasan yang membantu kita memecahkan masalah estimasi kepadatan atau klaster “lunak”. Dalam klaster probabilistik, titik-titik data dikelompokkan berdasarkan kemungkinan bahwa titik-titik tersebut termasuk dalam distribusi tertentu. Model Campuran Gaussian (GMM) adalah salah satu metode pengelompokan probabilistik yang paling umum digunakan.

  • Model Campuran Gaussian diklasifikasikan sebagai model campuran, yang berarti model ini terdiri dari sejumlah fungsi distribusi probabilitas yang tidak ditentukan. GMMs terutama memanfaatkan untuk menentukan distribusi probabilitas Gaussian, atau normal, mana yang dimiliki titik data tertentu. Jika rata-rata atau varians diketahui, maka kita dapat menentukan distribusi mana yang dimiliki titik data tertentu. Namun, dalam GMM, variabel ini tidak diketahui, jadi kami berasumsi bahwa variabel laten atau tersembunyi ada untuk klaster titik data dengan tepat. Meskipun algoritma Expectation-Maximization (EM) tidak wajib digunakan, algoritma ini biasanya dipakai untuk memperkirakan probabilitas penetapan suatu titik data ke klaster tertentu.

Aturan Asosiasi

Aturan asosiasi adalah metode berbasis aturan untuk menemukan hubungan antar variabel dalam kumpulan data tertentu. Metode-metode ini sering digunakan untuk analisis keranjang pasar, yang memungkinkan perusahaan untuk lebih memahami hubungan antara produk yang berbeda. Memahami kebiasaan konsumsi pelanggan memungkinkan bisnis untuk mengembangkan strategi penjualan silang dan mesin rekomendasi yang lebih baik. Contohnya dapat dilihat pada “Pelanggan yang Membeli Barang Ini Juga Membeli” di Amazon atau daftar putar "Discover Weekly" di Spotify. Meskipun ada beberapa algoritma berbeda untuk menghasilkan aturan asosiasi, seperti Apriori, Eclat, dan FP-Growth, algoritma Apriori tetap yang paling banyak digunakan.

Algoritma apriori

Algoritma Apriori populer digunakan dalam analisis keranjang pasar, yang kemudian menginspirasi mesin rekomendasi pada platform musik dan toko online. Algoritma ini diterapkan pada kumpulan data transaksi untuk menemukan set item yang sering muncul bersama, sehingga dapat memprediksi kemungkinan konsumsi suatu produk berdasarkan produk lain yang dikonsumsi. Contohnya, jika saya memutar lagu “Orchid” dari Black Sabbath di Spotify, kemungkinan besar lagu lain yang muncul di saluran tersebut adalah lagu Led Zeppelin, seperti “Over the Hills and Far Away.” Ini didasarkan pada kebiasaan mendengarkan saya sebelumnya serta kebiasaan orang lain. Algoritma apriori menggunakan hash tree untuk menghitung kumpulan item, menavigasi melalui kumpulan data dengan cara yang luas.

Pengurangan dimensi

Meskipun lebih banyak data umumnya menghasilkan hasil yang lebih akurat, hal ini juga dapat memengaruhi kinerja algoritma machine learning (misalnya overfitting) dan dapat menyulitkan visualisasi kumpulan data. Pengurangan dimensi adalah teknik yang digunakan ketika jumlah fitur, atau dimensi, dalam kumpulan data yang diberikan terlalu tinggi. Ini mengurangi jumlah input ke ukuran yang dapat dikelola sekaligus menjaga integritas kumpulan data sebanyak mungkin. Cara ini biasanya digunakan dalam tahap data prapemrosesan, dan ada beberapa metode reduksi dimensi yang berbeda yang dapat digunakan, seperti:

Analisis komponen utama

Analisis Komponen Utama (PCA) adalah algoritma pengurangan dimensi yang mengurangi redundansi dan mengompresi kumpulan data dengan mengekstraksi fitur penting. Metode ini menggunakan transformasi linear untuk menghasilkan representasi data baru berupa serangkaian "komponen utama." Komponen utama pertama adalah arah yang memaksimalkan varians kumpulan data. Sementara komponen utama kedua juga menemukan varians maksimum dalam data, ia sama sekali tidak berkorelasi dengan komponen utama pertama, menghasilkan arah yang tegak lurus, atau ortogonal, terhadap komponen pertama. Proses ini berlanjut untuk setiap dimensi berikutnya, di mana setiap komponen utama berikutnya adalah arah ortogonal terhadap komponen sebelumnya dengan varians terbesar.

Dekomposisi nilai singular

Dekomposisi nilai singular (SVD) adalah pendekatan reduksi dimensi lain yang memfaktorkan matriks, A, menjadi tiga matriks peringkat rendah. SVD dilambangkan dengan rumus, A = USVT, di mana U dan V adalah matriks ortogonal. S adalah matriks diagonal, dan nilai S dianggap sebagai nilai tunggal dari matriks A. Mirip dengan PCA, metode ini biasanya digunakan untuk mengurangi noise dan mengompres data, seperti file gambar.

Autoencoder

Autoencoder memanfaatkan neural networks untuk mengompres data dan kemudian membuat ulang representasi baru dari input data asli. Melihat gambar di bawah ini, lapisan tersembunyi berfungsi sebagai hambatan yang mengompres input sebelum merekonstruksi output. Tahap dari lapisan input ke lapisan tersembunyi disebut sebagai “encoding” sedangkan tahap dari lapisan tersembunyi ke lapisan output dikenal sebagai “decoding.”

Aplikasi pembelajaran tanpa pengawasan

Teknik machine learning telah menjadi metode umum untuk meningkatkan pengalaman produk dan untuk menguji sistem untuk jaminan kualitas. Pembelajaran tanpa pengawasan menyediakan jalur eksplorasi untuk melihat data, memungkinkan bisnis untuk mengidentifikasi pola dalam volume besar data lebih cepat jika dibandingkan dengan pengamatan manual. Beberapa aplikasi dunia nyata yang paling umum dari pembelajaran tanpa pengawasan adalah:

  • Bagian Berita: Google News menggunakan pembelajaran tanpa pengawasan untuk mengategorikan artikel-artikel tentang berita yang sama dari berbagai outlet berita online. Sebagai contoh, hasil pemilihan presiden dapat dikategorikan di bawah label mereka untuk berita “AS”.

  • Visi komputer: Algoritma pembelajaran tanpa pengawasan digunakan untuk tugas persepsi visual, seperti pengenalan objek.

  • Pencitraan medis: Machine learning tanpa pengawasan menyediakan fitur penting untuk perangkat pencitraan medis, seperti deteksi, klasifikasi, dan segmentasi citra, yang digunakan dalam radiologi dan patologi untuk mendiagnosis pasien dengan cepat dan akurat.

  • Deteksi anomali: Model pembelajaran tanpa pengawasan dapat menyisir sejumlah besar data dan menemukan titik data yang tidak lazim dalam kumpulan data. Anomali ini dapat meningkatkan kesadaran akan kerusakan peralatan, kesalahan manusia, atau pelanggaran keamanan.

  • Persona pelanggan: Mendefinisikan persona pelanggan akan memudahkan untuk memahami ciri-ciri umum dan kebiasaan pembelian klien bisnis. Pembelajaran tanpa pengawasan memungkinkan bisnis untuk membangun profil persona pembeli yang lebih baik, sehingga perusahaan dapat menyelaraskan pesan produk mereka dengan lebih tepat.

  • Mesin rekomendasi: Dengan menggunakan data perilaku pembelian di masa lalu, pembelajaran yang tanpa pengawasan dapat membantu menemukan tren data yang dapat digunakan untuk mengembangkan strategi penjualan silang yang lebih efektif. Ini digunakan untuk membuat rekomendasi tambahan yang relevan kepada pelanggan selama proses checkout untuk pengecer online.
Mixture of Experts | 25 April, episode 52

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Pembelajaran tanpa pengawasan vs. pembelajaran yang diawasi  dan semi-diawasi

Pembelajaran tanpa pengawasan dan pembelajaran yang diawasi sering dibahas bersama. Tidak seperti algoritma pembelajaran tanpa pengawasan, algoritma pembelajaran yang diawasi menggunakan data berlabel. Dari data itu, ia memprediksi hasil di masa depan atau menetapkan data ke categories tertentu berdasarkan masalah regresi atau klasifikasi yang coba dipecahkan.

Meskipun algoritma pembelajaran yang diawasi biasanya lebih akurat dibandingkan model pembelajaran yang tidak diawasi, algoritma ini memerlukan campur tangan manusia di awal untuk memberikan label data dengan tepat. Namun, kumpulan data berlabel ini memungkinkan algoritma pembelajaran yang diawasi menghindari kompleksitas komputasi karena tidak memerlukan jumlah data pelatihan yang besar untuk mencapai hasil yang diinginkan. Teknik regresi dan klasifikasi yang umum digunakan adalah regresi linier dan logistik, naïve bayes, algoritma KNN, dan hutan acak.

Pembelajaran semi-diawasi terjadi ketika hanya sebagian dari data input tertentu yang diberi label. Pembelajaran tanpa pengawasan dan semi-diawasi dapat menjadi alternatif yang lebih menarik karena dapat memakan waktu dan mahal untuk mengandalkan keahlian domain untuk memberi label data dengan tepat pada pembelajaran yang diawasi.

Untuk menyelami lebih dalam perbedaan antara pendekatan ini, lihat "Supervised vs. Unsupervised Learning: What's the Difference?" (Pembelajaran dengan Pengawasan vs. Tanpa Pengawasan: Apa Perbedaannya?)

Tantangan pembelajaran tanpa pengawasan

Sementara pembelajaran tanpa pengawasan memiliki banyak benefit, beberapa tantangan dapat terjadi ketika memungkinkan model machine learning dijalankan tanpa campur tangan manusia. Beberapa tantangan dapat termasuk:

  • Kompleksitas komputasi karena volume data pelatihan yang tinggi

  • Waktu pelatihan yang lebih lama

  • Risiko hasil yang tidak akurat yang lebih tinggi

  • Intervensi manusia untuk memvalidasi output

  • Kurangnya transparansi terhadap dasar di mana data dikelompokkan
Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung