Pembelajaran tanpa pengawasan, juga dikenal sebagai pembelajaran mesin tanpa pengawasan, menggunakan algoritma machine learning (ML) untuk menganalisis dan mengelompokkan kumpulan data yang tidak berlabel. Algoritma ini menemukan pola tersembunyi atau pengelompokan data tanpa perlu campur tangan manusia.
Kemampuan pembelajaran tanpa pengawasan untuk menemukan persamaan dan perbedaan informasi menjadikannya solusi ideal untuk analisis data eksplorasi, strategi penjualan silang, segmentasi pelanggan, dan pengenalan gambar.
Model pembelajaran tanpa pengawasan digunakan untuk tiga tugas utama—pengelompokan, asosiasi, dan pengurangan dimensi. Di bawah ini kami akan mendefinisikan setiap metode pembelajaran dan menyoroti algoritma umum dan pendekatan untuk melakukannya secara efektif.
Pengelompokan adalah teknik penambangan data yang mengelompokkan data tanpa label berdasarkan persamaan atau perbedaannya. Algoritma klaster digunakan untuk memproses objek data mentah dan tidak diklasifikasikan ke dalam kelompok yang diwakili oleh struktur atau pola dalam informasi. Algoritma pengelompokan dapat dikategorikan ke dalam beberapa jenis, khususnya eksklusif, tumpang tindih, hirarkis, dan probabilistik.
Pengelompokan eksklusif adalah bentuk pengelompokan yang menetapkan titik data hanya dapat ada dalam satu klaster. Ini juga dapat disebut sebagai pengelompokan “keras”. Pengelompokan K-means adalah contoh metode pengelompokan eksklusif yang membagi titik data ke dalam K klaster, di mana K adalah jumlah klaster yang ditentukan berdasarkan jarak ke pusat masing-masing klaster. Titik data yang paling dekat dengan sentroid tertentu akan dikelompokkan di bawah kategori yang sama. Nilai K yang lebih besar menunjukkan pengelompokan yang lebih kecil dengan tingkat granularitas lebih tinggi, sedangkan nilai K yang lebih kecil menghasilkan pengelompokan yang lebih besar dengan tingkat granularitas lebih rendah. Pengelompokan k-means biasanya digunakan untuk segmentasi pasar, pengelompokan dokumen, segmentasi gambar, dan kompresi gambar.
Klaster yang tumpang tindih berbeda dengan pengelompokan eksklusif karena memungkinkan titik data menjadi bagian dari beberapa klaster dengan tingkat keanggotaan yang terpisah. Pengelompokan k-means “lunak” atau fuzzy k-means adalah contoh klaster yang tumpang tindih.
Pengelompokan hierarkis, juga dikenal sebagai analisis klaster hierarkis (HCA), adalah algoritma pengelompokan tanpa pengawasan yang dapat dikategorikan dalam dua cara: aglomeratif atau memecah belah.
Pengelompokan aglomeratif dianggap sebagai “pendekatan dari bawah ke atas.” Titik datanya diisolasi sebagai pengelompokan terpisah pada awalnya, dan kemudian digabungkan bersama secara berulang berdasarkan kesamaan sampai satu klaster telah tercapai. Empat metode berbeda biasanya digunakan untuk mengukur kesamaan:
Jarak Euclidean adalah metrik yang paling umum digunakan untuk menghitung jarak ini; Namun, metrik lain, seperti jarak Manhattan, juga dikutip dalam literatur pengelompokan.
Pengelompokan divisif dapat didefinisikan sebagai kebalikan dari pengelompokan aglomeratif; sebaliknya, pengelompokan ini mengambil pendekatan “top-down”. Dalam hal ini, klaster data tunggal dibagi berdasarkan perbedaan antara titik data. Pengelompokan yang memecah belah tidak umum digunakan, tetapi masih perlu diperhatikan dalam konteks pengelompokan hierarkis. Proses pengelompokan biasanya divisualisasikan menggunakan dendrogram, yaitu diagram berbentuk pohon yang mencatat penggabungan atau pemisahan titik data pada setiap iterasi.
Model probabilistik adalah teknik tanpa pengawasan yang membantu kita memecahkan masalah estimasi kepadatan atau klaster “lunak”. Dalam klaster probabilistik, titik-titik data dikelompokkan berdasarkan kemungkinan bahwa titik-titik tersebut termasuk dalam distribusi tertentu. Model Campuran Gaussian (GMM) adalah salah satu metode pengelompokan probabilistik yang paling umum digunakan.
Aturan asosiasi adalah metode berbasis aturan untuk menemukan hubungan antar variabel dalam kumpulan data tertentu. Metode-metode ini sering digunakan untuk analisis keranjang pasar, yang memungkinkan perusahaan untuk lebih memahami hubungan antara produk yang berbeda. Memahami kebiasaan konsumsi pelanggan memungkinkan bisnis untuk mengembangkan strategi penjualan silang dan mesin rekomendasi yang lebih baik. Contohnya dapat dilihat pada “Pelanggan yang Membeli Barang Ini Juga Membeli” di Amazon atau daftar putar "Discover Weekly" di Spotify. Meskipun ada beberapa algoritma berbeda untuk menghasilkan aturan asosiasi, seperti Apriori, Eclat, dan FP-Growth, algoritma Apriori tetap yang paling banyak digunakan.
Algoritma Apriori populer digunakan dalam analisis keranjang pasar, yang kemudian menginspirasi mesin rekomendasi pada platform musik dan toko online. Algoritma ini diterapkan pada kumpulan data transaksi untuk menemukan set item yang sering muncul bersama, sehingga dapat memprediksi kemungkinan konsumsi suatu produk berdasarkan produk lain yang dikonsumsi. Contohnya, jika saya memutar lagu “Orchid” dari Black Sabbath di Spotify, kemungkinan besar lagu lain yang muncul di saluran tersebut adalah lagu Led Zeppelin, seperti “Over the Hills and Far Away.” Ini didasarkan pada kebiasaan mendengarkan saya sebelumnya serta kebiasaan orang lain. Algoritma apriori menggunakan hash tree untuk menghitung kumpulan item, menavigasi melalui kumpulan data dengan cara yang luas.
Meskipun lebih banyak data umumnya menghasilkan hasil yang lebih akurat, hal ini juga dapat memengaruhi kinerja algoritma machine learning (misalnya overfitting) dan dapat menyulitkan visualisasi kumpulan data. Pengurangan dimensi adalah teknik yang digunakan ketika jumlah fitur, atau dimensi, dalam kumpulan data yang diberikan terlalu tinggi. Ini mengurangi jumlah input ke ukuran yang dapat dikelola sekaligus menjaga integritas kumpulan data sebanyak mungkin. Cara ini biasanya digunakan dalam tahap data prapemrosesan, dan ada beberapa metode reduksi dimensi yang berbeda yang dapat digunakan, seperti:
Analisis Komponen Utama (PCA) adalah algoritma pengurangan dimensi yang mengurangi redundansi dan mengompresi kumpulan data dengan mengekstraksi fitur penting. Metode ini menggunakan transformasi linear untuk menghasilkan representasi data baru berupa serangkaian "komponen utama." Komponen utama pertama adalah arah yang memaksimalkan varians kumpulan data. Sementara komponen utama kedua juga menemukan varians maksimum dalam data, ia sama sekali tidak berkorelasi dengan komponen utama pertama, menghasilkan arah yang tegak lurus, atau ortogonal, terhadap komponen pertama. Proses ini berlanjut untuk setiap dimensi berikutnya, di mana setiap komponen utama berikutnya adalah arah ortogonal terhadap komponen sebelumnya dengan varians terbesar.
Dekomposisi nilai singular (SVD) adalah pendekatan reduksi dimensi lain yang memfaktorkan matriks, A, menjadi tiga matriks peringkat rendah. SVD dilambangkan dengan rumus, A = USVT, di mana U dan V adalah matriks ortogonal. S adalah matriks diagonal, dan nilai S dianggap sebagai nilai tunggal dari matriks A. Mirip dengan PCA, metode ini biasanya digunakan untuk mengurangi noise dan mengompres data, seperti file gambar.
Autoencoder memanfaatkan neural networks untuk mengompres data dan kemudian membuat ulang representasi baru dari input data asli. Melihat gambar di bawah ini, lapisan tersembunyi berfungsi sebagai hambatan yang mengompres input sebelum merekonstruksi output. Tahap dari lapisan input ke lapisan tersembunyi disebut sebagai “encoding” sedangkan tahap dari lapisan tersembunyi ke lapisan output dikenal sebagai “decoding.”
Teknik machine learning telah menjadi metode umum untuk meningkatkan pengalaman produk dan untuk menguji sistem untuk jaminan kualitas. Pembelajaran tanpa pengawasan menyediakan jalur eksplorasi untuk melihat data, memungkinkan bisnis untuk mengidentifikasi pola dalam volume besar data lebih cepat jika dibandingkan dengan pengamatan manual. Beberapa aplikasi dunia nyata yang paling umum dari pembelajaran tanpa pengawasan adalah:
Pembelajaran tanpa pengawasan dan pembelajaran yang diawasi sering dibahas bersama. Tidak seperti algoritma pembelajaran tanpa pengawasan, algoritma pembelajaran yang diawasi menggunakan data berlabel. Dari data itu, ia memprediksi hasil di masa depan atau menetapkan data ke categories tertentu berdasarkan masalah regresi atau klasifikasi yang coba dipecahkan.
Meskipun algoritma pembelajaran yang diawasi biasanya lebih akurat dibandingkan model pembelajaran yang tidak diawasi, algoritma ini memerlukan campur tangan manusia di awal untuk memberikan label data dengan tepat. Namun, kumpulan data berlabel ini memungkinkan algoritma pembelajaran yang diawasi menghindari kompleksitas komputasi karena tidak memerlukan jumlah data pelatihan yang besar untuk mencapai hasil yang diinginkan. Teknik regresi dan klasifikasi yang umum digunakan adalah regresi linier dan logistik, naïve bayes, algoritma KNN, dan hutan acak.
Pembelajaran semi-diawasi terjadi ketika hanya sebagian dari data input tertentu yang diberi label. Pembelajaran tanpa pengawasan dan semi-diawasi dapat menjadi alternatif yang lebih menarik karena dapat memakan waktu dan mahal untuk mengandalkan keahlian domain untuk memberi label data dengan tepat pada pembelajaran yang diawasi.
Untuk menyelami lebih dalam perbedaan antara pendekatan ini, lihat "Supervised vs. Unsupervised Learning: What's the Difference?" (Pembelajaran dengan Pengawasan vs. Tanpa Pengawasan: Apa Perbedaannya?)
Sementara pembelajaran tanpa pengawasan memiliki banyak benefit, beberapa tantangan dapat terjadi ketika memungkinkan model machine learning dijalankan tanpa campur tangan manusia. Beberapa tantangan dapat termasuk: