Teknik pengurangan dimensi seperti PCA, LDA dan t-SNE meningkatkan model machine learning. Mereka mempertahankan fitur-fitur penting dari kumpulan data yang kompleks dengan mengurangi jumlah variabel prediktor untuk meningkatkan generalisasi.
Pengurangan dimensionalitas adalah metode untuk merepresentasikan kumpulan data tertentu menggunakan jumlah fitur yang lebih sedikit (yaitu, dimensi) namun tetap menangkap properti data asli yang bermakna.1 Hal ini berarti menghapus fitur yang tidak relevan atau berlebihan, atau hanya data yang berisik, untuk membuat model dengan jumlah variabel yang lebih sedikit. Pengurangan dimensi mencakup serangkaian pemilihan fitur dan metode kompresi data yang digunakan selama prapemrosesan. Meskipun metode reduksi dimensi berbeda dalam pengoperasiannya, namun semuanya mengubah ruang dimensi tinggi menjadi ruang dimensi rendah melalui ekstraksi atau kombinasi variabel.
Dalam machine learning, dimensi (atau fitur) adalah variabel prediktor yang menentukan hasil model. Mereka juga dapat disebut variabel input. Data dimensi tinggi menunjukkan kumpulan data apa pun dengan sejumlah besar variabel prediktor. Kumpulan data seperti itu sering muncul dalam biostatistik, serta studi observasi ilmu sosial, di mana jumlah titik data (yaitu, observasi) lebih banyak daripada jumlah variabel prediktor.
Kumpulan data dimensi tinggi menimbulkan sejumlah masalah praktis untuk algoritma machine learning, seperti peningkatan waktu komputasi, penyimpanan untuk big data, dan sebagainya. Tetapi kekhawatiran terbesar mungkin adalah penurunan akurasi dalam model prediktif. Model statistik dan machine learning yang dilatih pada kumpulan data dimensi tinggi sering menggeneralisasi dengan buruk.
Kutukan dimensi mengacu pada hubungan terbalik antara peningkatan dimensi model dan penurunan generalisasi. Ketika jumlah variabel input model meningkat, ruang model meningkat. Namun, jika jumlah titik data tetap sama, data menjadi jarang. Ini berarti sebagian besar ruang fitur model kosong, yaitu, tanpa titik data yang dapat diamati. Seiring dengan meningkatnya sparsitas data, titik-titik data menjadi sangat berbeda sehingga model prediktif menjadi kurang efektif dalam mengidentifikasi pola-pola penjelasan.2
Untuk menjelaskan pola dalam data yang jarang secara memadai, model mungkin overfit pada data pelatihan. Dengan cara ini, peningkatan dimensi dapat menyebabkan generalisasi yang buruk. Dimensi tinggi selanjutnya dapat menghambat interpretabilitas model dengan menginduksi multikollinearitas. Ketika jumlah variabel model meningkat, demikian juga kemungkinan bahwa beberapa variabel berlebihan atau berkorelasi.
Mengumpulkan lebih banyak data dapat mengurangi sparsitas data dan dengan demikian mengimbangi kutukan dimensi. Namun, seiring dengan bertambahnya jumlah dimensi dalam model, jumlah titik data yang diperlukan untuk mengurangi kutukan dimensi meningkat secara eksponensial.3 Mengumpulkan data yang cukup, tentu saja, tidak selalu layak. Dengan demikian, perlunya pengurangan dimensi untuk meningkatkan analisis data.
Teknik reduksi dimensi umumnya mereduksi model ke ruang dimensi yang lebih rendah dengan mengekstraksi atau menggabungkan fitur-fitur model. Di luar kesamaan dasar ini, bagaimanapun, algoritma pengurangan dimensi bervariasi.
Analisis komponen utama (PCA) mungkin merupakan metode pengurangan dimensionalitas yang paling umum. Ini adalah bentuk ekstraksi fitur, yang berarti menggabungkan dan mengubah fitur asli kumpulan data untuk menghasilkan fitur baru, yang disebut komponen utama. Pada dasarnya, PCA memilih subset variabel dari suatu model yang bersama-sama mencakup mayoritas atau semua varians yang ada dalam set variabel asli. PCA kemudian memproyeksikan data ke ruang baru yang ditentukan oleh subset variabel ini.4
Misalnya, bayangkan kita memiliki kumpulan data tentang ular dengan lima variabel: panjang tubuh (X1), diameter tubuh pada titik terlebar (X2) panjang taring (X3), berat (X4), dan usia (X5). Tentu saja, beberapa dari lima fitur ini dapat berkorelasi, seperti panjang tubuh, diameter, dan berat. Redundansi dalam fitur ini dapat menyebabkan data yang jarang dan overfitting, mengurangi varians (atau generalisasi) model yang dihasilkan dari data tersebut. PCA menghitung variabel baru (PC1) dari data ini yang menggabungkan dua atau lebih variabel dan memaksimalkan varians data. Dengan menggabungkan variabel yang berpotensi redundan, PCA juga membuat model dengan variabel yang lebih sedikit daripada model awal. Jadi, karena kumpulan data kita dimulai dengan lima variabel (yaitu, lima dimensi), model yang direduksi dapat memiliki satu hingga empat variabel (yaitu, satu hingga empat dimensi). Data tersebut kemudian dipetakan ke model baru ini.5
Variabel baru ini bukanlah salah satu dari lima variabel asli, melainkan fitur gabungan yang dihitung melalui transformasi linear dari matriks kovarian data asli. Secara khusus, komponen utama gabungan kami adalah eigenvector yang sesuai dengan eigenvalue terbesar dalam matriks kovarian. Kita juga dapat membuat komponen utama tambahan yang menggabungkan variabel lain. Komponen utama kedua adalah eigenvector dari eigenvalue terbesar kedua, dan seterusnya.6
Analisis diskriminan linier (LDA) mirip dengan PCA karena memproyeksikan data ke ruang dimensi baru yang lebih rendah, dimensi yang diturunkan dari model awal. LDA berbeda dari PCA dalam kepeduliannya untuk mempertahankan label klasifikasi dalam kumpulan data. Sementara PCA menghasilkan variabel komponen baru yang dimaksudkan untuk memaksimalkan varians data, LDA menghasilkan variabel komponen yang juga memaksimalkan perbedaan kelas dalam data.7
Langkah-langkah untuk menerapkan LDA serupa dengan langkah-langkah untuk PCA. Pengecualian utama adalah bahwa yang pertama menggunakan matriks pencar sedangkan yang terakhir menggunakan matriks kovarian. Jika tidak, seperti halnya di PCA, LDA komputer kombinasi linier dari fitur asli data yang sesuai dengan nilai eigen terbesar dari matriks pencar. Salah satu tujuan LDA adalah untuk memaksimalkan perbedaan antar kelas sekaligus meminimalkan perbedaan antar kelas.8
LDA dan PCA adalah jenis algoritma reduksi dimensi linier. Akan tetapi, penyematan tetangga stokastik terdistribusi-t (t-SNE) adalah bentuk pengurangan dimensi non-linear (atau, pembelajaran manifold). Dengan tujuan utama untuk mempertahankan varian model, LDA dan PCA berfokus pada mempertahankan jarak antara titik data yang berbeda dalam representasi dimensi yang lebih rendah. Sebaliknya, t-SNE bertujuan untuk melestarikan struktur data lokal dengan mengurangi dimensi model. t-SNE lebih jauh berbeda dari LDA dan PCA karena dua yang terakhir ini dapat menghasilkan model dengan lebih dari tiga dimensi, selama model yang dihasilkan memiliki dimensi yang lebih sedikit daripada data asli. Namun, t-SNE memvisualisasikan semua kumpulan data dalam tiga atau dua dimensi.
Sebagai metode transformasi non-linier, t-SNE meninggalkan matriks data. Sebagai gantinya, t-SNE menggunakan kernel Gaussian untuk menghitung kesamaan titik data berpasangan. Titik-titik yang berdekatan satu sama lain dalam kumpulan data asli memiliki probabilitas yang lebih tinggi untuk berdekatan satu sama lain daripada yang lebih jauh. t-SNE kemudian memetakan semua titik data ke dalam ruang tiga atau dua dimensi sambil berusaha mempertahankan pasangan data.9
Ada sejumlah metode pengurangan dimensi tambahan, seperti kernel PCA, analisis faktor, hutan acak, dan dekomposisi nilai tunggal (SVD). PCA, LDA, dan t-SNE adalah yang paling banyak digunakan dan dibahas. Perhatikan bahwa beberapa paket dan pustaka, seperti scikit-learn, telah dimuat sebelumnya dengan fungsi-fungsi untuk mengimplementasikan teknik-teknik ini.
Pengurangan dimensi sering digunakan untuk tujuan visualisasi data.
Pengurangan dimensi sering muncul dalam penelitian biologi di mana jumlah variabel genetik lebih besar daripada jumlah pengamatan. Dengan demikian, beberapa penelitian membandingkan teknik pengurangan dimensi yang berbeda, mengidentifikasi t-SNE dan kernel PCA di antara yang paling efektif untuk kumpulan data genom yang berbeda.10 Studi lain mengusulkan kriteria yang lebih spesifik untuk memilih metode pengurangan dimensi dalam penelitian biologi komputasi.11 Sebuah studi baru-baru ini mengusulkan versi PCA yang dimodifikasi untuk analisis genetik yang terkait dengan leluhur dengan rekomendasi untuk mendapatkan proyeksi yang tidak bias.12
Analisis semantik laten (LSA) adalah bentuk SVD yang diterapkan pada dokumen teks pemrosesan bahasa alami. LSA pada dasarnya beroperasi berdasarkan prinsip bahwa kesamaan antar kata bermanifestasi dalam sejauh mana mereka terjadi bersamaan dalam subruang atau sampel kecil bahasa.13 LSA digunakan untuk membandingkan bahasa dukungan emosional yang diberikan oleh pekerja medis untuk memperdebatkan praktik retoris akhir masa pakai optimal.14 Penelitian lain menggunakan LSA sebagai metrik evaluasi untuk mengkonfirmasi insight dan kemanjuran yang diberikan oleh teknik machine learning lainnya.15
Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.
Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.
Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.
1 Lih-Yuan Deng, Max Garzon, dan Nirman Kumar, Dimensionality Reduction in Data Science, Springer, 2022.
2 Ian Goodfellow Yoshua Bengio, dan Aaron Courville, Deep Learning, MIT Press, 2016.
3 Richard Bellman, Adaptive Control Processes: A Guided Tour, Princeton University Press, 1961.
4 I.T. Jollife, Principal Component Analysis, Springer, 2002.
5 Chris Albon, Machine Learning with Python Cookbook, O’Reilly, 2018. Nikhil Buduma, Fundamentals of Deep Learning, O’Reilley, 2017.
6 I.T. Joliffe, Principal Component Analysis, Springer, 2002. Heng Tao Shen, “Principal Component Analysis,” Encyclopedia of Database Systems, Springer, 2018.
7 Chris Albon, Machine Learning with Python Cookbook, O’Reilly, 2018.
8 Chris Ding, “Dimension Reduction Techniques for Clustering,” Encyclopedia of Database Systems, Springer, 2018.
9 Laurens van der Maaten dan Geoffrey Hinton, “Visualizing Data Using t-SNE,” Journal of Machine Learning Research, vol. 9, no. 86, 2008, hlm. 2579−2605, https://www.jmlr.org/papers/v9/vandermaaten08a.html .
10 Shunbao Li, Po Yang, dan Vitaveska Lanfranchi, "Examing and Evaluating Dimension Reduction Algorithms for Classifying Alzheimer’s Diseases using Gene Expression Data," 17th International Conference on Mobility, Sensing and Networking (MSN), 2021, hlm. 687-693, https://ieeexplore.ieee.org/abstract/document/9751471. Ruizhi Xiang, Wencan Wang, Lei Yang, Shiyuan Wang, Chaohan Xu, dan Xiaowen Chen, "A Comparison for Dimensionality Reduction Methods of Single-Cell RNA-seq Data," Frontiers in Genetics, vol. 12, 2021, https://www.frontiersin.org/journals/genetics/articles/10.3389/fgene.2021.646936/full.
11 Shiquan Sun, Jiaqiang Zhu, Ying Ma, dan Xiang Zhou, “Accuracy, robustness and scalability of dimensionality reduction methods for single-cell RNA-seq analysis,” Genome Biology, vol. 20, 2019, https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1898-6. Lan Huong Nguyen dan Susan Holmes, “Ten quick tips for effective dimensionality reduction,” PLoS Computational Biology, vol. 15, no. 6, 2019, https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006907.
12 Daiwei Zhang, Rounak Dey, dan Seunggeun Lee, "Fast and robust ancestry prediction using principal component analysis," Bioinformatics, vol. 36, no. 11, 2020, hlm. 3439–3446, https://academic.oup.com/bioinformatics/article/36/11/3439/5810493.
13 Nitin Indurkhya and Fred Damerau, Handbook of Natural Language Processing, Edisi ke-2, CRC Press, 2010.
14 Lauren Kane, Margaret Clayton, Brian Baucom, Lee Ellington, dan Maija Reblin, "Mengukur Kesamaan Komunikasi Antara Perawat Rumah Sakit dan Perawat Kanker Menggunakan Analisis Semantik Laten," Keperawatan Kanker, vol. 43, no. 6, 2020, hlm. 506-513, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6982541/.
15 Daniel Onah, Elaine Pang, dan Mahmoud El-Haj, “Data-driven Latent Semantic Analysis for Automatic Text Summarization using LDA Topic Modelling”, 2022 IEEE International Conference on Big Data, 2022, hlm. 2771-2780, https://ieeexplore.ieee.org/abstract/document/10020259.