Pengurangan dimensi adalah teknik ilmu data yang digunakan dalam langkah prapemrosesan dalam machine learning6 Selama proses ini, data yang tidak relevan dan berlebihan akan dihapus, namun tetap mempertahankan informasi yang relevan dari kumpulan data asli.
Fitur dapat dianggap sebagai atribut dari objek data. Misalnya, dalam kumpulan data hewan, Anda akan mengharapkan beberapa fitur numerik (usia, tinggi, berat) dan fitur kategoris (warna, spesies, jenis). Ekstraksi fitur adalah bagian dari arsitektur neural network model, seperti convolutional neural network (CNN).
Pertama, model mengambil data input, kemudian ekstraktor fitur mengubah data menjadi representasi numerik yang dapat digunakan untuk menghitung metode pengurangan dimensi untuk ekstraksi fitur. Representasi ini disimpan dalam vektor fitur untuk model untuk melakukan algoritma untuk pengurangan data.
Setelah ekstraksi, terkadang perlu untuk menstandardisasi data menggunakan normalisasi fitur, terutama ketika menggunakan algoritma tertentu yang sensitif terhadap besaran dan skala variabel (algoritma turunan berbasis gradien, klaster k-means).
Metode yang berbeda dapat diikuti untuk mencapai hasil tertentu tergantung tugasnya. Semua metode berusaha menyederhanakan data sekaligus mempertahankan informasi yang paling berharga.
Sebagian besar model AI modern melakukan ekstraksi fitur otomatis, tetapi masih berguna untuk memahami beragam cara penanganannya. Berikut adalah beberapa metode ekstraksi fitur umum yang digunakan untuk dimensi:
Analisis komponen utama (PCA): Teknik ini mengurangi jumlah fitur dalam kumpulan data yang besar menjadi komponen utama atau fitur baru yang akan digunakan oleh pengklasifikasi model untuk tugas-tugas spesifiknya.
PCA populer karena kemampuannya untuk menciptakan data asli yang tidak berkorelasi, yang berarti dimensi baru yang diciptakan PCA tidak bergantung satu sama lain.7 Hal ini membuat PCA menjadi solusi yang efisien untuk overfitting akibat kurangnya redundansi data. Ini karena setiap fitur dianggap unik.
Linear discriminant analysis (LDA): Teknik ini biasanya digunakan dalam machine learning untuk memisahkan beberapa kelas dan fitur untuk memecahkan masalah klasifikasi.
Teknik ini umumnya digunakan untuk mengoptimalkan model machine learning. Titik data baru diklasifikasikan menggunakan statistik Bayesian untuk memodelkan distribusi data untuk setiap kelas.
T-distributed stochastic neighbor embedding (t-SNE): Teknik machine learning ini biasanya diterapkan pada tugas-tugas seperti visualisasi fitur dalam pembelajaran mendalam8 Hal ini khususnya berguna saat tugasnya adalah merender visualisasi data dimensi tinggi dalam 2D atau 3D.
Ini biasanya digunakan untuk menganalisis pola dan hubungan dalam ilmu data. Karena sifatnya yang nonlinier, t-SNE memakan banyak biaya dari segi komputasi dan biasanya hanya digunakan untuk tugas visualisasi.
Term frequency-Inverse document frequency (TF-IDF): Metode statistik ini mengevaluasi pentingnya kata berdasarkan seberapa sering kata tersebut muncul. Frekuensi istilah dalam dokumen tertentu diberi bobot berdasarkan seberapa sering istilah tersebut muncul di seluruh dokumen dalam koleksi atau korpus.9
Teknik ini biasa digunakan dalam NLP untuk klasifikasi, klaster, dan pencarian informasi. Bag of words (BoW) adalah teknik yang serupa, tetapi alih-alih mempertimbangkan relevansi istilah, ini secara efektif memperlakukan semua kata secara setara.