Apa itu ekstraksi fitur?

Penyusun

AI Advocate & Technology Writer

Apa itu ekstraksi fitur?

Ekstraksi fitur adalah teknik yang mengurangi dimensi atau kompleksitas data untuk meningkatkan kinerja dan efisiensi algoritma machine learning (ML). Proses ini memfasilitasi tugas ML dan meningkatkan analisis data dengan menyederhanakan kumpulan data untuk menyertakan hanya variabel atau atribut yang signifikan.

Kinerja model kecerdasan buatan (AI) bergantung pada kualitas data pelatihannya. Model machine learning melalui prapemrosesan untuk membantu memastikan bahwa data berada dalam format yang sesuai untuk pelatihan model yang efisien dan kinerja.= Ekstraksi fitur adalah bagian penting dari alur kerja prapemrosesan.

Selama proses ekstraksi, data tidak terstruktur dikonversi menjadi format yang lebih terstruktur dan dapat digunakan untuk meningkatkan kualitas data dan kemampuan interpretasi model. Ekstraksi fitur adalah bagian dari rekayasa fitur, proses yang lebih luas untuk membuat, memodifikasi, dan memilih fitur dalam data mentah untuk mengoptimalkan kinerja model.

Sejak penelitian awal dalam pengenalan pola, metode dan teknik baru telah dipelajari untuk menggunakan metode heuristik untuk mengekstrak fitur yang paling relevan dari kumpulan data menggunakan AI.¹ Seiring dengan kemajuan penelitian, autoencoder secara tradisional digunakan untuk mengurangi dimensi pembelajaran fitur.²

Data sulit untuk digunakan ketika jumlah fitur atau kovariatnya melebihi jumlah titik data independen. Jenis data ini dianggap sebagai data dimensi tinggi.³ Ekstraksi fitur dapat dianggap sebagai teknik pengurangan dimensi .⁴

Ini sangat penting saat bekerja dengan kumpulan data besar atau kumpulan data dari berbagai modalitas. Semakin banyak fitur yang diekstraksi, semakin tidak mahir dan berkinerja baik model tersebut^.5 Tugas-tugas umum yang mengandalkan ekstraksi fitur yang efisien termasuk pemrosesan gambar, pemrosesan bahasa alami (NLP), dan pemrosesan sinyal.

Tren AI terbaru, dipersembahkan oleh para pakar

Dapatkan kurasi insight tentang berita AI yang paling penting dan menarik. Berlangganan buletin Think mingguan. Lihat Pernyataan Privasi IBM.

Bagaimana cara kerja ekstraksi fitur?

Pengurangan dimensi adalah teknik ilmu data yang digunakan dalam langkah prapemrosesan dalam machine learning⁶ Selama proses ini, data yang tidak relevan dan berlebihan akan dihapus, namun tetap mempertahankan informasi yang relevan dari kumpulan data asli.

Fitur dapat dianggap sebagai atribut dari objek data. Misalnya, dalam kumpulan data hewan, Anda akan mengharapkan beberapa fitur numerik (usia, tinggi, berat) dan fitur kategoris (warna, spesies, jenis). Ekstraksi fitur adalah bagian dari arsitektur neural network model, seperti convolutional neural network (CNN).

Pertama, model mengambil data input, kemudian ekstraktor fitur mengubah data menjadi representasi numerik yang dapat digunakan untuk menghitung metode pengurangan dimensi untuk ekstraksi fitur. Representasi ini disimpan dalam vektor fitur untuk model untuk melakukan algoritma untuk pengurangan data.

Setelah ekstraksi, terkadang perlu untuk menstandardisasi data menggunakan normalisasi fitur, terutama ketika menggunakan algoritma tertentu yang sensitif terhadap besaran dan skala variabel (algoritma turunan berbasis gradien, klaster k-means).

Metode yang berbeda dapat diikuti untuk mencapai hasil tertentu tergantung tugasnya. Semua metode berusaha menyederhanakan data sekaligus mempertahankan informasi yang paling berharga.

Sebagian besar model AI modern melakukan ekstraksi fitur otomatis, tetapi masih berguna untuk memahami beragam cara penanganannya. Berikut adalah beberapa metode ekstraksi fitur umum yang digunakan untuk dimensi:

Analisis komponen utama (PCA): Teknik ini mengurangi jumlah fitur dalam kumpulan data yang besar menjadi komponen utama atau fitur baru yang akan digunakan oleh pengklasifikasi model untuk tugas-tugas spesifiknya.

PCA populer karena kemampuannya untuk menciptakan data asli yang tidak berkorelasi, yang berarti dimensi baru yang diciptakan PCA tidak bergantung satu sama lain.⁷ Hal ini membuat PCA menjadi solusi yang efisien untuk overfitting akibat kurangnya redundansi data. Ini karena setiap fitur dianggap unik.

Linear discriminant analysis (LDA): Teknik ini biasanya digunakan dalam machine learning untuk memisahkan beberapa kelas dan fitur untuk memecahkan masalah klasifikasi.

Teknik ini umumnya digunakan untuk mengoptimalkan model machine learning. Titik data baru diklasifikasikan menggunakan statistik Bayesian untuk memodelkan distribusi data untuk setiap kelas.

T-distributed stochastic neighbor embedding (t-SNE): Teknik machine learning ini biasanya diterapkan pada tugas-tugas seperti visualisasi fitur dalam pembelajaran mendalam⁸ Hal ini khususnya berguna saat tugasnya adalah merender visualisasi data dimensi tinggi dalam 2D atau 3D.

Ini biasanya digunakan untuk menganalisis pola dan hubungan dalam ilmu data. Karena sifatnya yang nonlinier, t-SNE memakan banyak biaya dari segi komputasi dan biasanya hanya digunakan untuk tugas visualisasi.

Term frequency-Inverse document frequency (TF-IDF): Metode statistik ini mengevaluasi pentingnya kata berdasarkan seberapa sering kata tersebut muncul. Frekuensi istilah dalam dokumen tertentu diberi bobot berdasarkan seberapa sering istilah tersebut muncul di seluruh dokumen dalam koleksi atau korpus^{.9

Teknik ini biasa digunakan dalam NLP untuk klasifikasi, klaster, dan pencarian informasi.} Bag of words (BoW) adalah teknik yang serupa, tetapi alih-alih mempertimbangkan relevansi istilah, ini secara efektif memperlakukan semua kata secara setara.

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Tonton semua episode Mixture of Experts

Contoh penggunaan

Pemrosesan gambar dan visi komputer: Proses ekstraksi fitur mengidentifikasi dan mengekstrak karakteristik utama dari gambar dan video. Data gambar mentah (piksel) diubah menjadi fitur-fitur yang dapat digunakan oleh mesin untuk menerapkan algoritma untuk mengekstrak dan mengklasifikasikan serangkaian fitur baru. Misalnya, histogram gradien berorientasi (HOG) adalah algoritma ekstraksi fitur yang digunakan untuk deteksi objek.

Pemrosesan bahasa alami: Ekstraksi fitur mengubah data teks mentah menjadi struktur format yang dapat diproses oleh model machine learning. Ini berguna untuk tugas-tugas seperti klasifikasi, analisis sentimen atau named entity recognition (NER). Teknik ini dapat diterapkan di seluruh industri, digunakan dalam antarmuka obrolan dan bahkan kesehatan perilaku. Penelitian ini menunjukkan bahwa ekstraksi fitur membantu dalam pengenalan emosi multimodal untuk memantau kesehatan perilaku pasien.¹⁰

Pemrosesan sinyal: Teknik ini digunakan untuk menganalisis dan mengekstrak informasi yang berarti dari data sinyal mentah (audio, gambar, atau bahkan data deret waktu) untuk memfasilitasi tugas-tugas seperti klasifikasi, deteksi, atau prediksi. Meskipun pemrosesan sinyal secara tradisional dikaitkan dengan bidang-bidang seperti pengenalan suara, pemrosesan audio, dan analisis gambar, pemrosesan sinyal juga dapat diterapkan di banyak domain lainnya. Misalnya, dalam konteks medis, sinyal psikologis digunakan seperti pembacaan EKG untuk deteksi tren^.11

Ilmu data dan MLOP untuk pemimpin data

Bergabunglah dengan para pemimpin lain untuk mendorong tiga pilar penting MLOP dan AI yang dapat dipercaya: kepercayaan pada data, kepercayaan pada model, dan kepercayaan pada proses.

Sumber daya

Tingkatkan keahlian ML Anda

Belajar konsep dasar dan bangun keterampilan Anda dengan laboratorium praktis, kursus, proyek terpandu, uji coba, dan lainnya.

Buka kekuatan AI + ML generatif

Pelajari cara menggabungkan AI generatif dan machine learning dengan percaya diri ke dalam bisnis Anda.

Penjelasan tentang machine learning

Techsplainers dari IBM menguraikan dasar-dasar machine learning, dari konsep kunci hingga contoh penggunaan. Episode yang jelas dan singkat membantu Anda mempelajari dasar-dasarnya dengan cepat.

Manfaatkan AI : Meningkatkan ROI dengan gen AI

Ingin mendapatkan hasil yang lebih baik dari investasi AI Anda? Pelajari bagaimana meningkatkan AI gen di berbagai bidang utama mendorong perubahan dengan membantu para pemikir terbaik Anda membangun dan memberikan solusi baru yang inovatif.

Cara memilih model dasar yang tepat

Pelajari cara memilih model dasar AI yang paling sesuai untuk contoh penggunaan Anda.

Jelajahi IBM Granite

IBM® Granite adalah rangkaian model AI kami yang terbuka, berkinerja tinggi, dan dapat diandalkan, yang dirancang untuk bisnis dan dioptimalkan untuk menskalakan aplikasi AI Anda. Jelajahi opsi bahasa, kode, deret waktu, dan batasan.

Cara berkembang di era baru AI ini dengan kepercayaan dan keyakinan

Pelajari 3 elemen penting dari strategi AI yang kuat: menciptakan keunggulan kompetitif, meningkatkan skala AI di seluruh bisnis, dan mengembangkan AI tepercaya.

Solusi terkait

IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai

Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI

Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI

Ambil langkah selanjutnya

Dapatkan akses satu atap ke kemampuan yang mencakup siklus hidup pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Catatan kaki

¹ Minsky, Marvin. "Steps toward artificial intelligence." Proceedings of the IRE 49, no. 1 (1961): 8-30. https://rodsmith.nz/wp-content/uploads/Minsky-steps-towards-artificial-intelligence-1.pdf.

² Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning (Cambridge, MA: MIT Press, 2016). https://www.deeplearningbook.org/contents/autoencoders.html.

³ Narisetty, Naveen Naidu. "Bayesian model selection for high-dimensional data." In Handbook of statistics, vol. 43, pp. 207-248. Elsevier, 2020. https://www.sciencedirect.com/science/article/abs/pii/S0169716119300380.

⁴ de-la-Bandera, Isabel, David Palacios, Jessica Mendoza, dan Raquel Barco. "Feature extraction for dimensionality reduction in cellular networks performance analysis." Sensor 20, no. 23 (2020): 6944. https://pmc.ncbi.nlm.nih.gov/articles/PMC7730729.

⁵ https://www.sciencedirect.com/topics/computer-science/feature-extraction.

⁶ Khalid, Samina, Tehmina Khalil, and Shamila Nasreen. "A survey of feature selection and feature extraction techniques in machine learning." In 2014 science and information conference, pp. 372-378. IEEE, 2014. https://ieeexplore.ieee.org/abstract/document/6918213.

⁷ Kuhn, Max, and Kjell Johnson. Applied predictive modeling. Vol. 26. New York: Springer, 2013.

⁸ Zhou, Yuansheng, and Tatyana O. Sharpee. "Using global t-SNE to preserve intercluster data structure." Neural computation 34, no. 8 (2022): 1637-1651. https://pmc.ncbi.nlm.nih.gov/articles/PMC10010455/.

⁹ Sammut, Claude, and Geoffrey I. Webb, eds. Encyclopedia of machine learning. Springer Science & Business Media, 2011.

¹⁰ Minsky, Marvin. "Steps toward artificial intelligence." Proceedings of the IRE 49, no. 1 (1961): 8 30. https://www.sciencedirect.com/science/article/abs/pii/S1566253523005341.

¹¹ Geetha, A. V., T. Mala, D. Priyanka, and E. Uma. "Multimodal emotion recognition with deep learning: advancements, challenges, and future directions." Information Fusion 105 (2024): 102218. https://www.sciencedirect.com/science/article/abs/pii/S1566253523005341.

Apa itu ekstraksi fitur?