Apa itu analisis komponen utama (PCA)?

8 Desember 2023

Apa itu analisis komponen utama (PCA)?

Analisis komponen utama atau PCA mengurangi jumlah dimensi dalam kumpulan data yang besar menjadi komponen utama yang mempertahankan sebagian besar informasi asli. Hal ini dilakukan dengan mentransformasikan variabel yang berpotensi berkorelasi menjadi sekumpulan variabel yang lebih kecil, yang disebut komponen utama.

Karl Pearson berjasa dalam pengembangan PCA pada tahun 1901, tetapi PCA makin populer dengan meningkatnya ketersediaan komputer, yang memungkinkan komputasi statistik multivariatdalam skala besar. PCA sangat efektif untuk memvisualisasikan dan mengeksplorasi kumpulan data berdimensi tinggi, atau data dengan banyak fitur, karena dapat dengan mudah mengidentifikasi tren, pola, atau outlier.

PCA umumnya digunakan untuk prapemrosesan data untuk digunakan dengan algoritma machine learning. PCA dapat mengekstrak fitur paling informatif dari kumpulan data besar sambil mempertahankan informasi paling relevan dari kumpulan data awal. Hal ini mengurangi kompleksitas model karena penambahan setiap fitur baru berdampak negatif pada kinerja model, yang juga biasa disebut sebagai “kutukan dimensionalitas.” 

Dengan memproyeksikan kumpulan data dimensi tinggi ke dalam ruang fitur yang lebih kecil, PCA juga meminimalkan, atau sama sekali menghilangkan, masalah umum seperti multikolinearitas dan overfitting. Multikolinearitas terjadi ketika dua atau lebih variabel independen berkorelasi tinggi satu sama lain, yang dapat menjadi masalah untuk pemodelan kausal. Model yang overfitting akan digeneralisasikan dengan buruk ke data baru, sehingga mengurangi nilainya secara keseluruhan. PCA adalah pendekatan yang umum digunakan dalam analisis regresi tetapi juga dimanfaatkan untuk berbagai contoh penggunaan, seperti pengenalan pola, pemrosesan sinyal, pemrosesan gambar, dan banyak lagi.

Meskipun ada variasi lain dari PCA, seperti regresi komponen utama dan PCA kernel, ruang lingkup artikel ini akan fokus pada metode utama dalam literatur saat ini.

PCA vs. LDA vs. analisis faktor

PCA adalah teknik reduksi dimensi seperti analisis diskriminan linier (LDA). Berbeda dengan LDA, PCA tidak terbatas pada tugas pembelajara yang diawasi. Untuk tugas pembelajaran tanpa pengawasan, ini berarti PCA dapat mengurangi dimensi tanpa harus mempertimbangkan label kelas atau kategori. PCA juga terkait erat dengan analisis faktor. Keduanya mengurangi jumlah dimensi atau variabel dalam kumpulan data sambil meminimalkan kehilangan informasi. PCA memecah variabel menjadi subset komponen utama yang independen secara linier. Namun, analisis faktor umumnya digunakan untuk memahami struktur data yang mendasari, dengan fokus pada variabel laten, atau faktor yang tidak terukur, yang menangkap penyebaran variabel.

Pengelompokan PCA vs. K-mean

PCA dan pengelompokan k-means adalah teknik machine learning tanpa pengawasan yang digunakan untuk analisis data, tetapi keduanya memiliki tujuan dan metode yang berbeda. PCA digunakan untuk mengurangi dimensi data, sementara pengelompokan k-means mengelompokkan titik-titik data berdasarkan kemiripan. Teknik yang Anda pilih bergantung pada kumpulan data spesifik dan tujuan analisis Anda.

PCA menciptakan variabel baru, seperti komponen utama, yang merupakan kombinasi linier dari variabel asli. PCA mengambil kumpulan data dengan beberapa variabel sebagai input, dan menghasilkan kumpulan data ke dalam subruang yang lebih rendah, yaitu kumpulan data yang dikurangi dengan variabel yang lebih sedikit. Ini sering digunakan dalam analisis data eksplorasi untuk membangun model prediktif, tetapi juga digunakan dalam prapemrosesan data untuk pengurangan dimensi.

K-means adalah algoritma pengelompokan yang menetapkan titik data ke kluster berdasarkan jaraknya dari pusat kluster. Dibutuhkan kumpulan data dengan satu atau beberapa variabel sebagai input, dan menghasilkan sekumpulan kluster dengan titik data yang serupa. Ini sering digunakan untuk mengelompokkan data untuk berbagai contoh penggunaan, seperti segmentasi gambar, segmentasi pelanggan, dan deteksi anomali.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Cara kerja analisis komponen utama

PCA meringkas konten informasi dari kumpulan data yang besar menjadi sekumpulan variabel yang lebih kecil dan tidak berkorelasi yang dikenal sebagai komponen utama. Komponen utama ini adalah kombinasi linear dari variabel asli yang memiliki varians maksimum dibandingkan dengan kombinasi linear lainnya. Komponen-komponen ini menangkap informasi sebanyak mungkin dari kumpulan data asli.

Teknik statistik ini melibatkan operasi aljabar linier dan matriks, dan mengubah kumpulan data asli menjadi sistem koordinat baru yang terstruktur oleh komponen utama. Vektor eigen dan nilai eigen dari matriks kovarians yang mendasari komponen utama memungkinkan analisis transformasi linier ini.

Bayangkan Anda telah memetakan kumpulan data dengan beberapa fitur, menghasilkan diagram pencar multi-dimensi. Vektor eigen memberikan arah varians dalam diagram pencar. Nilai eigen adalah koefisien vektor eigen; ini menunjukkan pentingnya data arah ini. Oleh karena itu, nilai eigen yang tinggi berarti bahwa vektor eigen yang sesuai lebih kritis. Karena komponen utama mewakili arah varians maksimum dalam data, komponen utama juga merupakan vektor eigen dari matriks kovarian.

Dua komponen utama dihitung dalam PCA: komponen utama pertama (PC1) dan komponen utama kedua (PC2).

Komponen utama pertama

Komponen utama pertama (PC1) adalah arah dalam ruang di mana titik-titik data memiliki varians tertinggi atau paling banyak. Ini adalah garis yang paling mewakili bentuk titik yang diproyeksikan. Makin besar variabilitas yang ditangkap pada komponen pertama, makin besar pula informasi yang dipertahankan dari kumpulan data asli. Tidak ada komponen utama lain yang dapat memiliki variabilitas yang lebih tinggi.

Komponen utama kedua

Kita menghitung komponen utama kedua (PC2) dengan cara yang sama seperti PC1. PC2 menyumbang varians tertinggi berikutnya dalam kumpulan data dan harus tidak berkorelasi dengan PC1. Artinya, PC2 harus ortogonal, yaitu tegak lurus, terhadap PC1. Hubungan ini juga dapat dinyatakan sebagai korelasi antara PC1 dan PC2 sama dengan nol.

Diagram pencar biasanya digunakan untuk menunjukkan hubungan antara PC1 dan PC2 ketika PCA diterapkan ke kumpulan data. Sumbu PC1 dan PC2 akan tegak lurus satu sama lain.

Jika ada komponen berikutnya, maka komponen tersebut juga akan mempertahankan sifat yang sama, di mana komponen tersebut tidak akan berkorelasi dengan komponen lain dan menjelaskan variasi yang tersisa.

Menghitung komponen utama

Proses perhitungan PCA dirangkum dalam langkah-langkah di bawah ini, yang menunjukkan bagaimana komponen utama dihitung dan bagaimana hubungannya dengan data asli.

Menstandardisasi rentang variabel awal kontinu

Karena PCA dapat bias terhadap fitur tertentu, penting untuk mengevaluasi apakah normalisasi data diperlukan. Data harus mencerminkan distribusi normal dengan rata-rata nol dan standar deviasi satu.

Pada langkah ini, nilai rata-rata variabel dihitung dan dikurangi dari kumpulan data asli sehingga setiap variabel memberikan kontribusi yang sama terhadap analisis. Nilai ini kemudian dibagi dengan standar deviasi untuk setiap variabel sehingga semua variabel menggunakan skala yang sama.

Hitung matriks kovarians untuk mengidentifikasi korelasi

Kovarians (cov) mengukur seberapa kuat korelasi dua atau lebih variabel. Matriks kovarians meringkas kovarians yang terkait dengan semua kombinasi pasangan variabel awal dalam kumpulan data. Menghitung matriks kovarians membantu mengidentifikasi hubungan antara variabel-yaitu, bagaimana variabel bervariasi dari rata-rata satu sama lain. Matriks data ini adalah matriks simetris, yang berarti kombinasi variabel dapat direpresentasikan sebagai d × d, di mana d adalah jumlah dimensi. Misalnya, untuk kumpulan data 3 dimensi, akan ada kombinasi variabel 3 × 3 atau 9 dalam matriks kovarians.

Tanda variabel dalam matriks memberi tahu kita apakah kombinasi berkorelasi:

  • Positif (variabel berkorelasi dan meningkat atau menurun pada saat yang sama)

  • Negatif (variabel tidak berkorelasi, artinya satu menurun sementara yang lain meningkat)

  • Nol (variabel tidak terkait satu sama lain)

Hitung vektor eigen dan nilai eigen dari matriks kovarians

Di sini, kita menghitung vektor eigen (komponen utama) dan nilai eigen dari matriks kovarians. Sebagai vektor eigen, komponen utama mewakili arah varians maksimum dalam data. Nilai eigen mewakili jumlah varians di setiap komponen. Pemeringkatan vektor eigen berdasarkan nilai eigen mengidentifikasi urutan komponen utama.

Pilih komponen utama

Di sini, kita harus memutuskan komponen mana yang harus disimpan dan yang harus dibuang. Komponen dengan nilai eigen rendah biasanya tidak akan begitu penting. Scree plot biasanya memplot proporsi varians total yang dijelaskan dan proporsi kumulatif varians. Metrik ini membantu seseorang untuk menentukan jumlah komponen optimal untuk dipertahankan. Titik di mana sumbu Y dari nilai eigen atau varians total yang dijelaskan menciptakan "siku" secara umum akan menunjukkan berapa banyak komponen PCA yang ingin kita sertakan.

Mengubah data menjadi sistem koordinat baru

Akhirnya, data diubah menjadi sistem koordinat baru yang ditentukan oleh komponen utama. Artinya, vektor fitur yang dibuat dari vektor eigen matriks kovarian memproyeksikan data ke sumbu baru yang ditentukan oleh komponen utama. Ini menciptakan data baru, menangkap sebagian besar informasi tetapi dengan dimensi yang lebih sedikit daripada kumpulan data asli.

Mixture of Experts | Podcast

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Menafsirkan hasil PCA

Plot PCA adalah diagram pencar yang dibuat dengan menggunakan dua komponen utama pertama sebagai sumbu. Komponen utama pertama (PC1) adalah sumbu x, dan komponen utama kedua (PC2) adalah sumbu y. Diagram pencar menunjukkan hubungan antara pengamatan (titik data) dan variabel baru (komponen utama). Posisi setiap titik menunjukkan nilai PC1 dan PC2 untuk pengamatan itu.

Arah dan panjang panah plot menunjukkan muatan variabel, yaitu bagaimana setiap variabel berkontribusi pada komponen utama. Jika memiliki pemuatan tinggi untuk komponen tertentu, variabel sangat berkorelasi dengan komponen itu. Ini dapat menyoroti variabel mana yang memiliki dampak signifikan pada variasi data.

Jumlah komponen utama yang tersisa setelah menerapkan PCA dapat membantu Anda menafsirkan output data. Komponen utama pertama menjelaskan varians data paling banyak, dan setiap komponen selanjutnya menyumbang varians yang lebih sedikit. Dengan demikian, jumlah komponen dapat menunjukkan jumlah informasi yang disimpan dari kumpulan data asli. Lebih sedikit komponen setelah menerapkan PCA dapat berarti Anda tidak menangkap banyak variasi data. Lebih banyak komponen menunjukkan lebih banyak variasi data, tetapi hasilnya mungkin lebih sulit untuk ditafsirkan. Anda dapat menentukan jumlah komponen optimal untuk dipertahankan dengan menggunakan scree plot atau varians kumulatif yang dijelaskan.

Aplikasi analisis komponen utama

Menerapkan PCA dapat membantu memproses atau mengekstrak fitur paling informatif dari kumpulan data dengan banyak variabel. Pemrosesan awal mengurangi kerumitan sekaligus mempertahankan informasi yang relevan. Skenario umum yang menggunakan PCA meliputi:

Kompresi gambar

PCA mengurangi dimensi gambar sambil mempertahankan informasi penting. Ini membantu menciptakan representasi gambar yang ringkas, membuatnya lebih mudah untuk disimpan dan dikirim.

Visualisasi data

PCA membantu memvisualisasikan data dimensi tinggi dengan memproyeksikannya ke dalam ruang dimensi yang lebih rendah, seperti plot 2D atau 3D. Ini menyederhanakan interpretasi dan eksplorasi data.

Pemfilteran kebisingan

PCA dapat menghilangkan kebisingan atau informasi yang berlebihan dari data dengan berfokus pada komponen utama yang menangkap pola yang mendasarinya.

Memprediksi kanker payudara

PCA juga memiliki aplikasi dalam layanan kesehatan. Misalnya, PCA telah membantu dalam mendiagnosis penyakit lebih awal dan lebih akurat. Makalah yang berjudul "Prediksi Kanker Payudara menggunakan Analisis Komponen Utama dengan Regresi Logistik" menganalisis kumpulan data kanker payudaraterkenal yang dikumpulkan dari pasien di Rumah Sakit Universitas Wisconsin, Madison. Penulis penelitian ini, Akbar, menggunakan PCA untuk mengurangi dimensi enam atribut data yang berbeda:

  • mean_radius dari benjolan dada

  • mean_texture dari gambar sinar-X

  • mean_perimeter dari benjolan

  • mean_area dari benjolan

  • mean_smoothness dari gambar

  • diagnosis (apakah pasien telah didiagnosis menderita kanker atau tidak).

Algoritma klasifikasi pembelajaran yang diawasi, regresi logistik, kemudian diterapkan untuk memprediksi apakah ada kanker payudara.

Kapan harus menggunakan analisis komponen utama

Ada banyak teknik pengurangan dimensi lain yang tersedia, termasuk analisis diskriminan linierrandom forest, uniform manifold approximation and projection (UMAP), dan t-distributed stochastic neighbor (t-SNE). Pertimbangkan faktor-faktor berikut untuk memutuskan apakah PCA adalah pendekatan yang tepat untuk analisis Anda:

  • Linearitas: PCA adalah teknik linear, sementara teknik lain seperti t-SNE dan UMAP bersifat non-linear. Ini berarti bahwa PCA lebih cocok untuk kumpulan data dengan hubungan linier antar-variabel. Teknik non-linear lebih cocok untuk kumpulan data dengan hubungan non-linear atau lebih kompleks antar-variabel.

  • Komputasi: PCA menggunakan operasi matriks untuk komputasi guna mengelola kumpulan data yang besar secara efisien. Teknik lain, seperti t-SNE dan UMAP, mahal dan mungkin tidak cocok untuk kumpulan data besar.

  • Pelestarian informasi: PCA mempertahankan jumlah varians maksimum dalam data. t-SNE dan UMAP berfokus pada pelestarian struktur lokal data. Oleh karena itu, PCA lebih cocok untuk mengidentifikasi variabel data yang paling penting. Teknik non-linear lebih cocok untuk memvisualisasikan data dalam dimensi yang lebih rendah.

  • Ekstraksi fitur: PCA adalah teknik ekstraksi fitur. PCA menghasilkan variabel baru yang merupakan kombinasi linier dari variabel asli. Teknik lain (seperti UMAP dan t-SNE) tidak membuat variabel baru. Ini berarti PCA dapat mengidentifikasi variabel yang paling penting dalam data. Teknik non-linear lebih cocok untuk memvisualisasikan data dalam dimensi yang lebih rendah.
Solusi terkait
Alat dan solusi analitik

Untuk berkembang, perusahaan harus menggunakan data untuk membangun loyalitas pelanggan, mengotomatiskan proses bisnis, dan berinovasi dengan solusi yang didorong oleh AI.

Jelajahi solusi analitik
Layanan konsultasi data dan analitik

Buka nilai data perusahaan dengan IBM Consulting, membangun organisasi berbasis insight yang memberikan keuntungan bisnis.

Temukan layanan analitik
IBM Cognos Analytics

Memperkenalkan Cognos Analytics 12.0, wawasan yang didukung AI untuk pengambilan keputusan yang lebih baik.

Jelajahi Cognos Analytics
Ambil langkah selanjutnya

Untuk berkembang, perusahaan harus menggunakan data untuk membangun loyalitas pelanggan, mengotomatiskan proses bisnis, dan berinovasi dengan solusi yang didorong oleh AI.

Jelajahi solusi analitik Temukan layanan analitik