Apa itu multikolinearitas?

Wanita bisnis bekerja di kantor dengan laptop

Penyusun

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

Apa itu multikolinearitas?

Multikolinearitas terjadi ketika variabel independen dalam persamaan regresi linier saling berkorelasi. Variabel multikolinearitas dapat secara negatif memengaruhi prediksi model pada data yang tidak terlihat. Beberapa teknik regularisasi dapat digunakan untuk mendeteksi dan mengatasi masalah multikolinearitas.

Multikolinearitas atau kolinearitas?

Kolinieritas terjadi ketika dua variabel independen dalam analisis regresi saling berkorelasi, sedangkan multikolinearitas terjadi ketika lebih dari dua variabel independen saling berkorelasi.1 Sebaliknya, ortogonalitas menunjukkan bahwa variabel independen tidak saling berkorelasi. Multikolinearitas dapat menghambat akurasi model prediktif dengan meningkatkan kompleksitas model dan menyebabkan overfitting.

Konteks: analisis regresi 

Persamaan regresi linier multivariat standar adalah:

Rumus regression linier multivariat standar

Y adalah hasil yang diprediksi (variabel dependen), dan X adalah prediktor apa pun (variabel independen atau penjelasan). B adalah koefisien regresi yang dilampirkan dan mengukur perubahan dalam Y untuk setiap satu unit perubahan dalam prediktor yang menyertainya (Xn), dengan asumsi semua prediktor lainnya tetap konstan. X0 adalah nilai variabel respons (Y) ketika variabel independen sama dengan nol. Nilai akhir ini juga disebut y-intercept.2

Tentu saja, persamaan polinomial ini bertujuan untuk mengukur dan memetakan korelasi antara Y dan Xn. Dalam model prediktif yang ideal, tidak ada variabel independen (Xn) yang berkorelasi. Namun demikian, hal ini sering terjadi pada model yang menggunakan data dunia nyata, terutama ketika model dirancang dengan banyak variabel independen.

Efek multikolinearitas

Ketika membangun model prediktif, kita perlu menghitung koefisien karena nilainya jarang diketahui sebelumnya. Untuk menghitung koefisien regresi, kami menggunakan metode penaksir koefisien ordinary least squares (OLS) standar:

Persamaan matriks koefisien OLS

Mengetahui operasi rumus ini membutuhkan keakraban dengan notasi matriks. Namun, yang perlu dipahami saat ini adalah bahwa ukuran dan isi matriks X bergantung pada variabel independen yang dipilih sebagai parameter dalam model. Selain itu, tingkat korelasi antara variabel prediktor—dikenal sebagai koefisien korelasi dan dilambangkan dengan —digunakan untuk menghitung koefisien regresi antara X dan Y.3

Ketika variabel independen ditambahkan atau dihapus dari model, estimasi koefisien untuk prediktor lain bisa berubah secara signifikan, membuat estimasi koefisien menjadi tidak stabil dan kurang akurat. Korelasi antara dua atau lebih prediktor membuat sulit untuk mengukur dampak masing-masing variabel secara terpisah terhadap hasil model. Ingatlah bahwa koefisien regresi mengukur pengaruh variabel prediktor tertentu terhadap hasil dengan asumsi prediktor lainnya tetap konstan. Namun, jika prediktor saling berkorelasi, mungkin sulit untuk memisahkan pengaruh masing-masing prediktor. Akibatnya, estimasi koefisien regresi pada variabel multikolinearitas tidak menunjukkan pengaruh pada masing-masing prediktor terhadap hasil, melainkan hanya pengaruh parsial yang bergantung pada kovariat lain yang termasuk dalam model.4

Selain itu, sampel data yang berbeda, atau bahkan perubahan kecil dalam data, dengan variabel multikolinearitas yang sama, dapat menghasilkan koefisien regresi yang sangat bervariasi. Ini mungkin masalah multikolinearitas yang paling dikenal: overfitting. Overfitting terjadi ketika model memiliki kesalahan rendah pada data pelatihan, tetapi kesalahan generalisasi tinggi. Seperti yang telah disebutkan, signifikansi statistik dari satu variabel dalam kondisi multikolinearitas sulit untuk diinterpretasikan karena adanya gangguan hubungan antara variabel-variabel lain. Hal ini menghambat perhitungan signifikansi statistik dari satu variabel terhadap hasil model, yang biasanya ditunjukkan oleh estimasi koefisien. Karena multikolinearitas menghambat perhitungan estimasi koefisien yang akurat, model dengan multikolinearitas cenderung gagal dalam menggeneralisasi data yang belum terlihat. Dengan demikian, estimasi koefisien untuk variabel yang mengalami multikolinearitas cenderung memiliki variabilitas tinggi, atau dikenal juga sebagai kesalahan standar yang besar.5

Jenis multikolinearitas

Tingkat multikolinearitas

Buku teks dan artikel statistik terkadang membagi antara multikolinearitas ekstrem dan sempurna. Multikolinearitas sempurna terjadi ketika satu variabel independen memiliki korelasi linear sempurna dengan satu atau lebih variabel independen lainnya. Multikolinearitas ekstrem terjadi ketika satu prediktor memiliki korelasi yang sangat tinggi dengan satu atau lebih variabel independen lainnya.6 Ini adalah dua tingkat utama multikolinearitas.

Penyebab multikolinearitas

Tidak ada bentuk multikolinearitas yang jelas terpisah; melainkan, ada berbagai penyebab potensial yang berbeda. Penyebab multikolinearitas dapat bervariasi, mulai dari karakteristik data yang digunakan hingga desain eksperimen yang kurang baik. Beberapa penyebab umum adalah:

Pengumpulan data Multikolinearitas yang berbasis data dapat terjadi ketika sampel yang diambil berasal dari subruang yang tidak representatif dari populasi data yang seharusnya. Sebagai contoh, Montgomery dkk. menyajikan sebuah kumpulan data pengiriman rantai pasokan, di mana jarak dan ukuran pesanan berfungsi sebagai variabel independen dalam model prediktif. Data yang mereka berikan menunjukkan bahwa ukuran inventaris pesanan cenderung meningkat seiring dengan bertambahnya jarak pengiriman. Solusi untuk korelasi ini sederhana: kumpulkan dan sertakan sampel data dari pengiriman jarak pendek dengan inventaris besar, atau sebaliknya.7

- Kendala model Hal ini mirip dengan penyebab pengumpulan data, meskipun tidak identik. Multikolinearitas dapat dihasilkan karena sifat data dan variabel model prediktif yang bersangkutan. Bayangkan kita membuat model prediktif untuk mengukur kepuasan karyawan di tempat kerja, dengan jam kerja per minggu dan tingkat stres yang dilaporkan sebagai dua dari beberapa faktor prediktor. Mungkin saja ada korelasi antara prediktor-prediktor ini karena sifat data tersebut-yaitu, orang yang bekerja lebih banyak kemungkinan besar akan melaporkan stres yang lebih tinggi. Situasi serupa dapat terjadi jika pendidikan dan gaji digunakan sebagai prediktor—karyawan dengan tingkat pendidikan yang lebih tinggi cenderung mendapatkan gaji yang lebih besar. Dalam kasus ini, mengumpulkan lebih banyak data mungkin tidak akan menyelesaikan masalah, karena multikolinearitas sudah menjadi sifat bawaan dari data tersebut.

- Model dengan multikolinearitas berlebihan dapat muncul ketika jumlah prediktor dalam model lebih banyak daripada jumlah titik data yang diamati. Masalah ini dapat muncul terutama dalam biostatistik atau studi biologi lainnya. Menyelesaikan model yang terlalu banyak didefinisikan memerlukan penghapusan beberapa prediktor dari model sepenuhnya. Tetapi bagaimana cara menentukan model mana yang akan dihapus? Seseorang dapat melakukan beberapa studi pendahuluan dengan menggunakan subset regresi (yaitu, prediktor) atau menggunakan analisis komponen utama (PCA) untuk menggabungkan variabel-variabel multikolinear.8

Multikolinearitas berbasis data dan struktural

Jenis data tertentu terutama dapat menyebabkan multikolinearitas. Data deret waktu adalah yang utama di antaranya. Faktor-faktor pertumbuhan dan tren, terutama dalam ekonomi, sering kali bergerak bersama seiring waktu, yang dapat menyebabkan multikolinearitas. Selain itu, penelitian observasional dalam ilmu sosial sangat rentan terhadap multikolinearitas, karena banyak variabel sosioekonomi (misalnya pendapatan, pendidikan, afiliasi politik, dan sebagainya) yang sering kali saling berkaitan dan tidak dapat dikontrol oleh para peneliti.9

Multikolinearitas juga dapat dihasilkan dari manipulasi variabel prediktor. Dalam beberapa kasus, seseorang dapat menggunakan nilai kuadrat atau tertinggal dari variabel independen sebagai prediktor model baru. Tentu saja, prediktor baru ini akan memiliki korelasi yang tinggi dengan variabel-variabel independen yang menjadi sumbernya.10 Ini adalah multikolinearitas struktural.

Desain 3D bola yang menggelinding di lintasan

Berita + Insight AI terbaru 


Temukan insight dan berita yang dikurasi oleh para pakar tentang AI, cloud, dan lainnya di Buletin Think mingguan. 

Cara mendeteksi multikolinearitas

Koefisien estimasi yang sangat besar bisa menjadi indikasi adanya multikolinearitas, terutama jika estimasi koefisien berubah secara signifikan ketika satu prediktor (atau bahkan titik data) ditambahkan atau dihapus dari model. Koefisien dengan interval kepercayaan yang besar juga menunjukkan multikolinearitas. Terkadang, koefisien yang memiliki tanda atau nilai yang berlawanan dengan ekspektasi awal dari analisis data bisa menjadi tanda adanya multikolinearitas. Tentu saja, hal-hal tersebut tidak secara pasti mengonfirmasi adanya multikolinearitas atau memberikan pengukuran kuantitatif.11 Ada beberapa metode diagnostik yang dapat membantu mendeteksinya.

Dua alat yang cukup sederhana untuk mengukur multikolinearitas adalah diagram pencar dan matriks korelasi antar variabel independen. Saat menggunakan diagram pencar, nilai dari dua variabel independen dipetakan terhadap satu sama lain untuk setiap titik data. Jika diagram pencar menunjukkan adanya korelasi linier antara variabel yang dipilih, ini dapat mengindikasikan adanya multikolinearitas. Gambar ini menggambarkan multikolinearitas dalam bentuk diagram pencar, menggunakan contoh kumpulan data pengiriman dari Montgomery dkk.

Contoh diagram sebaran untuk waktu pengiriman versus ukuran pesanan

Metode diagnostik lain adalah menghitung matriks korelasi untuk semua variabel independen. Elemen matriks adalah koefisien korelasi antara setiap prediktor dalam model. Koefisien korelasi adalah nilai antara -1 dan 1 yang mengukur tingkat korelasi antara dua prediktor. Perhatikan bahwa matriks korelasi memiliki angka 1 pada diagonalnya, karena setiap variabel memiliki korelasi sempurna dengan dirinya sendiri. Semakin tinggi nilai elemen dalam matriks, semakin kuat korelasi antara kedua variabel tersebut.12

Matriks korelasi

Faktor inflasi varians

Faktor inflasi varians (Variance Inflation Factor/VIF) adalah metode yang paling umum digunakan untuk mengukur tingkat multikolinearitas dalam model regresi linier. Setiap prediktor dalam model memiliki nilai VIF, yang menunjukkan seberapa besar varians prediktor tersebut meningkat akibat korelasi dengan prediktor lainnya dalam model.

Algoritma VIF berisi beberapa langkah. Penjelasan lengkap tentang algoritma ini berada di luar cakupan artikel ini. Bisa dikatakan, VIF mengukur proporsi variabel yang dipilih dari varians sebagaimana ditentukan oleh variabel independen model lainnya. Persamaan yang mewakili VIF adalah:

Rumus VIF

R-kuadrat (R2) menandakan koefisien determinasi berganda yang diperoleh dengan meregresikan satu variabel independen terhadap semua variabel lainnya.13 Istilah dasar persamaan VIF adalah toleransi, sebuah konsep yang berbeda dari interval toleransi. Toleransi adalah kebalikan dari VIF. Meskipun kurang dibahas dalam literatur, namun ini merupakan cara lain yang layak untuk menghitung multikolinearitas.14

Semakin tinggi nilai VIF, semakin besar tingkat multikolinearitasnya. Tidak ada nilai cutoff VIF yang menentukan model "buruk" atau "baik". Namun, aturan praktis yang umum digunakan menyatakan bahwa nilai VIF sebesar atau lebih yang menandakan adanya multikolinearitas yang signifikan.15

Perhatikan bahwa R dan Python berisi fungsi untuk menghitung VIF. Secara berurutan, fungsi vif() dalam paket mobil R dan fungsi variance_inflation_factor() dalam modul Python statsmodels.stats dapat digunakan untuk menghitung VIF pada model yang ditentukan.16

Cara memperbaiki multikolinearitas

Perbaikan sederhana untuk multikolinieritas berkisar dari mendiversifikasi atau memperbesar ukuran sampel data pelatihan hingga menghapus parameter sama sekali. Beberapa teknik regularisasi juga membantu memperbaiki masalah multikolinieritas. Regresi Ridge adalah salah satu metode yang direkomendasikan secara luas, yang melibatkan penalti koefisien bernilai tinggi, sehingga mengurangi dampak prediktor multikolinear pada hasil model. Regresi Lasso juga menghukum koefisien bernilai tinggi. Perbedaan utama antara keduanya adalah bahwa ridge hanya mengurangi nilai koefisien hingga mendekati nol, sementara lasso dapat mengurangi koefisien hingga nol, yang secara efektif menghilangkan variabel independen dari model.

Contoh kasus penggunaan

Keuangan

Dalam penelitian bisnis dan keuangan, yang umumnya menggunakan data deret waktu dan jarang melibatkan eksperimen terkontrol, multikolinearitas sering menjadi masalah yang berkelanjutan. Penelitian terkini menantang metode penghilangan prediktor (misalnya PCA) untuk menyelesaikan kolinearitas dengan alasan bahwa tindakan tersebut berpotensi menghilangkan prediktor penting.17 Di tempat lain, para peneliti menerapkan regresi ridge, dan metode penyusutan baru yang diturunkan darinya, untuk mengoreksi multikolinearitas dalam menganalisis keputusan manajemen investasi.18

Peradilan pidana

Seperti banyak subbidang lain dalam ilmu sosial, kriminologi dan peradilan pidana bergantung pada studi observasional, di mana multikolinearitas sering muncul. Peneliti dapat menggunakan penggabungan variabel (misalnya PCA),19 serta metode pelepasan variabel untuk menyelesaikan multikolinearitas.20 Perhatikan bagaimana, dalam studi terakhir, VIF yang lebih besar dari tiga menunjukkan multikolinearitas yang terlalu tinggi, yang menggambarkan bahwa tidak semua penelitian mengikuti aturan VIF>10. Penelitian juga menjelajahi metode diagnostik dan resolusi lain untuk multikolinearitas, seperti analisis dominasi, yang memberi peringkat pada prediktor sesuai dengan porsi kontribusi variansnya pada model.21

Mixture of Experts | 12 Desember, episode 85

Decoding AI: Rangkuman Berita Mingguan

Bergabunglah dengan panel insinyur, peneliti, pemimpin produk, dan sosok kelas dunia lainnya selagi mereka mengupas tuntas tentang AI untuk menghadirkan berita dan insight terbaru seputar AI.

Solusi terkait
IBM watsonx.ai

Latih, validasi, lakukan tuning, dan terapkan AI generatif, model dasar, dan kemampuan machine learning dengan IBM watsonx.ai, studio perusahaan generasi berikutnya untuk pembangun AI. Bangun aplikasi AI dalam waktu singkat, dengan sedikit data.

Temukan watsonx.ai
Solusi kecerdasan buatan (AI)

Gunakan AI di bisnis Anda dalam perpaduan antara keahlian AI terdepan di industri dari IBM dan portofolio solusi Anda.

Jelajahi solusi AI
Konsultasi dan layanan AI

Temukan kembali alur kerja dan operasi yang penting dengan menambahkan AI untuk memaksimalkan pengalaman, pengambilan keputusan secara real-time, dan nilai bisnis.

Jelajahi layanan AI
Ambil langkah selanjutnya

Dapatkan akses ke berbagai kemampuan dalam satu alat untuk seluruh siklus pengembangan AI. Hasilkan solusi AI yang kuat dengan antarmuka ramah pengguna, alur kerja yang efisien, serta akses ke API dan SDK berstandar industri.

Jelajahi watsonx.ai Pesan demo langsung
Catatan kaki

1 Max Kuhn dan Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

2 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, dan Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023, https://doi.org/10.1007/978-3-031-38747-0

Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.  Michael Kutner, Christopher Nachtsheim, John Neter, dan William Li, Applied Statistical Linear Models, Edisi ke-5, McGraw-Hill, 2005.

4 Michael Kutner, Christopher Nachtsheim, John Neter, dan William Li, Applied Statistical Linear Models, Edisi ke-5, McGraw-Hill, 2005.

5 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.  Michael H. Kutner, Christopher J. Nachtsheim, John Neter, dan William Li, Applied Statistical Linear Models,  Edisi ke-5, McGraw-Hill, 2005.

6 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.

7 Douglas Montgomery, Elizabeth Peck, dan G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012.

8 R.F. Gunst dan J.T. Webster, "Regression analysis and problems of multicollinearity," Communications in Statistics, Vol. 4, No. 3, 1975, hlm. 277-292, https://doi.org/10.1080/03610927308827246

9 Larry Schroeder, David Sjoquist, dan Paula Stephan, Understanding Regression Analysis: An Introductory Guide, Edisi ke-2, SAGE, 2017.

10 R.F. Gunst dan J.T. Webster, "Regression analysis and problems of multicollinearity," Communications in Statistics, Vol. 4, No. 3, 1975, hlm. 277-292, https://doi.org/10.1080/03610927308827246

11 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997.  Michael Kutner, Christopher Nachtsheim, John Neter, dan William Li, Applied Statistical Linear Models,  Edisi ke-5, McGraw-Hill, 2005.

12 Michael Kutner, Christopher Nachtsheim, John Neter, and William Li, Applied Statistical Linear Models, Edisi ke-5, McGraw-Hill, 2005.

13 Raymand Myers, Classical and modern regression with applications, Duxbury Press, 1986. Paul Allison, Multiple Regression: A Primer, Pine Forge Press, 1999. Joseph Hair, William Black, Barry Babin, Rolph E. Anderson, dan Ronald Tatham, Multivariate Data Analysis, Edisi ke-6, Pearson, 2006.

14 Richard Darlington dan Andrew Hayes, Regression Analysis and Linear Models: Concepts, Applications, and Implementation, Guilford Press, 2017.

15 Michael Kutner, Christopher Nachtsheim, John Neter, and William Li, Applied Statistical Linear Models, Edisi ke-5, McGraw-Hill, 2005.

16 Chantal Larose dan Daniel Larose, Data Science Using Python and R, Wiley, 2019.

17 Thomas Lindner, Jonas Puck, and Alain Verbeke, "Misconceptions about multicollinearity in international business research: Identification, consequences, and remedies," Journal of International Business Studies, Vol. 51, 2020, hlm. 283-298, https://doi.org/10.1057/s41267-019-00257-1

18 Aquiles E.G. Kalatzis, Camila F. Bassetto, dan Carlos R. Azzoni, "Multicollinearity and financial constraint in investment decisions: a Bayesian generalized ridge regression," Journal of Applied Statistics, Vol. 38, No. 2, 2011, hlm. 287-299, https://www.tandfonline.com/doi/abs/10.1080/02664760903406462. Roberto Ortiz, Mauricio Contreras, dan Cristhian Mellado, "Regression, multicollinearity and Markowitz," Finance Research Letters, Vol. 58, 2023, https://doi.org/10.1016/j.frl.2023.104550

19 Kiseong Kuen, David Weisburd, Clair White, dan Joshua Hinkle, "Examining impacts of street characteristics on residents' fear of crime: Evidence from a longitudinal study of crime hot spots," Journal of Criminal Justice, Vol. 82, 2022, https://doi.org/10.1016/j.jcrimjus.2022.101984

20 Howard Henderson, Sven Smith, Christopher Ferguson, and Carley Fockler, "Ecological and social correlates of violent crime," SN Social Sciences, Vol. 3, 2023, https://doi.org/10.1007/s43545-023-00786-5 

21 Robert Peacock "Dominance analysis of police legitimacy’s regressors: disentangling the effects of procedural justice, effectiveness, and corruption," Police Practice and Research, Vol. 22, No. 1, 2021, hlm. 589-605, https://doi.org/10.1080/15614263.2020.1851229