다중 상관성이란 무엇인가요?

사무실에서 노트북으로 일하고 있는 여성 사업가

작성자

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

다중 상관성이란 무엇인가요?

다중 상관성은 선형 회귀 방정식의 독립 변수가 서로 상관관계를 갖는 경우를 나타냅니다. 다중 상관 변수는 보이지 않는 데이터에 대한 모델 예측에 부정적인 영향을 미칠 수 있습니다. 여러 정규화 기법을 통해 다중 상관성을 감지하고 수정할 수 있습니다.

다중 상관성 또는 상관성?

상관성은 회귀 분석에서 두 독립 변수가 서로 상관관계를 가진 경우를 의미하며, 다중 상관성은 두 개 이상의 독립 변수가 상관관계를 가진 경우를 나타냅니다.1 그 반대는 직교성으로, 독립 변수 사이에 상관관계가 없는 경우를 나타냅니다. 다중 상관성은 모델 복잡성과 과적합을 증가시키므로 예측 모델이 정확한 예측을 생성하는 데 방해가 됩니다.

컨텍스트: 회귀 분석 

표준 다중 변수 선형 회귀 방정식은 다음과 같습니다.

Y는 예측된 아웃풋(종속 변수)이고 X는 예측 변수(독립 변수 또는 설명 변수)입니다. B는 첨부된 회귀 계수이며, 다른 모든 예측 변수가 일정하다고 가정할 때 동반 예측자(Xn)가 1단위 변화할 때마다 Y의 변화를 측정합니다. X0은 독립 변수가 0인 경우 반응 변수(Y)의 값입니다. 이 최종값은 y절편이라고도 합니다.2

이 다항 방정식의 목적은 YXn 사이의 상관관계를 측정하고 매핑하는 것입니다. 이상적인 예측 모델에서는 어떤 독립 변수(Xn)도 서로 상관관계를 갖지 않습니다. 그렇지만 실제 데이터를 사용하는 모델, 특히 독립 변수가 많은 모델을 설계할 때는 이러한 문제가 종종 발생할 수 있습니다.

다중 상관성의 영향

예측 모델을 만들 때는 계수를 미리 알 수 있는 경우가 드물기 때문에 계수를 계산해야 합니다. 회귀 계수를 추정하기 위해 표준 일반 최소 제곱(OLS) 행렬 계수 추정기를 사용합니다.

이 공식의 연산을 이해하려면 행렬 표기법을 잘 알아야 합니다. 그러나 여기에서는 모델의 매개변수로 선택된 독립 변수에 의해 X 행렬의 크기와 내용이 결정된다는 점만 이해하면 됩니다. 또한, 예측 변수 간의 상관관계 정도(상관 계수라고 하며, 상관 계수로 표시됨)는XY간의 회귀 계수를 계산하는 데 사용됩니다.3

독립 변수가 모델에 포함되거나 제외되면 하나의 예측 변수에 대한 추정된 계수가 크게 변경되어 계수 추정치가 신뢰할 수 없고 부정확해질 수 있습니다. 둘 이상의 예측 변수 사이의 상관관계로 인해 특정 변수가 모델 아웃풋에 미치는 개별 영향을 파악하기가 어렵습니다. 회귀 계수는 다른 예측 변수가 일정하다는 가정 하에 주어진 예측 변수가 아웃풋에 미치는 영향을 측정한다는 점을 기억하세요.그러나 예측 변수가 서로 상관관계를 갖는 경우 예측 변수를 분리하는 것이 불가능할 수 있습니다. 따라서 다중 상관 변수에 대한 추정된 회귀 계수는 특정 예측 변수가 아웃풋에 미치는 영향을 반영하지 않고, 모델에 있는 공분산에 따라 예측 변수의 부분 효과를 반영합니다.4

또한, 동일한 다중 상관 변수에 대한 서로 다른 데이터 샘플을 사용하거나 또는 심지어 데이터에 작은 변경을 가하는 것만으로도 회귀 계수에 큰 차이를 초래할 수 있습니다. 이것이 아마도 다중 상관성에서 가장 널리 알려진 문제인 과적합일 것입니다. 과적합은 모델의 학습 오류가 낮고 일반화 오류가 높은 것을 나타냅니다. 앞서 언급했듯이, 다른 변수와의 관계적 노이즈로 인해 다중 상관 변수 하나의 통계적 유의성이 불분명할 수 있습니다. 이로 인해 모델 아웃풋에서 어떤 한 변수의 통계적 유의성을 정확하게 계산할 수 없게 되는데, 이는 계수 추정치가 주로 나타내는 바입니다. 다중 상관성으로 인해 정확한 계수 추정치를 계산할 수 없기 때문에 다중 상관성 모델은 보이지 않는 데이터에 일반화하지 못합니다. 이러한 방식으로 다중 상관성 변수에 대한 추정 계수는 큰 변동성을 가지며 이를 큰 표준 오차라고도 합니다.5

다중 상관성의 유형

다중 상관성 정도

통계 교과서나 논문에서는 극단적인 다중 상관성과 완전한 다중 상관성을 구분하는 경우가 있습니다. 완전한 다중 공선성은 하나의 독립 변수가 하나 이상의 독립 변수와 완벽한 선형 상관관계를 가지는 것입니다. 극단적인 다중 상관성은 하나의 예측 변수가 하나 이상의 추가 독립 변수와 높은 상관관계를 가지는 경우입니다.6 다중 상관성의 정도는 이렇게 두 가지로 구분됩니다.

다중 상관성의 원인

다중 상관성에는 다양한 잠재적 원인만큼이나 다양한 형태가 존재합니다. 고려 중인 데이터의 특성에서 잘못 설계된 실험에 이르기까지 다양한 원인으로 인해 이러한 결과가 발생할 수 있습니다. 몇 가지 일반적인 원인은 다음과 같습니다.

데이터 수집 해당 데이터에서 대표성이 없는 하위 공간을 샘플링하는 경우 이 데이터 기반 다중 상관성이 발생할 수 있습니다. 예를 들어, Montgomery et al.은 주문 거리와 크기가 예측 모델의 독립 변수인 공급망 배송 데이터 세트를 예로 듭니다. 이 데이터에서 주문 재고 크기는 배송 거리에 따라 증가하는 것으로 보입니다. 이 상관관계에 대한 해결책은 간단합니다. 재고가 큰 단거리 배송 주문 데이터 샘플 또는 그 반대의 경우를 수집하여 포함하는 것입니다.7

- 모델 제약 이는 데이터 수집 원인과 유사하지만 동일하지는 않습니다. 다중 상관성은 해당 데이터의 특성과 예측 모델 변수로 인해 발생할 수 있습니다. 주당 근무 시간과 보고된 스트레스를 여러 예측 변수 중 두 가지로 사용하여 직장에서의 직원 만족도를 측정하는 예측 모델을 만든다고 가정해 보겠습니다. 데이터의 특성으로 인해 이러한 예측 변수 간에 상관관계가 있을 수 있습니다. 일을 더 많이 하는 사람이 스트레스가 더 높다고 보고할 가능성이 높습니다. 학력과 급여가 모델 예측 변수인 경우에도 비슷한 상황이 발생할 수 있습니다. 학력이 높은 직원이 급여를 더 많이 받을 가능성이 높습니다. 이러한 경우에는 데이터 자체에 다중 상관성이 내재되어 있으므로 데이터를 더 많이 수집해도 문제가 완화되지 않을 수 있습니다.

- 과잉 정의된 모델 다중 상관성은 데이터 관찰 포인트보다 모델 예측 변수가 더 많을 때 발생할 수 있습니다. 특히 생물통계학 또는 기타 생물학 연구에서 이러한 문제가 발생할 수 있습니다. 과잉 정의된 모델을 해결하려면 모델에서 일부 예측 변수를 모두 제거해야 합니다. 하지만 어떤 모델을 제거할지 결정하는 방법은 무엇일까요? 회귀 변수의 하위 집합(예: 예측 변수)을 사용하여 여러 가지 예비 연구를 수행하거나 주성분 분석(PCA)을 활용하여 다중 상관 변수를 결합할 수 있습니다.8

데이터 기반 및 구조적 다중 상관성

특히 일부 데이터 유형은 다중 상관성을 유발할 수 있습니다. 시계열 데이터가 가장 두드러지는 예입니다. 특히 경제학에서 성장과 추세 요인은 시간이 지남에 따라 같은 방향으로 움직이는 경우가 많아 다중 상관성을 쉽게 만들어냅니다. 또한, 사회과학에서의 관찰 연구는 많은 사회 경제적 변수(예:소득, 교육, 정치적 성향 등)와 상호 연관되어 있으며 연구자가 통제할 수 없는 경우가 많습니다.9

다중 상관성은 예측 변수의 조작으로 인해 발생할 수도 있습니다. 경우에 따라 독립 변수의 제곱 또는 지연값을 새 모델의 예측 변수로 사용할 수 있습니다. 물론 이러한 새로운 예측 변수는 도출된 독립 변수와 높은 상관관계를 공유합니다.10 이를 구조적 다중 상관성이라고 합니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스+인사이트


주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

다중 상관성을 감지하는 방법

큰 추정 계수는 다중 상관성의 존재를 나타내는 잠재적인 신호이며, 모델에서 단일 예측 변수(또는 데이터 포인트)가 추가되거나 제거될 때 추정 계수가 큰 변화가 있을 수 있습니다. 신뢰 구간이 큰 계수도 다중 상관성을 나타냅니다. 때때로 예비 데이터 분석에서 도출된 예상과 반대되는 부호 또는 크기를 갖는 계수는 다중 상관성을 나타낼 수 있습니다. 물론 이러한 방법 중 어느 것도 다중 상관성을 확실하게 확인하거나 정량적으로 측정하지는 못합니다.11 그러나 다중 상관성을 확인할 수 있는 몇 가지 진단 방법이 있습니다.

다중 상관성을 측정하는 비교적 간단한 두 가지 도구는 산점도와 독립 변수의 상관 행렬입니다. 산점도를 사용할 때는 각 데이터 요소에 대한 독립 변수 값을 서로 비교하여 플롯합니다. 산점도에서 선택한 변수 간에 선형 상관관계가 나타나면 어느 정도의 다중 상관성이 존재할 수 있습니다. 이 그림은 Montgomery et al.의 배송 데이터 세트 예를 사용한 산점도의 다중 상관성 데이터를 보여줍니다.

또 다른 진단 방법은 모든 독립 변수에 대한 상관 행렬을 계산하는 것입니다. 행렬의 요소는 모델에 있는 각 예측 변수 간의 상관 계수입니다. 상관 계수는 두 예측 변수 간의 상관 정도를 측정하는 -1에서 1 사이의 값입니다. 각 변수는 서로 완벽한 상관관계를 갖기 때문에 행렬에 대각선 1이 포함된다는 점에 유의하세요. 주어진 행렬 요소가 높을수록 두 요소 간의 상관관계가 커집니다.12

분산 인플레이션 계수

분산 인플레이션 계수(VIF)는 선형 회귀 모델에서 다중 상관성 정도를 결정하는 가장 일반적인 방법입니다. 각 모델 예측 변수에는 해당 예측 변수의 분산이 모델의 다른 예측 변수에 의해 얼마나 부풀려지는지를 측정하는 VIF 값이 있습니다.

VIF 알고리즘에는 여러 단계가 있습니다. 그러나 이 알고리즘에 대한 자세한 설명은 이 문서의 범위를 벗어납니다. VIF는 모델의 다른 독립 변수에 의해 결정된 분산에 대한 선택된 변수의 비율을 측정합니다. VIF를 나타내는 방정식은 다음과 같습니다.

R 제곱(R2)은 한 독립 변수를 다른 모든 변수에 대해 회귀시켜 얻은 다중 결정 계수를 의미합니다.13 VIF 방정식의 하단 항은 허용 오차로, 허용 오차 구간과는 다른 개념입니다. 허용 오차는 VIF의 역수입니다. 문헌에서 훨씬 덜 논의되기는 하지만, 그럼에도 불구하고 다중공선성을 계산하는 또 다른 실행 가능한 수단입니다.14

VIF 값이 높을수록 다중 상관성 정도가 높습니다. '나쁜' 모델 또는 '좋은' 모델을 결정하는 VIF 컷오프 값은 없습니다. 그렇지만 널리 알려진 경험 법칙에 의하면, VIF 값이 10보다 크거나 같으면 심각한 다중 상관성이 존재하는 것입니다.15

Python과 R에는 VIF를 계산하는 함수가 포함되어 있습니다. R의 car 패키지에 있는 vif() 함수와 Python의 statsmodels.stats 모듈에 있는 variance_inflation_factor() 함수는 각각 지정된 모델에 대한 VIF를 계산할 수 있습니다.16

다중 상관성을 해결하는 방법

앞서 언급했듯이 다중 상관성을 간단히 해결하는 방법은 학습 데이터의 샘플 크기를 다양화하거나 확대하는 것부터 매개변수를 아예 제거하는 것까지 다양합니다. 몇 가지 정규화 기법도 다중 상관성 문제를 해결하는 데 도움이 됩니다. 널리 권장되는 방법 중 하나인 릿지 회귀는 높은 값의 계수에 불이익을 주어 다중 선형 예측 변수가 모델의 아웃풋에 미치는 영향을 줄이는 것입니다. 마찬가지로 라소 회귀도 높은 값의 계수에 불이익을 줍니다. 이 둘의 주요 차이점은 릿지는 계수 값을 0에 가깝게 줄이는 데 그치는 반면, 라소는 계수를 0으로 줄여 모델에서 독립 변수를 효과적으로 제거한다는 점입니다.

사용 사례 예시

금융

비즈니스 및 금융 연구는 통제된 실험을 수행할 수 없고 대부분 시계열 데이터로 작업하기 때문에 다중 상관성은 고질적인 문제입니다. 최근 연구는 상관성 문제를 해결하기 위한 예측 변수 삭제 방법(예:PCA)이 중요한 예측 변수를 잠재적으로 제거할 수 있다는 이유로 이의를 제기합니다.17 또 다른 연구에서는 투자 관리 결정을 분석할 때 다중 상관성을 수정하기 위해 릿지 회귀와 그로부터 파생된 새로운 축소 방법을 적용합니다.18

형사 사법

사회과학의 다른 많은 하위 분야와 마찬가지로 범죄학 및 형사 사법이 주로 의존하는 관찰 연구법에서는 다중 상관성이 자주 발생합니다. 연구자는 다중 상관성을 해결하기 위해 변수 결합(예:PCA)19 및 변수 삭제 방법을 사용할 수 있습니다.20 주의할 점은, 후자의 연구에서는 VIF가 3보다 크면 다중 상관성이 너무 높다는 뜻이며, 모든 연구가 VIF>10 규칙을 따르는 것은 아니라는 점을 알 수 있습니다. 연구는 또한 모델에 기여한 분산 비율에 따라 예측 변수의 순위를 매기는 우위 분석과 같은 다중 상관성에 대한 다른 진단 및 해결 방법도 연구하고 있습니다.21

Mixture of Experts | 8월 28일, 에피소드 70

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

관련 솔루션
IBM watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.

watsonx.ai 살펴보기 라이브 데모 예약하기
각주

1 Max Kuhn 및 Kjell Johnson, Applied Predictive Modeling, Springer, 2016년.

2 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani, Jonathan Taylor, An Introduction to Statistical Learning with Applications in Python, Springer, 2023년, https://doi.org/10.1007/978-3-031-38747-0

5 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997년. Michael H. Kutner, Christopher J. Nachtsheim, John Neter, William Li, Applied Statistical Linear Models, 5th Edition, McGraw-Hill, 2005년.

4 Michael Kutner, Christopher Nachtsheim, John Neter, William Li, Applied Statistical Linear Models, 5th Edition, McGraw-Hill, 2005년.

5 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997년. Michael H. Kutner, Christopher J. Nachtsheim, John Neter, William Li, Applied Statistical Linear Models, 5th Edition, McGraw-Hill, 2005년.

6 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997년.

7 Douglas Montgomery, Elizabeth Peck, G. Geoffrey Vining, Introduction to Linear Regression Analysis, John Wiley & Sons, 2012년.

8 R.F.Gunst 및 J.T. Webster, "Regression analysis and problems of multicollinearity," Communications in Statistics, Vol. 4, No. 3, 1975년, pp.277-292, https://doi.org/10.1080/03610927308827246

9 Larry Schroeder, David Sjoquist, Paula Stephan, Understanding Regression Analysis: An Introductory Guide, 2nd Edition, SAGE, 2017년.

10 R.F.Gunst 및 J.T. Webster, "Regression analysis and problems of multicollinearity," Communications in Statistics, Vol. 4, No. 3, 1975년, pp.277-292, https://doi.org/10.1080/03610927308827246

.

11 Michael Patrick Allen, Understanding Regression Analysis, Springer, 1997년. Michael Kutner, Christopher Nachtsheim, John Neter, William Li, Applied Statistical Linear Models, 5th Edition, McGraw-Hill, 2005년.

12 Michael Kutner, Christopher Nachtsheim, John Neter, William Li, Applied Statistical Linear Models, 5th Edition, McGraw-Hill, 2005년.

.

13 Raymand Myers, Classical and modern regression with applications, Duxbury Press, 1986년.Paul Allison, Multiple Regression: A Primer, Pine Forge Press, 1999년.Joseph Hair, William Black, Barry Babin, Rolph E. Anderson, Ronald Tatham, Multivariate Data Analysis, 6th Edition, Pearson, 2006년.

14 Richard Darlington 및 Andrew Hayes, Regression Analysis and Linear Models: Concepts, Applications, and Implementation, Guilford Press, 2017년.

.

15 Michael Kutner, Christopher Nachtsheim, John Neter, William Li, Applied Statistical Linear Models, 5th Edition, McGraw-Hill, 2005년.

.

16 Chantal Larose 및 Daniel Larose, Data Science Using Python and R, Wiley, 2019년.

.

17 Thomas Lindner, Jonas Puck, Alain Verbeke, "Misconceptions about multicollinearity in international business research: Identification, consequences, and remedies," Journal of International Business Studies, Vol.51, 2020년, pp.283-298, https://doi.org/10.1057/s41267-019-00257-1

.

18 Aquiles E.G. Kalatzis, Camila F. Bassetto, Carlos R. Azzoni, "Multicollinearity and financial constraint in investment decisions: a Bayesian generalized ridge regression," Journal of Applied Statistics, Vol.38, No. 2, 2011년, pp.287-299, https://www.tandfonline.com/doi/abs/10.1080/02664760903406462. Roberto Ortiz, Mauricio Contreras, Cristhian Mellado, "Regression, multicollinearity and Markowitz," Finance Research Letters, Vol.58, 2023, https://doi.org/10.1016/j.frl.2023.104550

.

19 Kiseong Kuen, David Weisburd, Clair White, Joshua Hinkle, "Examining impacts of street characteristics on residents' fear of crime: Evidence from a longitudinal study of crime hot spots," Journal of Criminal Justice, Vol.82, 2022년, https://doi.org/10.1016/j.jcrimjus.2022.101984

.

20 Howard Henderson, Sven Smith, Christopher Ferguson, Carley Fockler, "Ecological and social correlates of violent crime," SN Social Sciences, Vol. 3, 2023년, https://doi.org/10.1007/s43545-023-00786-5 

.

21 Robert Peacock "Dominance analysis of police legitimacy’s regressors: disentangling the effects of procedural justice, effectiveness, and corruption," Police Practice and Research, Vol.22, No. 1, 2021년, pp.589-605, https://doi.org/10.1080/15614263.2020.1851229