선형 회귀의 개념

선형 회귀 분석은 다른 변수의 값을 기초로 하여 변수값을 예측하는 데 사용됩니다. 예측할 변수를 종속 변수라고 합니다. 다른 변수의 값을 예측하는 데 사용하는 변수를 독립 변수라고 합니다.

이 분석 양식은 종속 변수의 값을 가장 잘 예측하는 하나 이상의 독립 변수를 포함하는 선형 방정식의 계수를 추정합니다. 선형 회귀는 예측 출력 값과 실제 출력 값의 차이를 최소화하는 수직의 선이나 면에 적합합니다. "최소 제곱" 방법을 사용하여 쌍을 이룬 데이터 세트의 최적 맞춤 선을 찾는 단순 선형 회귀 계산기가 있습니다. 그런 다음 Y(독립 변수)에서 X(종속 변수)의 값을 추정합니다.

선형 회귀 산점도 그래프의 예

예측을 보다 쉽게 생성

Microsoft Excel에서 선형 회귀를 수행하거나 선형 회귀 방정식, 선형 회귀 모델 및 선형 회귀 공식을 사용하는 프로세스를 매우 단순화하는 IBM SPSS ® Statistics와 같은 통계 소프트웨어 패키지를 사용할 수 있습니다. SPSS Statistics는 단순 선형 회귀 및 다중 선형 회귀와 같은 기술에서 활용될 수 있습니다.

다음과 같이, 다양한 프로그램과 환경에서 선형 회귀 방법을 수행할 수 있습니다.

  • R 선형 회귀
  • MATLAB 선형 회귀
  • Sklearn 선형 회귀
  • 선형 회귀 Python
  • Excel 선형 회귀

선형 회귀가 중요한 이유

선형 회귀 모델은 비교적 단순하며 예측을 생성할 수 있는 해석하기 쉬운 수학 공식을 제공합니다. 비즈니스 및 학술 연구의 다양한 영역에 선형 회귀를 적용할 수 있습니다.

선형 회귀는 생물학, 행동 과학, 환경학, 사회 과학에서부터 비즈니스에 이르기까지 모든 영역에서 사용됩니다. 선형 회귀 모델은 과학적이고 신뢰할 수 있게 미래를 예측하는 입증된 방법이 되었습니다. 선형 회귀는 오랫동안 확립된 통계 프로시저이므로 선형 회귀 모델의 특성을 잘 이해할 수 있고 매우 빠르게 학습할 수 있습니다.

과학적이고 신뢰할 수 있게 미래를 예측하는 입증된 방법

비즈니스 및 조직 리더는 선형 회귀 기술을 사용하여 더 나은 결정을 내릴 수 있습니다. 조직은 대량의 데이터를 수집하고, 선형 회귀를 통해 경험과 직관에 의존하지 않고 현실을 더 잘 관리하도록 수집한 데이터를 사용할 수 있습니다. 대량의 원시 데이터를 가져와서 조치 가능한 정보로 변환할 수 있습니다.

또한 선형 회귀를 사용하면 비즈니스 동료가 이미 발견하여 이해했다고 생각할 수 있는 패턴과 관계를 파악하여 더 나은 인사이트를 제공할 수 있습니다. 예를 들어, 판매 및 구매 데이터를 분석하여 특정 요일이나 특정 시간의 일정한 구매 패턴을 알아낼 수 있습니다. 비즈니스 리더는 회귀 분석에서 얻은 인사이트를 통해 회사 제품의 수요가 매우 많아지는 시점을 예측할 수 있습니다.

효과적인 선형 회귀의 핵심 가정

선형 회귀 분석의 성공을 위해 고려해야 하는 가정:

  • 각 변수의 경우: 유효한 사례의 수와 평균 및 표준 편차를 고려하십시오. 
  • 각 모델의 경우: 회귀 계수, 상관 행렬, 파트 및 부분 상관, 다중 R, R2, 조정된 R2, R2 변경, 추정치의 표준 오차, 분산 분석 테이블, 예상 값 및 잔차를 고려하십시오. 또한 각 회귀 계수, 분산 공분산 행렬, 분산 팽창 계수, 허용치, Durbin-Watson 테스트, 거리 측정값(Mahalanobis, Cook and 레버리지 값), DfBeta, DfFit, 예측 간격 및 사례별 진단 정보에 대한 95% 신뢰 구간을 고려하십시오. 
  • 플롯: 산점도, 부분 플롯, 히스토그램 및 일반 확률 플롯을 고려하십시오.
  • 데이터: 종속 변수와 독립 변수는 정량적이어야 합니다. 종교, 전공 분야, 거주 지역과 같은 카테고리 변수는 2진(더미) 변수 또는 기타 유형의 대비 변수로 기록해야 합니다.  
  • 기타 가정: 각 독립 변수 값에 대한 종속 변수의 분포는 정상이어야 합니다. 종속 변수 분포의 분산은 모든 독립 변수 값에 대한 상수여야 합니다. 종속 변수와 각 독립 변수의 관계는 선형이어야 하며 모든 관측값은 독립적이어야 합니다.

데이터가 선형 회귀 가정을 충족하는지 확인

선형 회귀를 수행하기 전에 이 프로시저를 사용하여 데이터를 분석할 수 있는지 확인해야 합니다. 데이터는 특정 필수 가정을 통과해야 합니다.

이러한 가정을 확인할 수 있는 방법은 다음과 같습니다.

  1. 변수를 지속적으로 측정해야 합니다. 지속적인 변수의 예로는 시간, 판매, 중량 및 테스트 점수가 있습니다. 
  2. 두 변수 사이에 선형 관계가 있는지 신속하게 찾아내려면 산점도를 사용하십시오.
  3. 관측값은 서로 독립적이어야 합니다(즉, 종속성이 없어야 함).
  4. 데이터에 큰 이상치가 없어야 합니다. 
  5. 등분산성(최적 맞춤 선형 회귀선을 따르는 분산이 해당 선에서 모두 유사하게 유지되는 통계적 개념)을 확인하십시오.
  6. 최적 맞춤 회귀선의 잔차(오차)는 정상 분포를 따릅니다.

경향 및 판매 예상 평가

또한 선형 회귀 분석을 사용하여 연령, 학력 및 경력과 같은 독립 변수에서 영업 사원의 연간 총 매출(종속변수)을 예측해볼 수 있습니다.

가격 탄력성 분석

가격 책정을 변경하면 종종 소비자 행동에 영향을 미치며 선형 회귀를 통해 어떤 영향이 있는지 분석할 수 있습니다. 예를 들어, 특정 제품의 가격이 계속 변하는 경우 회귀 분석을 사용하여 가격이 올라갈수록 소비가 감소하는지 여부를 확인할 수 있습니다. 가격이 올라가도 소비가 크게 감소하지 않는다면?구매자가 제품 구입을 중단하게 되는 가격대는?이 정보는 소매업에 종사하는 비즈니스 리더들에게 매우 유용합니다.

보험 회사의 리스크 평가

선형 회귀 기술을 사용하여 리스크를 분석할 수 있습니다. 예를 들어, 보험 회사는 주택 소유자의 보험 청구를 조사하기 위한 제한적인 자원이 있을 수 있습니다. 보험 회사의 팀은 선형 회귀를 사용하여 청구 비용을 예측하기 위한 모델을 만들 수 있습니다. 이 분석은 회사 리더가 어떤 위험을 감수할 것인가에 대한 중요한 비즈니스 결정을 내리는 데 도움을 줄 수 있습니다.

스포츠 분석

선형 회귀는 비즈니스만을 위한 것은 아닙니다. 선형 회귀는 스포츠에서도 중요합니다. 예를 들어, 농구팀이 한 시즌에 이긴 게임 수와 게임당 팀의 평균 득점이 관련성이 있는지 궁금해 할 수 있습니다. 산점도는 이들 변수가 선형적으로 관련이 있음을 표시합니다. 이긴 게임의 수와 상대 팀의 평균 득점도 선형적으로 관련이 있습니다. 이들 변수에는 부정적인 관계가 있습니다. 이긴 게임의 수가 증가할수록 상대 팀의 평균 득점 수는 감소합니다. 선형 회귀를 사용하여 이러한 변수의 관계를 모델링할 수 있습니다. 우수한 모델을 사용하여 팀이 앞으로 이길 게임의 수를 예측할 수 있습니다.

선형 회귀 제품

IBM SPSS Statistics 소프트웨어

빠르고 강력한 솔루션으로 연구와 분석을 제공합니다.

IBM SPSS Statistics Grad Pack and Faculty Packs

학생, 교사 및 연구원들이 예측 분석 소프트웨어를 저렴하게 이용할 수 있습니다.

IBM Cognos Statistics

입증된 이 셀프 서비스 분석 솔루션을 사용하면 데이터를 믹스매치하고 강력한 시각화를 생성할 수 있습니다.