자기상관이란 무엇인가요?

작성자

Data Scientist

Business Development + Partnerships

IBM Research

자기상관은 시계열 데이터 및 모델링을 위한 데이터 분석을 제공합니다. 계량경제학, 신호 처리 및 수요 예측에 널리 사용됩니다.

자기상관 또는 직렬 상관관계는 시계열 데이터를 분석하여 시계열의 다른 지점에 있는 값의 상관관계를 찾습니다. 이 주요 분석 방법은 값이 그 자체와 어떻게 상관되는지를 측정합니다. X1 및 X2와 같은 서로 다른 변수 간의 상관 계수를 계산하는 것이 아니라, 데이터 세트 전체의 시간 단계에서 변수 자체의 상관 정도를 계산합니다. 선형 회귀 모델을 구축할 때 기본 가정 중 하나는 해당 모델에서 독립 변수를 예측할 때 발생하는 오류가 독립적이라는 것입니다. 시계열 데이터로 작업할 때 시간에 따라 달라지는 오류를 발견하는 경우가 많습니다. 즉, 시간적 구성 요소로 인해 나타나는 오류의 종속성입니다. 시간 경과에 따른 상관관계를 가지는 오류 항을 자기상관 오류라고 합니다. 이러한 오류는 일반 최소 제곱과 같은 선형 회귀를 생성하는 일반적인 방법에서 문제를 일으킵니다. 이 문제를 해결하는 방법은 자기상관 테스트를 통해 식별된 시간 지연을 사용해서 종속 변수 자체를 회귀시키는 것입니다. '지연'이란 단순히 종속 변수의 이전 값입니다. 월별 데이터를 갖고 다음 달을 예측하려는 경우, 이전 두 달의 값을 입력으로 사용할 수 있습니다. 이는 현재 값에서 이전 두 개의 지연을 회귀한다는 것을 의미합니다.

상관관계가 두 변수 간의 선형 관계를 측정하는 것처럼, 자기상관은 선형 모델을 통해 시계열의 지연된 값 사이의 관계를 측정합니다. 데이터에 추세가 있는 경우, 시간적으로 가까운 관측값은 값도 가깝기 때문에 작은 지연에 대한 자기상관은 크고 양수인 경향이 있습니다. 따라서 추세 시계열의 자기상관 함수(ACF)는 시차가 증가함에 따라 천천히 감소하는 양수 값을 갖는 경향이 있습니다.

데이터에 계절적 변동이나 패턴이 있으면 계절적 시차(계절 주기의 배수)에 대한 자기상관은 다른 시차에 대한 자기상관보다 더 커집니다. 데이터에 추세와 계절성이 모두 반영되는 경우에는 이러한 효과가 결합되어 나타나는 것을 볼 . 수있습니다. 자기 상관 관계가 없는 시계열은 진정한 의미의 무작위 프로세스이며 백색 노이즈라고 합니다. ACF는 시계열에서 두 값 사이의 상관 계수입니다.

자기상관은 다음과 같은 몇 가지 주요 방법으로 테스트할 수 있습니다.

잔차를 계산하고 시간 t에서 그 표준 오차를 t에 대해 그래프로 표시할 수 있습니다. 이는 일반적으로 et로 표시됩니다. 영점선의 한쪽에 있는 잔차 클러스터는 자기상관이 존재하고 유의미한 위치를 나타낼 수 있습니다.

Durbin-Watson 테스트를 실행하면 시계열이 자기상관을 갖는지 여부를 식별하는 데 도움이 됩니다. R에서 이 작업을 수행하려면 시간에 따라 종속 변수를 회귀 분석하는 선형 회귀를 만든 다음 해당 모델을 전달하여 Durbin-Watson 통계를 계산합니다. Python에서 이 작업을 수행하려면 적합 선형 회귀 모델의 잔차를 테스트에 전달하면 됩니다.

또 다른 옵션은 Ljung Box 테스트를 사용하여 시계열의 값을 테스트에 직접 전달하는 것입니다. Ljung-Box 테스트에는 잔차(residual)가 독립적으로 분포되어 있다는 귀무 가설과 잔차가 독립적으로 분포되어 있지 않고 자기상관을 나타낸다는 대립 가설이 있습니다. 즉, 실제로 0.05보다 작은 결과는 시계열에 자기상관이 존재함을 의미합니다. Python과 R 라이브러리 모두 이 테스트를 실행하는 방법을 제공합니다.

가장 일반적인 옵션은 시계열의 특정 시차 간의 상관관계에서 생성된 상관도 시각화를 사용하는 것입니다. 결과의 패턴은 자기상관을 나타냅니다. 이는 시계열 전반에 걸쳐 서로 다른 시차가 어느 정도의 상관관계를 갖는지 보여줌으로써 표시됩니다. 플롯의 예는 다음과 같습니다.

자기상관 함수 플롯

무작위가 아닌 데이터에는 하나 이상의 유의미한 시차가 있습니다. 데이터가 무작위가 아닌 경우 시계열 분석을 사용하거나 데이터를 적절하게 모델링하기 위해 회귀 분석에 시차를 통합해야 한다는 좋은 신호입니다.

자기상관을 통해 식별할 수 있는 시계열의 기본적인 특징이 있습니다.

고정성
추세
계절성

고정성

정상 시계열에는 시간이 지나도 일정한 통계적 속성이 있습니다. 즉, 평균, 분산, 자기상관과 같은 통계는 데이터에 따라 변하는 것이 아닙니다. ARMA와 ARIMA를 포함한 대부분의 통계적 예측 방법은 하나 이상의 변환을 통해 시계열을 거의 고정 상태로 만들 수 있다는 가정에 기초합니다. 정상 시계열은 통계적 특성이 과거와 미래가 거의 같을 것이라고 간단히 예측할 수 있기 때문에 비교적 쉽게 예측할 수 있습니다. 고정성이란 시계열에 추세가 없고, 분산이 일정하며, 자기상관 패턴이 일정하고, 계절적 패턴이 없다는 것을 의미합니다. 고정 시계열의 경우 ACF는 빠르게 0에 가까워집니다. 이와 대조적으로 비고정 시계열에서 ACF는 느리게 감소합니다.

추세

시계열 데이터의 주요 특징은 추세가 데이터에 나타나는지 여부입니다. 예를 들어, 지난 50년 동안 인플레이션으로 인해 기본 생필품 가격이 상승하는 추세를 보일 수 있습니다. 추세가 데이터의 다른 패턴을 가리기 때문에 추세가 포함된 데이터를 예측하는 것은 어려울 수 있습니다. 데이터에 일관되게 되돌아가는 안정적인 추세선이 있는 경우 추세 정상일 수 있으며, 이 경우 추세선을 피팅하고 데이터에서 추세를 뺀 다음 모델을 피팅하여 추세를 제거할 수 있습니다. 데이터가 추세 정상이 아니라면 차분 정상일 수 있으며, 이 경우 차분으로 추세를 제거할 수 있습니다. 차이를 찾는 가장 간단한 방법은 각 값에서 이전 값을 빼서 시계열 데이터에 얼마나 큰 변화가 있는지 측정하는 것입니다. 예를 들어, Y_t가 기간 t에서 시계열 Y의 값인 경우 기간 t에서 Y의 첫 번째 차이는 Y_t- Y_t-1과 같습니다. 시계열에 추세가 있으면 시차가 짧을수록 시간이 가까운 관측값이 비슷한 값을 갖는 경향이 있기 때문에 일반적으로 ACF에서 강한 양의 상관관계 또는 강한 음의 상관관계 값을 갖습니다. ACF의 상관관계는 시차가 증가함에 따라 천천히 감소합니다.

계절성

계절성은 시계열에 계절적 변동 또는 변화가 포함된 경우입니다. 아이스크림 판매량은 여름에 더 높고 겨울에는 낮을 것으로 예상해야 하며, 스키용품 판매량은 늦가을에 확실히 급증하고 초여름에 감소할 수 있습니다. 계절성은 며칠, 몇 주 또는 몇 달과 같은 다양한 시간 간격으로 나타날 수 있습니다. 시계열 분석의 핵심은 계절성이 시계열에 어떤 영향을 미치는지 이해하여 미래에 대한 더 나은 예측을 생성하는 것입니다. 계절적 패턴이 있으면 ACF 값은 계절적 빈도의 배수에서 시차에 대해 다른 시차에 대해 더 많은 양의 자기상관을 나타냅니다.

부분 자기상관

부분 자기상관 함수(PACF라고도 함)는 두 관측값 사이의 짧은 시차가 설명하지 못하는 상관관계만 표시한다는 점을 제외하면 ACF와 비슷합니다. ACF 플롯은 다양한 k값에 대한 y_t와 y_t−k의 관계를 보여줍니다. y_t와 y_t−1이 서로 상관관계를 갖는다면, y_t−1과 y_t−2도 1의 시차로 연결되어 있기 때문에 상관관계가 있을 것이라고 가정할 수 있습니다. 그러나 y_t와 y_t−2가 상관관계가 있는 것은 y_t를 예측하는 데 사용할 수 있는 새로운 정보가 y_t−2에 포함되어 있기 때문이 아니라 단순히 둘 다 y_t−1에 연결되어 있기 때문일 수도 있습니다. 이 문제를 해결하기 위해 부분 자기상관을 사용하여 여러 시차 관측값을 제거합니다. PACF는 시차 1에서 k까지의 영향을 제거하여 y_t와 y_t−k 사이의 관계만 측정합니다. 첫 번째 부분 자기상관은 제거할 새 데이터가 없기 때문에 첫 번째 자기상관과 항상 동일합니다. 이후의 모든 시차는 모든 중간 시차를 제거한 후 시차 사이의 관계만 표시합니다. 이를 통해 양 또는 음의 자기상관이 더 큰 값을 갖는 지점을 관찰하여 계절성을 나타낼 수 있는 시차를 보다 정확하게 추정할 수 있습니다.

실제로 ACF는 시계열의 속성을 평가하는 데 도움이 됩니다. 반면에 PACF는 자동 회귀 모델의 명세 프로세스에서 더 유용합니다. 데이터 과학자 또는 분석가는 부분 자동 상관관계 플롯을 사용하여 시계열 데이터, 자동 회귀 이동 평균(ARMA) 또는 자동 회귀 통합 이동 평균(ARIMA) 모델로 회귀 모델을 지정할 수 있습니다.