자기회귀 모델이란 무엇인가요?

작성자

Data Scientist

자기회귀 모델이란 무엇인가요?

자기회귀 모델링은 시계열 분석 및 예측에 가장 일반적으로 사용되는 머신 러닝 기법으로, 시계열의 이전 시간 단계에서 하나 이상의 값을 사용하여 회귀를 생성합니다.

이는 시계열 분석을 위한 간단하지만 강력한 기법으로, 데이터에 시간 단계 간의 상관 관계가 포함된 경우 해석 가능성이 뛰어나고 효과적인 예측을 제공합니다. 시간 단계 간의 상관 관계는 값이 자신과 얼마나 상관 관계가 있는지를 측정하기 때문에 자기상관이라고 합니다. 완전한 선형 프로세스는 시계열 전반에 걸쳐 완벽한 자기상관을 가지므로 자기회귀 프로세스를 사용하여 이전 값에서 정확히 다음 값을 예측할 수 있습니다. 백색 잡음과 같은 완전한 확률적 과정은 과거 값을 사용하여 현재 또는 미래 값을 예측할 수 없기 때문에 자기상관이 없습니다.

시계열은 시간이 지남에 따라 수행된 동일한 변수 또는 변수 그룹에 대한 일련의 측정 시퀀스입니다. 측정은 일반적으로 일정한 간격(예: 시간별, 월별 또는 연간)으로 이루어집니다. 예를 들어, 한 국가의 항공사 승객 수를 측정하는 값이 있을 수 있으며, 매월 측정값을 관찰할 수 있습니다. 이 경우 y는 측정된 승객 수를 나타내며 시간 경과에 따른 측정 값의 존재를 강조합니다. t 값은 일반적인 i 대신 아래 첨자로 적용되며 y_t는 임의의 시점에서의 y 값을 나타냅니다.

자기회귀 모델은 시계열의 값을 동일한 시계열의 이전 값으로 회귀시키는 것입니다. 예를 들어, y_t-1에 대해 회귀시킨 y_t는 시차값이라고 하는 y의 이전 값을 사용해 y의 현재 값을 예측합니다. 이 단순 회귀 모델에서 이전 기간의 종속 변수는 예측 변수가 됩니다. 오차는 단순 선형 회귀 모델에서 오차에 대해 흔히 가정되는 모든 조건들을 만족합니다. 종종 자기회귀의 차수를 현재 값을 예측하는 데 사용된 계열의 선행 값 개수로 나타냅니다. 즉, y_t-1에 대해 회귀시킨 y_t는 1차 자기회귀이며 AR(1)이라고 씁니다.

자기회귀의 정의

다중 선형 회귀에서 회귀의 출력은 여러 입력 변수의 선형 조합입니다. 자기회귀 모델에서 출력은 과거 p 데이터 포인트의 선형 조합으로 표현된 미래 데이터 포인트입니다. p는 방정식에 포함된 시차 수입니다. AR (1) 모델은 수학적으로 다음과 같이 정의됩니다.

$x_{t} = δ + ϕ_{1} x_{t - 1} + α_{t}$

x_t-1은 한 시차를 거슬러 올라간 과거 계열 값입니다.

ϕ는 해당 시차에 대해 계산된 계수입니다.

알파_t는 백색 잡음(예: 임의성)입니다.

델타는 다음과 같이 정의됩니다.

$δ = (1 - \sum_{p}^{i = 1} ϕ_{i}) μ$

차수가 p인 자기회귀 모델에서 p는 시차에 대해 계산된 공변량의 총 수이고 μ는 공정 평균입니다.

모델에 더 많은 시차가 추가되면 방정식에 더 많은 계수와 시차 변수가 추가됩니다.

$x_{t} = δ + ϕ_{1} x_{t - 1} + ϕ_{2} x_{t - 2} + α_{t}$

앞의 모델은 2개의 시차를 포함하므로 2차 자기회귀입니다.

차수 p에 대한 자기회귀 방정식의 일반적인 형태는 다음과 같습니다.

$x_{t} = δ + ϕ_{1} x_{t - 1} . . . ϕ_{p} x_{t - p} + α_{t}$

시계열 예측에 자기회귀 모델을 사용하려면 현재 시간 값과 모든 과거 데이터를 사용하여 다음 시간 단계를 예측합니다. 예를 들어, 2개의 시차가 있는 AR 모델은 다음과 같이 단일 시간 단계를 예측할 수 있습니다.

$x_{t + 1} = δ + ϕ_{1} x_{t} + ϕ_{2} x_{t - 1} + α_{t + 1}$

계수 추정

각 시차에 대한 계수를 계산하는 가장 일반적인 접근 방식은 최대가능도 추정법(MLE) 또는 최소 제곱(OLS)을 사용하는 추정법입니다. 이러한 접근 방식 사용 시 선형 모델의 회귀를 적합화할 때와 동일한 한계가 자기회귀 모델을 적합화할 때도 존재합니다. Python 또는 R 중 무엇을 사용하는지와 라이브러리에 따라 MLE 또는 OLS 외에도 Yule-Walker 또는 Burg 방법을 사용할 수 있습니다.

많은 라이브러리에서는 사용자가 모든 후보 모델 중에서 모델을 선택할 때 사용할 기준을 선택할 수 있습니다. 예를 들어, 사용 사례와 데이터에 따라 모델 계수를 사용하여 아카이케 정보 기준(Akaike Information Criterion) 또는 베이지안 정보 기준(Bayesian Information Criteria)을 최소화할 수 있습니다.

AR 모델의 순서 선택

자기상관은 시계열과 시차 버전 간의 상관 관계를 계산합니다. 시차는 시계열을 이동하는 시간 단위 수입니다. 시차가 1이면 계열을 이전 시간 단계와 비교합니다. 시차가 2이면 그 이전의 시간 단계와 비교합니다. 특정 시차에서의 자기상관 정도는 데이터의 시간적 종속성을 보여줍니다. 자기상관이 높으면 현재 값과 해당 시차의 값 사이에 강한 관계가 있습니다. 자기상관이 낮거나 0에 가까우면 관계가 약하거나 관계가 전혀 없음을 나타냅니다.

자기상관을 시각화하는 일반적인 방법은 자기상관 계수를 서로 다른 시차로 표시하는 자기상관 함수(ACF) 또는 ACF 플롯을 계산하는 것입니다.

가로축은 시차를 나타내고 세로축은 자기상관 값을 나타냅니다. ACF 플롯에서 중요한 피크 또는 패턴은 데이터의 기본 시간 구조를 나타낼 수 있습니다. AR 모델에서 시차 순서(p)의 선택은 종종 ACF 플롯의 분석에 의존합니다. AR(p) 모델에서 시계열의 현재 값은 과거 p 값의 선형 조합으로 표현되며, 계수는 OLS 또는 MLE를 통해 결정됩니다. 자기상관은 시계열이 고정되어 있는지 여부를 평가하는 데도 사용됩니다 고정 시계열의 경우 시차가 증가함에 따라 자기상관이 점진적으로 감소해야 하지만, ACF 플롯에 감소가 나타나지 않는다면 데이터에 비정형성이 있을 수 있습니다. 자기상관에 대한 자세한 내용은 여기에서 확인할 수 있습니다.

전문가의 인사이트를 바탕으로 한 최신 기술 뉴스

Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.

자기회귀 모델의 변형

표준 자기회귀 시계열 모델의 문제점과 결함을 해결하는 다양한 변형이 있습니다.

벡터 자기회귀 모델

일반 자기회귀 통계 모델은 데이터 세트가 각 기간에 대해 하나의 값을 포함하는 일변량 데이터 세트에서 작동합니다. 벡터 자기회귀 모델(VAR)은 다변량 시계열의 자기회귀가 가능하도록 개발되었습니다. 각 변수가 자신의 과거 시차 및 다른 변수의 과거 시차의 선형 함수가 되도록 구조화되어 있습니다. 월간 비행기 비행 횟수와 월간 도시 간 철도 여행 횟수라는 두 가지 다른 측정값으로 구성된 시계열이 있다고 가정해 봅시다. VAR 모델에서는 다른 값을 포함하는 각각에 대한 회귀를 사용하여 둘 다 사용하는 값을 예측할 수 있습니다. 철도 여행을 X_r로 인코딩하고 비행기 여행을 X_a로 인코딩하면 다음과 같습니다.

$x_{t, r} = α_{r} + ϕ_{11} x_{t - 1, a} + ϕ_{12} x_{t - 1, r} + ϵ_{t, r}$

$x_{t, a} = α_{a} + ϕ_{11} x_{t - 1, a} + ϕ_{12} x_{t - 1, r} + ϵ_{t, a}$

ARMA 및 ARIMA

일반 자기회귀 모델은 강한 추세를 가진 시계열을 다루는 데 어려움을 겪을 수 있습니다. 자기회귀 모델에서 널리 사용되는 두 가지 변형은 자기회귀 이동 평균(ARMA)과 자기회귀 통합 이동 평균(ARIMA) 모델입니다. 이러한 변형은 데이터에 강한 추세가 있을 때 특히 유용합니다. 이동 평균 모델링은 시계열 데이터를 예측하는 또 다른 접근 방식이며, ARIMA는 자기회귀(AR) 모델과 이동 평균(MA) 모델 방식을 통합하여 이름 붙여졌습니다. ARIMA 모델에도 다양한 변형이 있습니다. 가장 일반적인 확장 중 하나는 데이터가 다변량일 때 사용되는 벡터 ARIMA(VARIMA)입니다. 또 다른 일반적인 확장은 데이터에 강한 계절성이 포함된 경우 사용되는 계절성 ARIMA(SARIMA)입니다. ARIMA 모델에 대한 자세한 내용은 여기에서 확인할 수 있습니다.

자기회귀 조건부 이분산성

자기회귀 모델은 시계열 데이터가 고정되어 있고 시계열 전체에 걸쳐 분산이 변하지 않을 때 훨씬 더 안정적으로 작동합니다. 종종 비고정 데이터는 분산 변화를 제거하기 위해 시간차를 두고 AR 모델에 맞추는 경우가 많습니다. 때로는 이러한 분산이 의미가 있어 데이터 과학자가 이를 그대로 두고자 하는 경우도 있습니다. 자기회귀 조건부 이분산 방법(ARCH)은 변동성의 증가 또는 감소와 같이 시간에 따라 달라지는 시계열의 분산 변화를 모델링할 수 있는 방법을 제공합니다. 이 접근법을 확장한 일반화 자기회귀 조건부 이분산(GARCH)을 사용하면 시간에 따른 변동성의 변화를 지원할 수 있습니다. 예를 들어, 동일한 계열에서 변동성이 증가하거나 감소하는 경우에 사용할 수 있습니다.

시계열 분산 변화에 비확률적 프로세스가 있는 경우, 자기회귀 조건부 이분산 또는 ARCH 알고리즘은 데이터 세트 변동성의 변화를 모델링하고 예측하기 위해 자기회귀 기법을 사용할 수 있습니다. 일반적인 자기회귀 모델은 데이터 세트 전체의 분산 변화를 모델링하지 않습니다. 따라서 데이터 과학자는 데이터 세트의 분산을 줄이기 위해 박스-콕스(Box-Cox) 변환을 사용할 수 있습니다. 그러나 분산 변화가 자기상관 관계가 있는 경우, ARCH 접근법을 모델링하면 프로세스가 변경되기 시작하는 시점에 대한 예측을 제공할 수 있습니다. 이 접근 방식을 변동성 예측이라고 하며 계량 경제학 및 재무 분석에 일반적으로 사용됩니다. 예를 들어, 주가 데이터로 작업할 때 잠재적 가격 모델링을 넘어서 언제 가격이 급변하기 시작할지 예측하는 데까지 관심 범위가 확장될 수 있습니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

자기회귀의 다른 적용 방법

일반적으로 시계열 데이터와 관련이 있지만, 다양한 유형의 데이터에 다른 모델링 적용이 가능합니다.

자연어 처리

예를 들어, 자기회귀 모델링 기법은 예측 텍스트에서 다음 문자나 단어의 가능성을 제안하기 위해 토큰 시퀀스의 가능성을 생성합니다. 자기회귀 언어 모델은 문자열의 이전 토큰이 주어졌을 때 가능한 각 토큰의 가능성을 계산합니다. 'the mouse eat'라는 연결고리가 주어졌을 때, 합리적인 수의 영어 문장을 본 모델은 아마도 'homework'보다 'cheese'에 더 높은 확률을 할당할 것입니다. 이 확률은 연결고리의 모든 이전 토큰을 사용하여 언어 모델의 각 토큰에 확률을 할당하는 자기회귀 프로세스를 통해 할당됩니다.

공간 데이터

자기회귀 원리의 다른 적용 방식은 값의 위치를 시퀀스로 사용하고 관심 있는 위치에 대해 모든 관련 위치를 회귀하는 것입니다. 예를 들어 공장으로부터의 거리가 대기 질 수치에 영향을 미친다고 가정했을 때, 자기회귀 모델에서는 다른 사이트의 측정값을 시차 값으로 사용하고 공장과의 거리를 시차로 사용합니다.

분석을 통해 비즈니스 예측을 개선하기 위한 4단계

강력한 분석 기능과 비즈니스 인텔리전스를 활용하여 회사와 고객에게 가장 큰 이익이 되는 미래 성과를 계획, 예측 및 구체화하세요.

자기회귀 모델이란 무엇인가요?