업계 뉴스레터
전문가의 인사이트를 바탕으로 한 최신 기술 뉴스
Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.
구독한 뉴스레터는 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
시계열 모델링은 머신 러닝 알고리즘과 통계적 방법을 사용하여 일정 기간 동안 변화하는 데이터 포인트를 분석하는 것입니다.
시계열 데이터 세트는 독립적이고 관련이 없는 데이터 포인트로 구성되지 않는다는 점에서 다른 데이터 세트와 다릅니다. 많은 데이터 세트가 개별 관측값을 기반으로 하는 반면, 시계열 데이터 세트는 타임스탬프로 레이블이 지정되고 시간에 따른 변수를 추적하여 데이터 포인트 간에 종속성을 생성합니다. 종속성은 한 데이터 요소의 값이 다른 데이터 요소의 값에 영향을 미치는 데이터 요소 간의 관계입니다.
일변량 시계열 모델링에서는 시간이 유일한 독립 변수입니다. 다른 모든 변수는 이전 값에 따라 달라집니다. 다변량 시계열 모델링은 기상 조건이나 인구통계학적 정보와 같은 더 많은 독립 변수를 도입합니다.
업계 뉴스레터
Think 뉴스레터를 통해 AI, 자동화, 데이터 등 가장 중요하고 흥미로운 업계 동향에 대한 최신 소식을 받아보세요. IBM 개인정보 보호정책을 참조하세요.
구독한 뉴스레터는 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
시계열 모델링의 핵심 개념 중 다수는 시간적 특징, 즉 시간과 관련되거나 시간에서 파생된 데이터의 측면입니다. 이러한 개념에는 다음이 포함됩니다.
자기상관
계절성
고정성
자기상관은 현재 값이 시계열에 있는 과거 데이터의 과거 값과 일치하는 정도를 측정합니다. 높은 자기상관은 시계열의 현재 반복이 지연된 버전에 밀접하게 매핑된다는 것을 의미합니다. 자기상관은 시계열이 반복되는지 여부를 식별하고 계절성을 나타낼 수 있습니다.
자기상관은 양수 또는 음수일 수 있습니다. 양의 자기상관은 값이 높을수록 값이 높아지고 값이 낮아지면 값이 낮아진다는 것을 의미합니다. 음의 자기상관은 그 반대로, 값이 높으면 값이 낮아지고 그 반대의 경우도 마찬가지입니다.
계절성은 계절의 변화와 같이 규칙적인 시간 간격을 기반으로 반복되는 패턴이 있는 시계열 데이터의 특성입니다. 예를 들어, 전자상거래 플랫폼은 봄과 여름에 더 많은 선글라스를 판매하고 가을과 겨울에 더 많은 스카프를 판매할 수 있습니다. 가정은 일반적으로 밤보다 낮에 더 많은 전기를 사용합니다.
시간에 따른 계절적 변화는 예측 모델로 미래 값을 예측할 때 유용합니다. 차트 및 그래프와 같은 데이터 시각화 도구는 계절성을 종종 정현파 형태로 반복되는 변동으로 묘사합니다.
시계열 데이터 분석 중에 분해 프로세스는 데이터에 존재하는 계절성과 추세 및 노이즈를 드러냅니다. 추세는 데이터 값의 장기적인 증가 또는 감소인 반면, 노이즈는 예측 가능한 패턴을 따르지 않는 무작위 변동을 나타냅니다. 노이즈는 종종 오류와 이상값에서 비롯됩니다.
고정 시계열에는 평균 및 분산과 같은 정적 통계 속성이 있습니다. 고정성을 사용하면 데이터 포인트가 계절성에 따라 변동될 수 있지만 더 큰 추세는 없습니다. 현대의 연평균 지구 기온의 시계열은 기후 변화로 인해 기온이 상승하는 영향으로 인해 고정되어 있지 않을 것입니다.
대부분의 시계열 모델이 효과적으로 작동하려면 고정성이 필요합니다. 디키-풀러 테스트는 데이터 세트가 고정되어 있는지 여부를 보여줍니다. 고정성이 없는 시계열 데이터 세트는 차분과 같은 기술로 변환하여 추세를 제거하고 계절성 및 자기상관과 같은 다른 패턴을 분리할 수 있습니다.
시계열 예측 문제에 접근할 때 데이터 과학자는 다양한 머신 러닝 알고리즘 중에서 선택할 수 있습니다. 데이터 세트의 특성에 따라 어떤 데이터 세트는 다른 것보다 더 적합합니다. 1단계 모델은 시계열의 다음 지점을 예측하는 반면, 다단계 모델은 여러 시계열 예측을 산출합니다.
시계열 모델 유형에는 다음이 포함됩니다.
자기회귀 누적이동평균(ARIMA)
지수 평활
일반화 자기회귀 조건부 이분산(GARCH)
장단기 기억(LSTM)
Meta의 오픈 소스 Prophet과 Amazon의 DeepAR은 시계열 모델링을 위해 구축된 다른 두 가지 AI 모델입니다. 시계열 예측 작업에 선형 회귀 모델을 적용하는 것도 가능합니다. 비선형 시계열 데이터에 XGBoost 및 랜덤 포레스트와 같은 다른 지도 학습 모델을 적용할 수 있습니다.
ARIMA 모델 제품군은 단독으로 실행하거나 다양한 그룹으로 결합할 수 있는 수많은 모듈식 빌딩 블록 모델로 구성됩니다. ARIMA는 과거 이벤트를 기반으로 미래 값을 예측하는 통계 모델이며 계절성을 보여주는 고정 시계열에서 가장 잘 작동합니다. 단변량 데이터 세트에 탁월하며 다변량 데이터 세트에도 적용할 수 있습니다.
ARIMA 구성에는 다음이 포함됩니다.
자가회귀(AR): AR(p)로 표시되는 자기회귀 모델은 확률론적 항(불완전하게 예측할 수 없는 항)의 과거 값을 기반으로 변수의 미래 값을 예측합니다. 매개변수 p는 지연 정도 또는 예측에 사용된 데이터 포인트 수를 나타냅니다. p 값이 1이면 시계열의 이전 관측값으로 돌아갑니다.
이동 평균(MA): MA(q)로 표시되는 이동 평균 모델은 과거 예측 오류를 기반으로 미래 값을 예측합니다. 매개변수 q는 예측에 포함된 오차의 수입니다. MA(1) 모델에는 하나의 과거 오차가 포함됩니다.
통합(I): 통합 모델은 차분(d)을 추가하여 시계열을 고정시킵니다. 차분은 데이터 값을 현재 값과 과거 값의 차이로 대체하여 값의 변화를 나타내는 새 시계열을 만듭니다. 매개변수 d는 데이터 포인트가 차분된 횟수를 나타냅니다.
자가회귀 이동 평균(ARMA): ARMA 모델은 자동 회귀와 이동 평균을 결합합니다. ARMA 모델은 고정형 시계열을 처리할 수 있으며 ARMA(p, q)로 표시됩니다.
자가회귀 누적이동평균(ARIMA): ARIMA(p, d, q)로 표시되는 ARIMA 모델은 비고정형 시계열 모델에 차분을 추가합니다.
계절성 자기회귀 누적이동평균(SARIMA): SARIMA 모델은 계절성을 더합니다. 계절성에 대한 매개변수는 대문자로 표시되며 매개변수 m은 계절 기간을 나타냅니다. SARIMA 모델은 SARIMA(p, d, q)(P, D, Q)m으로 표시되며 많은 양의 과거 데이터가 필요합니다.
외인성 변수가 있는 SARIMA(SARIMAX): 더 복잡한 시계열 데이터에는 시간 외에 변수가 포함됩니다. SARIMAX 모델은 외부 변수를 통합하여 보다 미묘한 예측을 생성합니다.
벡터 자기회귀(VAR): ARIMA는 단변량 작업에 가장 적합하지만, 벡터 자기회귀(VAR)는 다변량 데이터 세트를 처리할 수 있습니다. VARMA 및 VAMAX를 포함한 VAR 모델은 동시에 여러 시계열 모델에 대한 예측을 수행할 수 있습니다.
지수 평활 모델은 시계열에서 오래된 관측값에 점진적으로 더 적은 가중치 또는 중요도를 할당하여 노이즈를 줄입니다. 보다 최근의 관측은 미래 예측에 더 관련성이 높은 것으로 간주됩니다. 지수 평활 모델에는 다음이 포함됩니다.
단순 지수 평활(SES): 지수 평활의 가장 기본적인 형태는 MA를 수정하여 최근 관측값에 더 많은 가중치를 부여합니다. SES는 간단한 이동 평균 모델에 비해, 더 많은 세부 정보를 유지하면서 노이즈를 줄입니다.
이중 지수 평활(DES): 지수 평활를 재귀적으로 두 번 적용하면 추세에 대응하는 데 도움이 될 수 있습니다. DES는 α 매개변수를 데이터 평활 계수로 사용하고 β 매개변수를 추세 평활 계수로 사용합니다.
삼중 지수 평활(TES): 추세와 계절성이 모두 있는 데이터 세트의 경우 TES(홀트-윈터스 지수 평활(HWES)이라고도 함)는 평활를 세 번째로 적용합니다. y 매개변수는 계절성 평활 계수입니다.
TBATS: TBATS(삼각, 박스-콕스, ARMA, 추세 및 계절적 구성 요소)는 복잡한 계절성을 지닌 시계열 데이터 세트를 위한 특수한 지수 평활 모델입니다.
GARCH는 금융 부문의 변동성을 추적하는 특수 모델입니다. 예를 들어, 주식 시장에서 변동성은 주가가 변동하는 정도와 속도입니다. 이분산은 회귀 모델의 오차가 시간 경과에 따라 동일한 분산을 공유하지 않는다는 것을 의미합니다.
데이터 과학에서 변수는 분산이 같으면 등분산으로 간주되고 그렇지 않으면 이분산으로 간주됩니다.
LSTM은 딥 러닝 신경망의 기능을 시계열 모델링에 적용합니다. LSTM 모델은 시계열과 같은 순차적 데이터에 특화된 순환 신경망(RNN)입니다. LSTM은 장거리 종속성, 즉 시퀀스에서 멀리 떨어진 데이터 포인트 간의 관계를 포착하는 데 탁월합니다.
LSTM 모델은 다른 유형의 모델보다 더 많은 컨텍스트를 유지할 수 있기 때문에 자연어 처리(NLP) 및 실제 음성 및 이미지 인식과 같은 복잡한 애플리케이션에서 잘 작동합니다. 이 모델은 대량의 학습 데이터가 필요하며 Python으로 구축할 수 있습니다.
벤치마킹 지표, 테스트 및 검증은 다른 많은 머신 러닝 애플리케이션에서와 마찬가지로 모델 성능을 최적화하는 데 도움이 됩니다.
시계열 모델링 지표에는 다음이 포함됩니다.
평균 제곱 오차(MSE): 각 타임스탬프에서 오차의 제곱 평균입니다.
평균 제곱근 오차(RMSE)는 MSE의 제곱근입니다.
평균 절대 오차(MAE): 각 관측값에 대한 오차 값의 평균입니다.
평균 절대 백분율 오차(MAPE): MAE를 백분율로 표현하여 오차의 크기를 표시합니다. MAPE는 평균 절대 백분율 편차(MAPD)라고도 합니다. MAPE는 회귀 문제의 일반적인 손실 함수입니다.
시계열 모델은 데이터 분석에서 강력한 역할을 하며 데이터 과학자와 비즈니스 리더 모두에게 다음과 같은 도움을 줍니다.
패턴 인식: 시계열 모델은 계절 변화, 장기 주기, 일반적인 추세와 같이 시간 경과에 따른 데이터의 반복적인 변동을 식별합니다. 예를 들어, 패션 분야에서는 매년 봄과 여름에 티셔츠 판매가 계절적으로 급증합니다. 패션 트렌드는 수십 년 주기에 걸쳐 다시 나타났다가 사라지며, 현재 1990년대와 마찬가지로 오버사이즈 핏이 인기를 끌고 있습니다.
이상 징후 탐지: 이상 징후는 데이터 세트의 나머지 데이터 포인트에서 벗어난 데이터 포인트입니다. 가끔 이상 징후가 발생하는 것은 노이즈로 인한 것일 수 있지만, 비정상적인 데이터가 많으면 예상치 못한 변화, 데이터 파이프라인의 문제, 개선의 기회를 나타낼 수 있습니다.
추세 예측: 시계열 모델을 통해 과거 데이터를 기반으로 시계열의 미래 데이터 포인트를 예측할 수 있습니다. 조직은 이러한 예측을 활용하여 더 나은 데이터 기반 의사 결정을 내릴 수 있습니다.
기업이 성공하려면 데이터를 활용하여 고객 충성도를 높이고 비즈니스 프로세스를 자동화하며 AI 기반 솔루션으로 혁신을 이루어야 합니다.
IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.
더 나은 의사 결정을 위한 AI 기반 인사이트인 Cognos Analytics 12.0을 소개합니다.