시계열 구현 세부 사항

이러한 구현 세부사항은 AutoAI 시계열 실험에 특정한 단계 및 처리를 설명합니다.

구현 세부 사항

시계열 실험에 대한 구현 및 구성 세부사항을 참조하십시오.

시계열 단계

AutoAI 의 시계열 실험은 실행 시 다음과 같은 단계를 거칩니다:

  1. 초기화
  2. 파이프라인 선정
  3. 모델 평가
  4. 최종 파이프라인 생성
  5. 백테스트

단계 1: 초기화

초기화 단계에서는 다음 순서대로 훈련 데이터를 처리합니다:

  • 데이터 불러오기
  • 데이터 세트 L 을 훈련 데이터 T 와 검증용 데이터 H 로 나눕니다
  • 유효성 검증, 시간소인 열 처리 및 이전 검색 창 생성을 설정하십시오. 참고:
    • 훈련 데이터( T )는 데이터 세트( L )에서 홀드아웃( H )을 뺀 것과 같습니다. 실험을 설정할 때, 검증용 데이터의 크기를 조정할 수 있습니다. 기본적으로 검증용 데이터의 크기는 20단계입니다.
    • 선택적으로 시간소인 컬럼을 지정할 수 있습니다.
    • 기본적으로, 룩백 창은 신호 처리 방법을 사용하여 계절 기간을 발견하여 자동으로 생성됩니다. 하지만 적절한 룩백 윈도우에 대한 기준이 있다면, 해당 값을 직접 지정할 수 있습니다.

단계 2: 파이프라인 선택

파이프라인 선택 단계에서는 T-Daub (대문자를 사용하는 시계열 데이터 할당) 라는 효율적인 방법을 사용합니다. 이 방법은 가장 유망한 파이프라인에 더 많은 훈련 데이터를 할당함으로써 파이프라인을 선택하는 한편, 더 적은 훈련 데이터를 유망하지 않은 파이프라인에 할당한다. 이러한 방식으로 모든 파이프라인이 전체 데이터 세트를 보는 것은 아니며 일반적으로 선택 프로세스가 더 빠릅니다. 다음 단계는 프로세스 개요를 설명합니다.

  1. 모든 파이프라인에는 훈련 데이터의 여러 작은 서브세트가 순차적으로 할당됩니다. 최신 데이터가 먼저 할당됩니다.
  2. 각 파이프라인은 훈련 데이터의 할당된 모든 서브세트에서 훈련되고 테스트 데이터 (홀드아웃 데이터) 로 평가됩니다.
  3. 선형 회귀 모델은 이전 단계에서 설명한 데이터 세트를 사용하여 각 파이프라인에 적용됩니다.
  4. 파이프라인의 정확도 점수는 전체 훈련 데이터 세트에서 추정됩니다. 이 메소드는 각 파이프라인에 대해 할당된 데이터의 정확성 및 크기를 포함하는 데이터 세트를 생성합니다.
  5. 최상의 파이프라인은 추정된 정확도 및 할당된 랭크 1에 따라 선택된다.
  6. 최상의 파이프라인에 더 많은 데이터가 할당됩니다. 그런 다음 다른 파이프라인에 대해 추정된 정확도가 업데이트됩니다.
  7. 상위 N 파이프라인이 모든 데이터에 대해 훈련될 때까지 이전의 두 단계가 반복됩니다.

단계 3: 모델 평가

이 단계에서 낙찰 파이프라인 N 은 전체 훈련 데이터 세트 T에서 재훈련됩니다. 또한 검증용 데이터 H를 사용하여 평가됩니다.

4단계: 최종 파이프라인 생성

이 단계에서는 우승한 파이프라인을 전체 데이터 세트( L )를 사용하여 재훈련하고, 이를 최종 파이프라인으로 생성합니다.

각 파이프라인의 재훈련이 완료되면 파이프라인이 리더보드에 게시됩니다. 파이프라인 세부사항을 검사하거나 파이프라인을 모델로 저장하도록 선택할 수 있습니다.

5단계: 백테스트

마지막 단계에서는 백테스트 방법을 사용하여 낙찰 파이프라인을 재훈련하고 평가합니다. 다음 단계는 백테스트 방법을 설명합니다.

  1. 훈련 데이터의 길이는 백테스트 횟수, 갭 길이 및 홀드아웃 크기를 바탕으로 결정됩니다. 이러한 매개변수에 대해 자세히 학습하려면 시계열 실험 빌드를 참조하십시오.
  2. 가장 오래된 데이터부터 시작하여 실험은 훈련 데이터를 사용하여 훈련됩니다.
  3. 또한 실험은 첫 번째 유효성 검증 데이터 세트에서 평가됩니다. 갭 길이가 0이 아닌 경우 갭의 모든 데이터를 건너뜁니다.
  4. 훈련 데이터 창은 새 훈련 세트를 구성하기 위해 홀드아웃 크기 및 간격 길이를 늘려 진행됩니다.
  5. 새로운 실험은 이 새 데이터를 사용하여 훈련되고 다음 유효성 검증 데이터 세트를 사용하여 평가됩니다.
  6. 이전의 두 단계는 나머지 역테스트 기간 동안 반복됩니다.

시계열 최적화 지표

기본 지표를 그대로 사용하거나, 실험에 최적화할 지표를 선택하세요.

메트릭 설명
대칭 평균 절대 백분율 오차(SMAPE) 각 적합점에서 실제 값과 예측값 사이의 절대 차이를 절대 실제 값과 예측값의 합계의 절반으로 나눕니다. 그런 다음, 모든 적합 지점에서 이러한 모든 값에 대해 평균이 계산됩니다.
평균 절대 오차 (MAE) 실측값과 예측값 간의 절대 차이의 평균.
제곱평균제곱근 오차 (RMSE) 실측값과 예측값 간의 제곱 차이의 평균에 대한 제곱근.
R2 모델의 성능이 기준 모델 또는 평균 모델과 비교하여 어느 정도인지 나타내는 지표. R2 는 1이하여야 합니다. 음수 R2 값은 고려 중인 모델이 평균 모델보다 나빠짐을 의미합니다. 0 R2 값은 고려 중인 모델이 평균 모델만큼 좋거나 나쁨을 의미합니다. 양의 R2 값은 고려 중인 모델이 평균 모델보다 우수함을 의미합니다.

실험에 대한 메트릭 검토

시계열 실험의 결과를 볼 때 파이프라인 리더보드에서 실험을 훈련하는 데 사용되는 메트릭의 값을 볼 수 있습니다.

실험 결과 검토

시계열 실험에 대한 정확도 측정값은 평가된 실험 데이터에 따라 광범위하게 달라질 수 있음을 알 수 있습니다.

  • 유효성 검증은 훈련 데이터에 대해 계산된 점수입니다.
  • 홀드아웃은 예약된 홀드아웃 데이터에 대해 계산된 점수입니다.
  • 백테스트는 모든 백테스트 점수의 평균 점수입니다.

시계열 알고리즘

이 알고리즘들은 시계열 실험에 활용할 수 있습니다. 기본적으로 선택되는 알고리즘을 사용하거나 특정 알고리즘을 포함하거나 제외하도록 실험을 구성할 수 있습니다.

알고리즘 설명
ARIMA 자기회귀 통합 이동 평균 (ARIMA) 모델은 비고정 데이터를 차분을 통해 고정 데이터로 변환한 후 시차 값 및 시차 예측 오류를 포함하여 과거 값을 사용하여 다음 값을 예측할 수 있는 일반적인 시계열 모델입니다.
BATS BATS 알고리즘은 Box- Cox 변환, ARMA 잔차, 추세 및 계절성 요인을 결합하여 미래 값을 예측합니다.
앙상블러 앙상블 기법은 여러 예측 방법을 결합하여 단순 예측의 정확도 한계를 극복하고 과적합의 가능성을 방지합니다.
홀트-윈터스 계열이 시간 경과에 따라 반복되는 경우 (계절), 3중 지수 평활을 사용하여 계열의 데이터 점을 예측합니다. 홀트-윈터스 모델에는 두 가지 유형이 제공됩니다: 가산형 홀트-윈터스 모델과 곱셈형 홀트-윈터스 모델
랜덤 포레스트 앙상블의 각 트리가 훈련 세트의 대체 (예: 부트스트랩 표본) 로 그려진 표본에서 작성되는 트리 기반 회귀 모형입니다.
지원 벡터 기계(SVM) SVM은 회귀 및 분류 모두에 사용할 수 있는 기계 학습 모델의 한 유형입니다. SVM은 하이퍼플레인을 사용하여 데이터를 별도의 클래스로 나눕니다.
선형 회귀분석 AR 프로세스를 따르는 잔차를 사용하여 시계열 변수와 날짜/시간 또는 시간 지수 사이의 선형 관계를 작성합니다.

지원되는 날짜 및 시간 형식

시계열 실험에서 지원되는 날짜/시간 형식은 dateutil에서 제공하는 정의를 기반으로 합니다.

지원되는 날짜 형식은 다음과 같습니다:

일반:

    YYYY
    YYYY-MM, YYYY/MM, or YYYYMM
    YYYY-MM-DD or YYYYMMDD
    mm/dd/yyyy
    mm-dd-yyyy
    JAN YYYY

드문:

    YYYY-Www or YYYYWww - ISO week (day defaults to 0)
    YYYY-Www-D or YYYYWwwD - ISO week and day

ISO주 및 일 값의 숫자는 datetime.date.isocalendar() 와 동일한 로직을 따릅니다.

지원되는 시간 형식은 다음과 같습니다:

    hh
    hh:mm or hhmm
    hh:mm:ss or hhmmss
    hh:mm:ss.ssssss (Up to 6 sub-second digits)
    dd-MMM 
    yyyy/mm 

참고:

  • 자정은 00:00 또는 24:00으로 표기할 수 있습니다. 소수점은 마침표나 쉼표 중 하나를 사용할 수 있습니다.
  • 날짜는 큰따옴표를 사용하여 문자열로 제출할 수 있습니다 (예: "1958-01-16").

지원 기능

외인성 특징부로도 알려진 지지 특징부는 예측 표적에 영향을 줄 수 있는 입력 특징부이다. 지원 기능을 사용하여 예측을 개선하고 모델의 정확도를 높이기 위해 데이터 세트의 추가 열을 포함할 수 있습니다. 예를 들어, 시간 경과에 따른 가격을 예측하기 위한 시계열 실험에서 지원 기능은 판매 및 판촉에 대한 데이터일 수 있습니다. 또는 매일의 온도를 포함하여 에너지 소비를 예측하는 모델에서는 예측을 더 정확하게 만듭니다.

지원 기능을 사용하는 알고리즘 및 파이프라인

알고리즘의 서브세트만 지원 기능을 허용합니다. 예를 들어, Holt-winters및 BATS는 지원 기능의 사용을 지원하지 않습니다. 지원 기능을 지원하지 않는 알고리즘은 실험을 실행할 때 지원 기능에 대한 선택사항을 무시합니다.

일부 알고리즘은 알고리즘의 특정 변형에 대해 지원 기능을 사용하지만 다른 알고리즘에 대해서는 지원 기능을 사용하지 않습니다. 예를 들어 랜덤 포레스트 알고리즘을 사용하여 두 개의 서로 다른 파이프라인, 즉 RandomForestRegressor ExogenousRandomForestRegressor 생성할 수 있습니다. ExogenousRandomForestRegressor 변형은 지원 기능을 제공하는 반면, RandomForestRegressor 지원하지 않습니다.

이 테이블은 알고리즘이 시계열 실험에서 지원 기능에 대한 지원을 제공하는지 여부를 자세히 설명합니다.

알고리즘 파이프라인 지원 기능에 대한 지원 제공
랜덤 포레스트 RandomForestRegressor 아니오
랜덤 포레스트 ExogenousRandomForestRegressor
SVM SVM 아니오
SVM ExogenousSVM
앙상블러 LocalizedFlattenEnsembler
앙상블러 DifferenceFlattenEnsembler 아니오
앙상블러 FlattenEnsembler 아니오
앙상블러 ExogenousLocalizedFlattenEnsembler
앙상블러 ExogenousDifferenceFlattenEnsembler
앙상블러 ExogenousFlattenEnsembler
회귀 MT2RForecaster 아니오
회귀 ExogenousMT2RForecaster
홀트-윈터스 HoltWinterAdditive 아니오
홀트-윈터스 HoltWinterMultiplicative 아니오
BATS BATS 아니오
ARIMA ARIMA 아니오
ARIMA ARIMAX
ARIMA ARIMAX_RSAR
ARIMA ARIMAX_PALR
ARIMA ARIMAX_RAR
ARIMA ARIMAX_DMLR

자세히 알아보기

시계열 모델 평가