시계열 구현 세부 사항
이러한 구현 세부사항은 AutoAI 시계열 실험에 특정한 단계 및 처리를 설명합니다.
구현 세부 사항
시계열 실험에 대한 구현 및 구성 세부사항을 참조하십시오.
- 실험 처리를 위한 시계열 단계.
- 파이프라인 튜닝을 위한 시계열 최적화 메트릭 .
- 파이프라인을 빌드하기 위한 시계열 알고리즘 .
- 지원되는 날짜 및 시간 형식.
시계열 단계
AutoAI 의 시계열 실험은 실행 시 다음과 같은 단계를 거칩니다:
단계 1: 초기화
초기화 단계에서는 다음 순서대로 훈련 데이터를 처리합니다:
- 데이터 불러오기
- 데이터 세트 L 을 훈련 데이터 T 와 검증용 데이터 H 로 나눕니다
- 유효성 검증, 시간소인 열 처리 및 이전 검색 창 생성을 설정하십시오. 참고:
- 훈련 데이터( T )는 데이터 세트( L )에서 홀드아웃( H )을 뺀 것과 같습니다. 실험을 설정할 때, 검증용 데이터의 크기를 조정할 수 있습니다. 기본적으로 검증용 데이터의 크기는 20단계입니다.
- 선택적으로 시간소인 컬럼을 지정할 수 있습니다.
- 기본적으로, 룩백 창은 신호 처리 방법을 사용하여 계절 기간을 발견하여 자동으로 생성됩니다. 하지만 적절한 룩백 윈도우에 대한 기준이 있다면, 해당 값을 직접 지정할 수 있습니다.
단계 2: 파이프라인 선택
파이프라인 선택 단계에서는 T-Daub (대문자를 사용하는 시계열 데이터 할당) 라는 효율적인 방법을 사용합니다. 이 방법은 가장 유망한 파이프라인에 더 많은 훈련 데이터를 할당함으로써 파이프라인을 선택하는 한편, 더 적은 훈련 데이터를 유망하지 않은 파이프라인에 할당한다. 이러한 방식으로 모든 파이프라인이 전체 데이터 세트를 보는 것은 아니며 일반적으로 선택 프로세스가 더 빠릅니다. 다음 단계는 프로세스 개요를 설명합니다.
- 모든 파이프라인에는 훈련 데이터의 여러 작은 서브세트가 순차적으로 할당됩니다. 최신 데이터가 먼저 할당됩니다.
- 각 파이프라인은 훈련 데이터의 할당된 모든 서브세트에서 훈련되고 테스트 데이터 (홀드아웃 데이터) 로 평가됩니다.
- 선형 회귀 모델은 이전 단계에서 설명한 데이터 세트를 사용하여 각 파이프라인에 적용됩니다.
- 파이프라인의 정확도 점수는 전체 훈련 데이터 세트에서 추정됩니다. 이 메소드는 각 파이프라인에 대해 할당된 데이터의 정확성 및 크기를 포함하는 데이터 세트를 생성합니다.
- 최상의 파이프라인은 추정된 정확도 및 할당된 랭크 1에 따라 선택된다.
- 최상의 파이프라인에 더 많은 데이터가 할당됩니다. 그런 다음 다른 파이프라인에 대해 추정된 정확도가 업데이트됩니다.
- 상위 N 파이프라인이 모든 데이터에 대해 훈련될 때까지 이전의 두 단계가 반복됩니다.
단계 3: 모델 평가
이 단계에서 낙찰 파이프라인 N 은 전체 훈련 데이터 세트 T에서 재훈련됩니다. 또한 검증용 데이터 H를 사용하여 평가됩니다.
4단계: 최종 파이프라인 생성
이 단계에서는 우승한 파이프라인을 전체 데이터 세트( L )를 사용하여 재훈련하고, 이를 최종 파이프라인으로 생성합니다.
각 파이프라인의 재훈련이 완료되면 파이프라인이 리더보드에 게시됩니다. 파이프라인 세부사항을 검사하거나 파이프라인을 모델로 저장하도록 선택할 수 있습니다.
5단계: 백테스트
마지막 단계에서는 백테스트 방법을 사용하여 낙찰 파이프라인을 재훈련하고 평가합니다. 다음 단계는 백테스트 방법을 설명합니다.
- 훈련 데이터의 길이는 백테스트 횟수, 갭 길이 및 홀드아웃 크기를 바탕으로 결정됩니다. 이러한 매개변수에 대해 자세히 학습하려면 시계열 실험 빌드를 참조하십시오.
- 가장 오래된 데이터부터 시작하여 실험은 훈련 데이터를 사용하여 훈련됩니다.
- 또한 실험은 첫 번째 유효성 검증 데이터 세트에서 평가됩니다. 갭 길이가 0이 아닌 경우 갭의 모든 데이터를 건너뜁니다.
- 훈련 데이터 창은 새 훈련 세트를 구성하기 위해 홀드아웃 크기 및 간격 길이를 늘려 진행됩니다.
- 새로운 실험은 이 새 데이터를 사용하여 훈련되고 다음 유효성 검증 데이터 세트를 사용하여 평가됩니다.
- 이전의 두 단계는 나머지 역테스트 기간 동안 반복됩니다.
시계열 최적화 지표
기본 지표를 그대로 사용하거나, 실험에 최적화할 지표를 선택하세요.
| 메트릭 | 설명 |
|---|---|
| 대칭 평균 절대 백분율 오차(SMAPE) | 각 적합점에서 실제 값과 예측값 사이의 절대 차이를 절대 실제 값과 예측값의 합계의 절반으로 나눕니다. 그런 다음, 모든 적합 지점에서 이러한 모든 값에 대해 평균이 계산됩니다. |
| 평균 절대 오차 (MAE) | 실측값과 예측값 간의 절대 차이의 평균. |
| 제곱평균제곱근 오차 (RMSE) | 실측값과 예측값 간의 제곱 차이의 평균에 대한 제곱근. |
| R2 | 모델의 성능이 기준 모델 또는 평균 모델과 비교하여 어느 정도인지 나타내는 지표. R2 는 1이하여야 합니다. 음수 R2 값은 고려 중인 모델이 평균 모델보다 나빠짐을 의미합니다. 0 R2 값은 고려 중인 모델이 평균 모델만큼 좋거나 나쁨을 의미합니다. 양의 R2 값은 고려 중인 모델이 평균 모델보다 우수함을 의미합니다. |
실험에 대한 메트릭 검토
시계열 실험의 결과를 볼 때 파이프라인 리더보드에서 실험을 훈련하는 데 사용되는 메트릭의 값을 볼 수 있습니다.

시계열 실험에 대한 정확도 측정값은 평가된 실험 데이터에 따라 광범위하게 달라질 수 있음을 알 수 있습니다.
- 유효성 검증은 훈련 데이터에 대해 계산된 점수입니다.
- 홀드아웃은 예약된 홀드아웃 데이터에 대해 계산된 점수입니다.
- 백테스트는 모든 백테스트 점수의 평균 점수입니다.
시계열 알고리즘
이 알고리즘들은 시계열 실험에 활용할 수 있습니다. 기본적으로 선택되는 알고리즘을 사용하거나 특정 알고리즘을 포함하거나 제외하도록 실험을 구성할 수 있습니다.
| 알고리즘 | 설명 |
|---|---|
| ARIMA | 자기회귀 통합 이동 평균 (ARIMA) 모델은 비고정 데이터를 차분을 통해 고정 데이터로 변환한 후 시차 값 및 시차 예측 오류를 포함하여 과거 값을 사용하여 다음 값을 예측할 수 있는 일반적인 시계열 모델입니다. |
| BATS | BATS 알고리즘은 Box- Cox 변환, ARMA 잔차, 추세 및 계절성 요인을 결합하여 미래 값을 예측합니다. |
| 앙상블러 | 앙상블 기법은 여러 예측 방법을 결합하여 단순 예측의 정확도 한계를 극복하고 과적합의 가능성을 방지합니다. |
| 홀트-윈터스 | 계열이 시간 경과에 따라 반복되는 경우 (계절), 3중 지수 평활을 사용하여 계열의 데이터 점을 예측합니다. 홀트-윈터스 모델에는 두 가지 유형이 제공됩니다: 가산형 홀트-윈터스 모델과 곱셈형 홀트-윈터스 모델 |
| 랜덤 포레스트 | 앙상블의 각 트리가 훈련 세트의 대체 (예: 부트스트랩 표본) 로 그려진 표본에서 작성되는 트리 기반 회귀 모형입니다. |
| 지원 벡터 기계(SVM) | SVM은 회귀 및 분류 모두에 사용할 수 있는 기계 학습 모델의 한 유형입니다. SVM은 하이퍼플레인을 사용하여 데이터를 별도의 클래스로 나눕니다. |
| 선형 회귀분석 | AR 프로세스를 따르는 잔차를 사용하여 시계열 변수와 날짜/시간 또는 시간 지수 사이의 선형 관계를 작성합니다. |
지원되는 날짜 및 시간 형식
시계열 실험에서 지원되는 날짜/시간 형식은 dateutil에서 제공하는 정의를 기반으로 합니다.
지원되는 날짜 형식은 다음과 같습니다:
일반:
YYYY
YYYY-MM, YYYY/MM, or YYYYMM
YYYY-MM-DD or YYYYMMDD
mm/dd/yyyy
mm-dd-yyyy
JAN YYYY
드문:
YYYY-Www or YYYYWww - ISO week (day defaults to 0)
YYYY-Www-D or YYYYWwwD - ISO week and day
ISO주 및 일 값의 숫자는 datetime.date.isocalendar() 와 동일한 로직을 따릅니다.
지원되는 시간 형식은 다음과 같습니다:
hh
hh:mm or hhmm
hh:mm:ss or hhmmss
hh:mm:ss.ssssss (Up to 6 sub-second digits)
dd-MMM
yyyy/mm
참고:
- 자정은 00:00 또는 24:00으로 표기할 수 있습니다. 소수점은 마침표나 쉼표 중 하나를 사용할 수 있습니다.
- 날짜는 큰따옴표를 사용하여 문자열로 제출할 수 있습니다 (예: "1958-01-16").
지원 기능
외인성 특징부로도 알려진 지지 특징부는 예측 표적에 영향을 줄 수 있는 입력 특징부이다. 지원 기능을 사용하여 예측을 개선하고 모델의 정확도를 높이기 위해 데이터 세트의 추가 열을 포함할 수 있습니다. 예를 들어, 시간 경과에 따른 가격을 예측하기 위한 시계열 실험에서 지원 기능은 판매 및 판촉에 대한 데이터일 수 있습니다. 또는 매일의 온도를 포함하여 에너지 소비를 예측하는 모델에서는 예측을 더 정확하게 만듭니다.
지원 기능을 사용하는 알고리즘 및 파이프라인
알고리즘의 서브세트만 지원 기능을 허용합니다. 예를 들어, Holt-winters및 BATS는 지원 기능의 사용을 지원하지 않습니다. 지원 기능을 지원하지 않는 알고리즘은 실험을 실행할 때 지원 기능에 대한 선택사항을 무시합니다.
일부 알고리즘은 알고리즘의 특정 변형에 대해 지원 기능을 사용하지만 다른 알고리즘에 대해서는 지원 기능을 사용하지 않습니다. 예를 들어 랜덤 포레스트 알고리즘을 사용하여 두 개의 서로 다른 파이프라인, 즉 RandomForestRegressor ExogenousRandomForestRegressor 생성할 수 있습니다. ExogenousRandomForestRegressor 변형은 지원 기능을 제공하는 반면, RandomForestRegressor 지원하지 않습니다.
이 테이블은 알고리즘이 시계열 실험에서 지원 기능에 대한 지원을 제공하는지 여부를 자세히 설명합니다.
| 알고리즘 | 파이프라인 | 지원 기능에 대한 지원 제공 |
|---|---|---|
| 랜덤 포레스트 | RandomForestRegressor | 아니오 |
| 랜덤 포레스트 | ExogenousRandomForestRegressor | 예 |
| SVM | SVM | 아니오 |
| SVM | ExogenousSVM | 예 |
| 앙상블러 | LocalizedFlattenEnsembler | 예 |
| 앙상블러 | DifferenceFlattenEnsembler | 아니오 |
| 앙상블러 | FlattenEnsembler | 아니오 |
| 앙상블러 | ExogenousLocalizedFlattenEnsembler | 예 |
| 앙상블러 | ExogenousDifferenceFlattenEnsembler | 예 |
| 앙상블러 | ExogenousFlattenEnsembler | 예 |
| 회귀 | MT2RForecaster | 아니오 |
| 회귀 | ExogenousMT2RForecaster | 예 |
| 홀트-윈터스 | HoltWinterAdditive | 아니오 |
| 홀트-윈터스 | HoltWinterMultiplicative | 아니오 |
| BATS | BATS | 아니오 |
| ARIMA | ARIMA | 아니오 |
| ARIMA | ARIMAX | 예 |
| ARIMA | ARIMAX_RSAR | 예 |
| ARIMA | ARIMAX_PALR | 예 |
| ARIMA | ARIMAX_RAR | 예 |
| ARIMA | ARIMAX_DMLR | 예 |