다음은 그래디언트 부스팅 프로세스의 작동 방식에 대한 단계별 분석입니다.

초기화: 학습 세트를 사용하여 초기 예측이 무작위로 생성되는 기본 학습자 모델(종종 의사결정트리)의 기반을 구축하는 것부터 시작합니다. 일반적으로 의사결정트리에는 소수의 노드 또는 터미널 노드만 포함됩니다. 이러한 약한 기본 학습자는 많은 경우 해석 가능성 때문에 선택되며, 최적의 출발점입니다. 이 초기 설정은 후속 반복을 구축할 수 있는 길을 열어줍니다.

잔차 계산: 각 학습 예제에 대해 실제값에서 예측값을 빼서 잔차를 계산합니다. 이 단계에서는 모델 예측의 개선이 필요한 영역을 식별합니다.

정규화를 통한 개선: 잔차 계산 후 및 새 모델 학습 전에 정규화 프로세스가 발생합니다. 이 단계에는 앙상블에 통합된 각 새로운 약한 학습자의 영향력을 축소하는 것이 포함됩니다. 이 척도를 신중하게 보정함으로써 부스팅 알고리즘의 진행 속도를 제어할 수 있으므로 과적합 방지 및 전반적인 성능 최적화에 도움이 됩니다.

다음 모델 학습: 이전 단계에서 계산된 잔차를 대상으로 사용하고 이러한 대상을 정확하게 예측하도록 새 모델 또는 약한 학습자를 학습시킵니다. 이 단계의 초점은 이전 모델에서 저지른 실수를 수정하고 예측 전반을 개선하는 것입니다.

앙상블 업데이트: 이 단계에서 업데이트된 앙상블(새로 학습된 모델 포함)의 성능은 일반적으로 별도의 테스트 세트를 사용하여 평가됩니다. 이 홀드아웃 데이터 세트의 성능이 만족스러우면 새로운 약한 학습자를 통합하여 앙상블을 업데이트할 수 있습니다. 그렇지 않으면 하이퍼매개변수를 조정해야 할 수 있습니다.

반복: 필요에 따라 이전에 제시된 단계를 반복합니다. 각 반복은 새로운 트리 학습을 통해 기본 모델을 기반으로 구축되고 개선되어 모델의 정확도를 더욱 향상시킵니다. 앙상블 업데이트 및 최종 모델이 정확도 측면에서 기준 모델과 비교하여 만족스러우면 다음 단계로 이동합니다.

중지 기준: 최대 반복 횟수, 목표 정확도 또는 수익 감소와 같은 미리 결정된 중지 기준이 충족되면 부스팅 프로세스를 중지합니다. 이 단계는 모델의 최종 예측이 복잡성과 성능 간의 예상 균형을 달성하도록 하는 데 도움이 됩니다.