그래디언트 부스팅은 분류 작업에 이용되는 데이터 과학에서 널리 사용되는 강력한 머신 러닝 알고리즘입니다. 이 알고리즘은 여러 개의 비교적 단순한 모델의 예측을 결합하여 전반적인 성능을 향상시키는 배깅과 함께 앙상블 학습 방법에 속합니다. 그래디언트 부스팅 회귀는 그래디언트 부스팅을 사용하여 선형 회귀에 기반한 아웃풋 데이터를 더 잘 생성합니다. 이 튜토리얼에서 살펴볼 그래디언트 부스팅 분류기는 그라데이션 부스팅을 사용하여 입력 데이터를 둘 이상의 서로 다른 클래스에 속하는 것으로 더 잘 분류합니다.

그래디언트 부스팅은 adaboost 알고리즘의 업데이트된 버전으로, 트리가 아닌 의사 결정 그루터기를 사용합니다. 이 의사 결정 그루터기는 임의의 숲에 있는 나무와 비슷하지만 하나의 노드와 두 개의 잎만 있습니다. 그래디언트 부스팅 알고리즘은 모델을 순차적으로 구축하며, 각 단계는 이전 반복의 실수를 수정하려고 시도합니다. 학습 프로세스는 종종 학습 데이터에 대한 얕은 의사결정트리와 같은 약한 학습자를 만드는 것으로 시작됩니다. 초기 학습 후 그래디언트 부스팅은 실제값과 예측값 사이의 오류(종종 잔차라고 함)를 계산한 다음 이 오류를 예측하도록 새 추정기를 학습합니다. 이 새 트리는 강력한 학습자를 생성하기 위해 예측을 업데이트하기 위해 앙상블에 추가됩니다. 그래디언트 부스팅은 개선이 중지되거나 지정된 반복 횟수에 도달할 때까지 이 프로세스를 반복합니다. 부스팅 자체는 그라디언트 하강과 유사하지만, 새로운 모델을 도입하여 그라디언트를 "하강"합니다.

부스팅은 테이블 형식 데이터에 대한 성능이 좋고 수치 및 범주형 데이터를 모두 처리할 수 있는 등 여러 장점이 있습니다. 기본 매개변수에서도 잘 작동하며, 데이터 세트의 이상값에 대해 견고합니다. 그러나 학습 속도가 느릴 수 있으며, 학습 프로세스에 대해 설정된 하이퍼매개변순에 매우 민감한 경우가 많습니다. 생성된 트리 수를 더 적게 유지하면 대규모 데이터 세트로 작업할 때 학습 프로세스가 빨라질 수 있습니다. 이 단계는 일반적으로 최대 깊이 매개변수를 통해 수행됩니다. 그래디언트 부스팅은 제대로 조정되지 않으면 과적합이 발생하기 쉬울 수도 있습니다. 과적합을 방지하기 위해 학습 프로세스의 학습률을 구성할 수 있습니다. 이 프로세스는 분류기 또는 그래디언트 부스팅 회귀 변수와 거의 동일하며, 그래디언트 부스팅을 기반으로 정규화가 추가된 인기 있는 xgboost에서 사용됩니다.

이 튜토리얼에서는 인기 있는 Palmer Penguins 데이터 세트를 사용하여 펭귄을 분류하기 위해 두 가지 프로그래밍 언어와 그래디언트 부스팅 라이브러리를 이용하는 방법을 알아봅니다.

Github에서 이 튜토리얼의 노트북을 다운로드할 수 있습니다.