부트스트래핑 집계라고도 하는 배깅은 노이즈가 많은 데이터 세트 내에서 분산을 줄이는 데 흔히 사용되는 앙상블 학습 방법입니다.
배깅에서는 학습 세트에 있는 데이터의 무작위 샘플이 대체를 통해 선택됩니다. 즉, 개별 데이터 포인트를 두 번 이상 선택할 수 있습니다. 여러 데이터 샘플을 생성한 후 약한 모델을 독립적으로 학습시킵니다. 회귀 또는 분류와 같은 작업 유형에 따라 예측의 평균 또는 과반수가 보다 정확한 예측을 계산합니다.
참고로, 배깅과 특징 무작위성을 모두 사용하여 상관관계가 없는 의사 결정 트리의 포레스트를 생성하는 랜덤 포레스트 알고리즘은 배깅 방법의 확장으로 간주됩니다.
앙상블 학습은 일반적으로 개별 전문가보다 더 많은 사람들의 의사 결정이 더 낫다는 것을 시사하는 '군중의 지혜'라는 개념에 기반을 두고 있습니다. 마찬가지로 앙상블 학습은 더 나은 최종 예측을 위해 집합적으로 작동하는 기본 학습기 또는 모델의 그룹(또는 앙상블)을 의미합니다.
기본 학습기 또는 약한 학습기라고도 하는 단일 모델은 높은 분산 또는 높은 편향으로 인해 개별적으로는 올바르게 작동하지 않을 수 있습니다. 그러나 약한 학습기를 집계하면 이들의 조합이 편향이나 분산을 줄여 모델의 성능이 향상되므로 강력한 학습기를 형성할 수 있습니다.
앙상블 방법은 설명을 위해 의사 결정 트리를 자주 사용합니다. 이 알고리즘은 프루닝되지 않은 경우 높은 분산과 낮은 편향을 보이는 과적합이 발생하기 쉽습니다. 반대로, 레벨이 하나 뿐인 의사 결정 트리인 의사 결정 그루터기처럼 매우 작은 경우에는 분산이 낮고 편향이 높은 과소적합이 발생할 수도 있습니다.
알고리즘이 학습 세트에 과적합하거나 과소적합하면 새로운 데이터 세트에 일반화하기가 어려우므로 앙상블 방법을 사용하여 이러한 동작을 상쇄하고 모델을 새로운 데이터 세트로 일반화할 수 있다는 점을 기억하세요. 의사 결정 트리는 높은 분산 또는 높은 편향을 나타낼 수 있지만, 앙상블 학습을 활용하여 편향-분산 트레이드오프 내에서 '최적의 지점'을 찾는 유일한 모델링 기법은 아니라는 점에 주목할 필요가 있습니다.
배깅과 부스팅은 앙상블 학습 방법의 두 가지 주요 유형입니다. 이 연구(ibm.com 외부 링크)에서 강조된 바와 같이 이러한 학습 방법의 주요 차이점은 훈련 방식에 있습니다.
배깅에서는 약한 학습기를 동시에 훈련하지만, 부스팅에서는 순차적으로 훈련합니다. 즉, 일련의 모델이 구성되고 새로운 모델이 반복될 때마다 이전 모델에서 잘못 분류된 데이터의 가중치가 증가합니다.
이러한 가중치 재분배는 알고리즘이 성능을 개선하기 위해 집중해야 하는 매개변수를 파악하는 데 도움이 됩니다. '적응형 부스팅 알고리즘'의 약자인 AdaBoost는 최초의 부스팅 알고리즘 중 하나로 가장 인기 있는 부스팅 알고리즘이기도 합니다. 다른 유형의 부스팅 알고리즘으로는 XGBoost, GradientBoost 및 BrownBoost가 있습니다.
배깅과 부스팅의 또 다른 차이점은 사용 시나리오에 있습니다. 예를 들어, 배깅 방법은 일반적으로 높은 분산과 낮은 편향을 보이는 약한 학습기에게 사용되며, 부스팅 방법은 낮은 분산과 높은 편향이 관찰되는 경우에 사용됩니다.
1996년, 레오 브레이만(Leo Breiman)(ibm.com 외부 링크)이 세 가지 기본 단계로 구성된 배깅 알고리즘을 도입했습니다.
분류 또는 회귀 문제에 배깅 방법을 사용할 때 몇 가지 주요 이점과 과제가 있습니다. 배깅의 주요 이점은 다음과 같습니다.
배깅의 주요 단점은 다음과 같습니다.
배깅 기법은 여러 산업 분야에서 사용되며, GRAMMY Debates with Watson에서와 같이 실제 가치와 흥미로운 관점에 대한 인사이트를 제공합니다. 주요 사용 사례는 다음과 같습니다.