배깅이란 무엇인가요?

2021년 9월 23일

배깅이란 무엇인가요?

부트스트래핑 집계라고도 하는 배깅은 노이즈가 많은 데이터 세트 내에서 분산을 줄이는 데 흔히 사용되는 앙상블 학습 방법입니다.

배깅에서는 학습 세트에 있는 데이터의 무작위 샘플이 대체를 통해 선택됩니다. 즉, 개별 데이터 포인트를 두 번 이상 선택할 수 있습니다. 여러 데이터 샘플을 생성한 후 약한 모델을 독립적으로 학습시킵니다. 회귀 또는 분류와 같은 작업 유형에 따라 예측의 평균 또는 과반수가 보다 정확한 예측을 계산합니다.

참고로, 배깅과 특징 무작위성을 모두 사용하여 상관관계가 없는 Decision Trees의 포레스트를 생성하는 랜덤 포레스트 알고리즘은 배깅 방법의 확장으로 간주됩니다.

앙상블 학습

앙상블 학습은 일반적으로 개별 전문가보다 더 많은 사람들의 의사 결정이 더 낫다는 것을 시사하는 '군중의 지혜'라는 개념에 기반을 두고 있습니다. 마찬가지로 앙상블 학습은 더 나은 최종 예측을 위해 집합적으로 작동하는 기본 학습기 또는 모델의 그룹(또는 앙상블)을 의미합니다.

기본 학습기 또는 약한 학습기라고도 하는 단일 모델은 높은 분산 또는 높은 편향으로 인해 개별적으로는 올바르게 작동하지 않을 수 있습니다. 그러나 약한 학습기를 집계하면 이들의 조합이 편향이나 분산을 줄여 모델의 성능이 향상되므로 강력한 학습기를 형성할 수 있습니다.

앙상블 방법은 설명을 위해 Decision Trees를 자주 사용합니다. 이 알고리즘은 프루닝되지 않은 경우 높은 분산과 낮은 편향을 보이는 과적합이 발생하기 쉽습니다. 반대로, 레벨이 하나 뿐인 Decision Trees인 의사 결정 그루터기처럼 매우 작은 경우에는 분산이 낮고 편향이 높은 과소적합이 발생할 수도 있습니다.

알고리즘이 학습 세트에 과적합하거나 과소적합하면 새로운 데이터 세트에 일반화하기가 어려우므로 앙상블 방법을 사용하여 이러한 동작을 상쇄하고 모델을 새로운 데이터 세트로 일반화할 수 있다는 점을 기억하세요. 의사 결정 트리는 높은 분산 또는 높은 편향을 나타낼 수 있지만, 앙상블 학습을 활용하여 편향-분산 트레이드오프 내에서 '최적의 지점'을 찾는 유일한 모델링 기법은 아니라는 점에 주목할 필요가 있습니다.

배깅과 부스팅 비교

배깅과 부스팅은 앙상블 학습 방법의 두 가지 주요 유형입니다. 이 연구에서 강조된 바와 같이, 이러한 학습 방법들 간의 주요 차이는 학습 방식에 있습니다.

배깅에서는 약한 학습기를 동시에 훈련하지만, 부스팅에서는 순차적으로 훈련합니다. 즉, 일련의 모델이 구성되고 새로운 모델이 반복될 때마다 이전 모델에서 잘못 분류된 데이터의 가중치가 증가합니다.

이러한 가중치 재분배는 알고리즘이 성능을 개선하기 위해 집중해야 하는 매개변수를 파악하는 데 도움이 됩니다. '적응형 부스팅 알고리즘'의 약자인 AdaBoost는 최초의 부스팅 알고리즘 중 하나로 가장 인기 있는 부스팅 알고리즘이기도 합니다. 다른 유형의 부스팅 알고리즘으로는 XGBoost, GradientBoost 및 BrownBoost가 있습니다.

배깅과 부스팅의 또 다른 차이점은 사용 시나리오에 있습니다. 예를 들어, 배깅 방법은 일반적으로 높은 분산과 낮은 편향을 보이는 약한 학습기에게 사용되며, 부스팅 방법은 낮은 분산과 높은 편향이 관찰되는 경우에 사용됩니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스 + 인사이트

주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

배깅이 작동하는 방식

1996년에 Leo Breiman은 배깅 알고리즘을 소개했으며, 이 알고리즘은 세 가지 기본 단계를 포함합니다.

  1. 부트스트래핑: 배깅은 부트스트래핑 샘플링 기술을 활용하여 다양한 샘플을 생성합니다. 이 리샘플링으로 학습 데이터 세트에서 다양한 하위 세트를 생성합니다. 이를 위해 무작위로 데이터 포인트를 선택하고 교체합니다. 즉, 학습 데이터 세트에서 데이터 포인트를 선택할 때마다 동일한 인스턴스를 여러 번 선택할 수 있습니다. 결과적으로 샘플에서 값 또는 인스턴스가 두 번 또는 그 이상 반복됩니다.

  2. 병렬 학습: 이러한 부트스트래핑 샘플은 약한 학습기나 기본 학습기를 사용하여 서로 독립적으로 병렬로 학습됩니다.

  3. 집계: 마지막으로 작업(회귀 또는 분류)에 따라 보다 정확한 예측을 계산하기 위해 예측의 평균 또는 과반수를 취합니다. 회귀의 경우 개별 분류기가 예측한 모든 결과의 평균을 취하는데, 이를 소프트 투표라고 합니다. 분류 문제의 경우, 과반수 득표율이 가장 높은 클래스가 받아들여지는데, 이를 하드 투표 또는 과반수 투표라고 합니다.
Mixture of Experts | 4월 25일, 에피소드 52

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

배깅의 장점과 단점

분류 또는 회귀 문제에 배깅 방법을 사용할 때 몇 가지 주요 이점과 과제가 있습니다. 배깅의 주요 이점은 다음과 같습니다.

  • 구현 용이성: sklearn이라고도 하는 사이킷 학습과 같은 Python 라이브러리를 사용하면 기본 학습기나 추정기의 예측을 쉽게 결합하여 모델 성능을 개선할 수 있습니다. 해당 문서에는 모델 최적화에 사용할 수 있는 모듈들이 나와 있습니다.

  • 분산 감소: 배깅은 학습 알고리즘 내에서 분산을 줄일 수 있습니다. 이는 특히 누락된 값으로 인해 분산이 커져 과적합이 발생하기 쉽고 새로운 데이터 집합에 대한 정확한 일반화가 방해를 받을 수 있는 고차원 데이터에 유용합니다.

배깅의 주요 단점은 다음과 같습니다.

  • 해석 가능성 손실: 배깅은 예측에 평균을 적용하기 때문에 이를 통해 매우 정확한 비즈니스 인사이트를 도출하기는 어렵습니다. 개별 데이터 포인트보다 결과는 더 정확하지만, 더 정확하거나 완전한 데이터 세트는 단일 분류 또는 회귀 모델 내에서 더 높은 정확도를 얻을 수도 있습니다.

  • 높은 계산 비용: 반복 횟수가 늘어날수록 배깅 속도가 느려지고 작업량이 증가합니다. 따라서 실시간 애플리케이션에는 적합하지 않습니다. 클러스터링된 시스템 또는 많은 수의 프로세싱 코어는 대규모 테스트 세트에서 배깅 앙상블을 빠르게 생성하는 데 적합합니다.

  • 유연성 저하: 배깅 기술은 안정성이 떨어지는 알고리즘에서 특히 잘 작동합니다. 더 안정적이거나 편향이 많은 모델은 모델 데이터 세트 내의 변동이 적기 때문에 많은 이점을 제공하지 못합니다. 머신 러닝 실습 가이드에서 언급된 바와 같이, "배깅은 선형 회귀 모델에 대해 충분히 큰 b 값을 사용할 경우 사실상 원래 예측값을 반환하게 됩니다."

배깅의 적용 분야

배깅 기법은 여러 산업 분야에서 사용되며, GRAMMY Debates with Watson에서와 같이 실제 가치와 흥미로운 관점에 대한 인사이트를 제공합니다. 주요 사용 사례는 다음과 같습니다.

  • 의료: 배깅은 의료 데이터 예측에 사용되고 있습니다. 예를 들어, 연구에서는 앙상블 방법이 유전자 및 단백질 선택과 같은 다양한 생물정보학 문제에 사용되어 특정 관심 특성을 식별하는 데 활용되었다고 보여줍니다. 보다 구체적으로, 이 연구는 다양한 위험 예측 변수를 바탕으로 당뇨병 발병을 예측하는 데 이 방법이 어떻게 사용되는지를 탐구합니다.

  • IT: 배깅을 사용해 네트워크 침입 탐지 시스템과 같은 IT 시스템의 정밀도와 정확도를 향상시킬 수도 있습니다. 한편, 이 연구는 배깅이 네트워크 침입 탐지의 정확도를 향상시키고 오탐률을 줄이는 데 어떻게 기여할 수 있는지 살펴봅니다.

  • 환경: 배깅과 같은 앙상블 방법은 원격 감지 분야에 적용되어 왔습니다. 보다 구체적으로, 이 연구는 배깅이 해안 지역 내 습지 유형을 매핑하는 데 어떻게 활용되었는지를 보여줍니다.

  • 금융: 배깅은 또한 금융 업계에서 딥러닝 모델과 함께 사용되어 사기 탐지, 신용 위험 평가, 옵션 가격 책정 문제 등 중요한 작업을 자동화하는 데 활용되고 있습니다. 이 연구는 배깅을 비롯한 여러 머신 러닝 기법들이 대출 연체 위험 평가에 어떻게 활용되었는지를 보여줍니다. 이 연구는 배깅이 은행 및 금융 기관 내에서 신용카드 사기를 방지하여 위험을 최소화하는 데 어떻게 기여하는지를 강조합니다.
관련 솔루션
IBM watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.

watsonx.ai 살펴보기 라이브 데모 예약하기