부스팅이란 무엇인가요?

부스팅이란 무엇인가요?

머신 러닝에서 부스팅은 훈련 오류를 최소화하기 위해 약한 학습자 집합을 강한 학습자로 결합하는 앙상블 학습 방법입니다. 부스팅 알고리즘은 이미지, 객체 및 특징 식별, 감정 분석, 데이터 마이닝 등의 예측력을 향상시킬 수 있습니다.

부스팅은 무작위로 추출한 데이터를 모델에 맞춰 순차적으로 학습시키는 방식입니다. 즉, 각 모델은 이전 모델의 약점을 보완하려고 시도합니다. 반복 과정을 거칠 때마다 각 이터레이션의 약한 규칙이 결합되어 하나의 강한 예측 규칙을 형성합니다.

앙상블 학습에 대해 자세히 알아보기

앙상블 학습은 일반적으로 개별 전문가보다 더 많은 사람들의 의사 결정이 더 낫다는 것을 시사하는 '군중의 지혜'라는 개념에 기반을 두고 있습니다. 마찬가지로 앙상블 학습은 더 나은 최종 예측을 위해 집합적으로 작동하는 기본 학습기 또는 모델의 그룹(또는 앙상블)을 의미합니다. 기본 학습기 또는 약한 학습기라고도 하는 단일 모델은 높은 분산 또는 높은 편향으로 인해 개별적으로는 올바르게 작동하지 않을 수 있습니다. 그러나 약한 학습기를 집계하면 이들의 조합이 편향이나 분산을 줄여 모델의 성능이 향상되므로 강력한 학습기를 형성할 수 있습니다.

앙상블 방법은 일반적으로 의사결정 트리를 사용하여 설명하는데, 이 알고리즘은 프루닝되지 않은 경우 높은 분산과 낮은 편향을 보이는 과적합이 발생하기 쉬우며, 매우 작은 경우에는 분산이 낮고 편향이 높아져 과소적합이 발생할 수 있습니다. 이는 단일 레벨을 가진 의사 결정 트리인 의사결정 그루터기와 같습니다. 알고리즘이 학습 데이터세트에 과적합하거나 과소적합하면 새로운 데이터 세트에 일반화하기가 어려우므로 앙상블 방법을 사용하여 이러한 동작을 상쇄하고 모델을 새로운 데이터 세트로 일반화할 수 있다는 점을 기억하세요. 의사 결정 트리는 높은 분산 또는 높은 편향을 나타낼 수 있지만, 앙상블 학습을 활용하여 편향-분산 트레이드오프 내에서 '최적의 지점'을 찾는 유일한 모델링 기법은 아니라는 점에 주목할 필요가 있습니다.

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

감사합니다! 구독이 완료되었습니다.

구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.

배깅과 부스팅 비교

배깅과 부스팅은 앙상블 학습 방법의 두 가지 주요 유형입니다. 이 연구에서 강조된 바와 같이, 이러한 학습 방법들 간의 주요 차이는 학습 방식에 있습니다. 배깅에서는 약한 학습자를 동시에 훈련하지만, 부스팅에서는 순차적으로 훈련합니다. 즉, 일련의 모델이 구성되고 새로운 모델이 반복될 때마다 이전 모델에서 잘못 분류된 데이터의 가중치가 증가합니다. 이러한 가중치 재분배는 알고리즘이 성능을 개선하기 위해 집중해야 하는 매개변수를 파악하는 데 도움이 됩니다. '적응형 부스팅 알고리즘'의 약자인 AdaBoost는 최초의 부스팅 알고리즘 중 하나로 가장 인기 있는 부스팅 알고리즘이기도 합니다. 다른 유형의 부스팅 알고리즘으로는 XGBoost, GradientBoost 및 BrownBoost가 있습니다.

배깅과 부스팅의 또 다른 차이점은 사용 방식에 있습니다. 예를 들어, 배깅 방법은 일반적으로 높은 분산과 낮은 편향을 보이는 약한 학습기에게 사용되며, 부스팅 방법은 낮은 분산과 높은 편향이 관찰되는 경우에 사용됩니다. 배깅을 사용하면 과적합을 피할 수 있는 반면, 부스팅 방법은 데이터 세트에 따라 달라짐에도 불구하고 과적합이 발생할 가능성이 더 높습니다. 하지만 매개변수를 조정하면 이 문제를 방지할 수 있습니다.

결과적으로 배깅과 부스팅은 실제 적용 분야에서도 서로 다릅니다. 배깅은 대출 승인 프로세스와 통계적 유전체학에 활용되었으며, 부스팅은 이미지 인식 앱과 검색 엔진에서 더 많이 사용되었습니다.

AI 아카데미

고객 서비스에 AI 활용

생성형 AI를 활용하여 더 원활한 경험으로 고객을 만족시키고 셀프 서비스, 인간 상담원, 컨택 센터 운영이라는 세 가지 핵심 영역에서 조직의 생산성을 높이는 방법을 알아보세요.

부스팅 유형

부스팅 방법은 보다 정확한 결과를 예측할 수 있는 강한 학습자를 구축하기 위해 약한 학습자를 반복적으로 결합하는 데 중점을 둡니다. 다시 말해, 약한 학습자는 무작위 추측보다 데이터를 약간 더 잘 분류합니다. 이러한 접근 방식은 예측 문제에 대해 견고한 결과를 제공할 수 있으며, 이미지 검색과 같은 작업에서는 신경망과 서포트 벡터 머신보다 더 나은 성과를 낼 수도 있습니다.

부스팅 알고리즘은 순차적 프로세스 중에 약한 학습자를 생성하고 집계하는 방법에 따라 다를 수 있습니다. 인기 있는 부스팅 방법 유형 세 가지는 다음과 같습니다.

  • 적응형 부스팅 또는 AdaBoost: Yoav Freund와 Robert Schapire는 AdaBoost 알고리즘을 만든 공로를 인정받았습니다. 이 방법은 반복적으로 작동하여 잘못 분류된 데이터 점을 식별하고 가중치를 조정하여 훈련 오류를 최소화합니다. 모델은 가장 강력한 예측 변수를 생성할 때까지 순차적으로 최적화를 계속합니다.

  • 그래디언트 부스팅: Jerome H. Friedman은 Leo Breiman의 작업을 바탕으로 앙상블에 예측 변수를 순차적으로 추가하고 각 예측 변수를 이전 모델의 오류를 수정하는 방식으로 작동하는 그래디언트 부스팅을 개발했습니다. 그러나 AdaBoost와 같은 데이터 포인트의 가중치를 변경하는 대신 그래디언트 부스팅은 이전 예측 변수의 잔차에 따라 학습합니다. 그래디언트 부스팅이라는 이름은 그래디언트 하강 알고리즘과 부스팅 방법을 결합하기 때문에 사용되었습니다.

  • 익스트림 그래디언트 부스팅 또는 XGBoost: XGBoost는 계산 속도와 규모를 위해 설계된 그래디언트 부스팅의 구현입니다. XGBoost는 CPU의 여러 코어를 활용하여 훈련 중에 병렬로 학습할 수 있습니다.

부스팅의 장점과 단점

분류 또는 회귀 문제에 부스팅 방법을 사용할 때 몇 가지 주요 이점과 단점이 있습니다. 

부스팅의 주요 이점은 다음과 같습니다.

  • 구현 용이성: 부스팅은 여러 가지 하이퍼매개변수 조정 옵션과 함께 사용하여 적합성을 개선할 수 있습니다. 데이터 전처리가 필요하지 않으며, 부스팅 알고리즘에는 누락된 데이터를 처리하는 기본 루틴이 내장되어 있습니다. Python에서 앙상블 방법의 사이킷 학습 라이브러리(sklearn.ensemble이라고도 함)로 AdaBoost, XGBoost 등 인기 있는 부스팅 방법을 쉽게 구현할 수 있습니다.

  • 편향 감소: 부스팅 알고리즘은 순차적인 방법으로 여러 약한 학습기를 결합하여 관찰 결과를 반복적으로 개선합니다. 이러한 접근 방식은 얕은 의사결정트리와 로지스틱 회귀 모델에서 일반적으로 나타나는 높은 편향을 줄이는 데 도움이 됩니다.

  • 계산 효율성: 부스팅 알고리즘은 훈련 중에 예측력을 높이는 특징만 선택하므로 차원을 줄이고 계산 효율성을 높이는 데 도움이 될 수 있습니다.

배깅의 주요 단점은 다음과 같습니다.

  •  과적합: 부스팅이 과적합을 줄이는 데 도움이 될 수 있는지에 혹은 이를 악화시키는지에 관한 연구에 대해 논쟁이 있습니다. 문제가 발생하는 경우 예측을 새로운 데이터 세트로 일반화할 수 없기 때문에 이를 과제에 포함했습니다.

  •  집약적인 계산: 부스팅에서 순차적 학습은 확장하기 어렵습니다. 각 추정자는 이전 추정자를 기반으로 구축되므로 부스팅 모델은 계산 비용이 많이 들 수 있지만 XGBoost는 다른 유형의 부스팅 방법에서 발견되는 확장성 문제를 해결하려고 합니다. 부스팅 알고리즘은 많은 수의 매개변수가 모델의 동작에 영향을 미칠 수 있으므로 배깅에 비해 학습 속도가 느릴 수 있습니다.

부스팅의 적용 분야

부스팅 알고리즘은 다음과 같은 광범위한 산업 분야의 인공 지능 프로젝트에 적합합니다.

  • 의료: 부스팅은 심혈관 위험 요인 및 암 환자 생존율 예측과 같은 의료 데이터 예측의 오류를 줄이는 데 사용됩니다. 예를 들어, 연구에 따르면 앙상블 방법을 사용하면 다른 사람에 대한 불필요한 치료를 피하면서 심혈관 질환 예방 치료의 혜택을 받을 수 있는 환자를 식별하는 정확도가 크게 향상됩니다. 마찬가지로, 또 다른 연구에서는 여러 유전체학 플랫폼에 부스팅을 적용하면 암 생존 시간 예측을 개선할 수 있다는 사실을 발견했습니다.

 

  • IT: 그래디언트 부스트 회귀 트리는 검색 엔진에서 페이지 순위를 매기는 데 사용되며, Viola-Jones 부스팅 알고리즘은 이미지 검색에 사용됩니다. Cornell이 언급했듯이, 부스트 분류기를 사용하면 예측이 어느 방향으로 향할지 명확할 때 계산을 더 빨리 중단할 수 있습니다. 즉 검색 엔진은 순위가 낮은 페이지의 평가를 중단할 수 있으며 이미지 스캐너는 실제로 원하는 개체가 포함된 이미지만 고려합니다.

  • 재무: 부스팅은 딥 러닝 모델과 함께 사용되어 사기 탐지, 가격 분석 등을 비롯한 중요한 작업을 자동화합니다. 예를 들어 신용 카드 사기 탐지 및 금융 상품 가격 분석에서 부스팅 방법을 사용하면 대규모 데이터 세트 분석의 정확도를 높여 재정적 손실을 최소화할 수 있습니다.  
관련 솔루션
IBM watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.

watsonx.ai 살펴보기 라이브 데모 예약하기