업계 뉴스레터
전문가가 전하는 최신 AI 트렌드
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
업계 뉴스레터
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
이러한 기술은 특히 복잡하거나 노이즈가 많은 데이터 세트를 처리할 때 모델 정확도를 향상시키기 위해 머신 러닝에 광범위하게 사용됩니다. 앙상블 학습은 여러 관점을 결합함으로써 개별 모델의 한계를 극복하고 향상된 최적화를 달성할 수 있는 방법을 제공합니다. 3
그래디언트 부스팅은 여러 약한 예측 모델을 단일 앙상블로 결합하는 머신 러닝 기법입니다. 이러한 약한 모델은 일반적으로 오류를 최소화하고 정확도를 개선하기 위해 순차적으로 학습되는 의사결정트리입니다. 그래디언트 부스팅은 여러 의사결정트리 회귀 또는 의사결정트리 분류기를 결합하여 특징 간의 복잡한 관계를 효과적으로 포착할 수 있습니다.
그래디언트 부스팅의 주요 이점 중 하나는 손실 함수를 반복적으로 최소화하여 예측 정확도를 향상시키는 능력입니다. 그러나 모델이 학습 데이터에 너무 특화되어 새로운 인스턴스에 잘 일반화되지 않을 때 발생하는 과적합을 인식해야 합니다. 이러한 위험을 완화하기 위해 실무자는 하이퍼매개변수를 신중하게 조정하고, 학습 중 모델 성능을 모니터링하고, 정규화, 가지치기 또는 조기 중지와 같은 기법을 사용해야 합니다. 실무자는 이러한 문제를 이해하고 해결하기 위한 조치를 취함으로써 회귀 트리 사용을 포함한 그래디언트 부스팅의 힘을 성공적으로 활용하여 다양한 응용 분야를 위한 정확하고 강력한 예측 모델을 개발할 수 있습니다. 4,5
평균 제곱 오차(MSE)는 머신 러닝 모델의 예측이 실제 데이터와 얼마나 잘 일치하는지 평가하는 데 사용되는 손실 함수 중 하나입니다. MSE는 예측값과 관찰값 간 차이 제곱의 평균을 계산합니다. MSE의 공식은 다음과 같습니다. , 여기서 는 실제 값을 나타내며, 는 예측 값이고 은 관찰 결과의 수입니다.
조금 더 확장하면 MSE는 회귀 문제에 대해 데이터 세트에 나타난 예측값과 실제값 간의 차이를 정량화합니다. 제곱 단계는 양수 오류와 음수 오류가 서로를 상쇄하지 않고 최종값에 기여하는지 확인하는 데 도움이 됩니다. 이 방법은 오류가 제곱되기 때문에 더 큰 오류에 더 많은 가중치를 부여합니다.
MSE 해석을 위해서는 일반적으로 값이 낮을수록 예측과 관찰 간의 일치가 더 높음을 기억해야 합니다. 그러나 데이터 세트뿐만 아니라 모집단에 존재하는 고유한 무작위성으로 인해 실제 시나리오에서 더 낮은 MSE를 달성하는 것은 어렵습니다. 대신 시간 경과에 따라 또는 다양한 모델 간 MSE 값을 비교하면 예측 정확도 향상을 파악하는 데 도움이 될 수 있습니다. 특히 MSE 0을 목표로 하는 것은 거의 항상 과적합을 시사한다는 점에 유의해야 합니다. 6
Python 내에서 널리 사용되는 부스팅 방법 구현으로는 Extreme Gradient Boosting(XGBoost)과 Light Gradient-Boosting Machine(LightGBM)이 있습니다. XGBoost는 속도와 성능을 위해 설계되었으며, 회귀 및 분류 문제에 사용됩니다. LightGBM은 트리 기반 학습 알고리즘을 사용하며, 대규모 데이터 처리에 적합합니다. 두 방법 모두 특히 복잡하거나 노이즈가 많은 데이터 세트를 다룰 때 정확성을 더욱 개선합니다. 데이터 인스턴스를 필터링하여 분할 지점을 찾는 데 LightGBM은 Gradient-based One-Side Sampling(GOSS)이라는 기법을 사용하여 계산 오버헤드를 크게 줄입니다. 여러 앙상블 학습 기법을 통합하여 개별 모델의 제약을 제거하고 데이터 과학 시나리오에서 우수한 결과를 얻습니다. 7,8
다음은 그래디언트 부스팅 프로세스의 작동 방식에 대한 단계별 분석입니다.
초기화: 학습 세트를 사용하여 초기 예측이 무작위로 생성되는 기본 학습자 모델(종종 의사결정트리)의 기반을 구축하는 것부터 시작합니다. 일반적으로 의사결정트리에는 소수의 노드 또는 터미널 노드만 포함됩니다. 이러한 약한 기본 학습자는 많은 경우 해석 가능성 때문에 선택되며, 최적의 출발점입니다. 이 초기 설정은 후속 반복을 구축할 수 있는 길을 열어줍니다.
잔차 계산: 각 학습 예제에 대해 실제값에서 예측값을 빼서 잔차를 계산합니다. 이 단계에서는 모델 예측의 개선이 필요한 영역을 식별합니다.
정규화를 통한 개선: 잔차 계산 후 및 새 모델 학습 전에 정규화 프로세스가 발생합니다. 이 단계에는 앙상블에 통합된 각 새로운 약한 학습자의 영향력을 축소하는 것이 포함됩니다. 이 척도를 신중하게 보정함으로써 부스팅 알고리즘의 진행 속도를 제어할 수 있으므로 과적합 방지 및 전반적인 성능 최적화에 도움이 됩니다.
다음 모델 학습: 이전 단계에서 계산된 잔차를 대상으로 사용하고 이러한 대상을 정확하게 예측하도록 새 모델 또는 약한 학습자를 학습시킵니다. 이 단계의 초점은 이전 모델에서 저지른 실수를 수정하고 예측 전반을 개선하는 것입니다.
앙상블 업데이트: 이 단계에서 업데이트된 앙상블(새로 학습된 모델 포함)의 성능은 일반적으로 별도의 테스트 세트를 사용하여 평가됩니다. 이 홀드아웃 데이터 세트의 성능이 만족스러우면 새로운 약한 학습자를 통합하여 앙상블을 업데이트할 수 있습니다. 그렇지 않으면 하이퍼매개변수를 조정해야 할 수 있습니다.
반복: 필요에 따라 이전에 제시된 단계를 반복합니다. 각 반복은 새로운 트리 학습을 통해 기본 모델을 기반으로 구축되고 개선되어 모델의 정확도를 더욱 향상시킵니다. 앙상블 업데이트 및 최종 모델이 정확도 측면에서 기준 모델과 비교하여 만족스러우면 다음 단계로 이동합니다.
중지 기준: 최대 반복 횟수, 목표 정확도 또는 수익 감소와 같은 미리 결정된 중지 기준이 충족되면 부스팅 프로세스를 중지합니다. 이 단계는 모델의 최종 예측이 복잡성과 성능 간의 예상 균형을 달성하도록 하는 데 도움이 됩니다.
앙상블 방법이나 스태킹을 통해 그래디언트 부스팅을 다른 머신 러닝 알고리즘과 결합하면 예측 정확도를 더욱 향상시킬 수 있습니다. 예를 들어, 그래디언트 부스팅을 지원 벡터 머신(SVM), 랜덤 포레스트 또는 k-최근접 이웃(KNN)과 혼합하여 각 모델의 강점을 활용해 더 강력한 앙상블을 만들 수 있습니다. 스태킹에는 여러 기본 학습자를 학습시키고 이러한 학습자의 아웃풋을 메타 학습자의 입력으로 사용하며, 이를 통해 예측을 결합하여 최종 아웃풋을 생성하는 작업이 포함됩니다. 9
학습 중에 모델 성능을 모니터링하고 조기 중지 기법을 구현하면 검증 세트 성능의 개선이 멈추거나 저하되기 시작할 때 부스팅 프로세스를 중지하여 과적합을 방지할 수 있습니다. 또한 k-폴드 교차 검증과 같은 교차 검증 전략을 사용하면 모델 성능 및 하이퍼매개변수 조정에 대한 보다 신뢰할 수 있는 추정치를 제공하여 그래디언트 부스팅의 예측 기능을 더욱 향상할 수 있습니다.
그래디언트 부스팅은 클래스 불균형에 민감하며, 이는 다수 클래스에 유리한 편향된 예측을 초래할 수 있습니다. 이 문제를 해결하기 위해 실무자는 소수 클래스를 오버샘플링하거나, 다수 클래스를 과소샘플링하거나, 소수 인스턴스를 잘못 분류할 때 더 높은 페널티를 할당하는 가중치 손실 함수를 사용하는 등의 기법을 사용할 수 있습니다.
이러한 전략을 구현하고 하이퍼매개변수를 신중하게 조정함으로써 실무자는 고차원 데이터 분석부터 복잡한 환경 모니터링 작업에 이르기까지 다양한 응용 분야에서 그래디언트 부스팅의 예측 정확도와 견고성을 크게 개선할 수 있습니다.
scikit-learn의 GradientBoostingClassifier 및 GradientBoostingRegressor는 분류 및 회귀 작업 모두에 적합한 그래디언트 부스팅 알고리즘을 구현하는 다용도의 접근 방식을 제공합니다. 사용자가 여러 매개변수를 미세 조정할 수 있도록 허용함으로써 이러한 구현은 특정 요구 사항과 데이터 특성에 따라 부스팅 프로세스 사용자 정의를 가능하게 합니다.
트리 깊이(max_depth): 개별 의사결정트리의 최대 깊이를 제어하며, 최상의 성능을 위해 조정되어야 합니다. 보다 심층적인 트리는 더 복잡한 관계를 포착할 수 있지만 과적합이 발생하기 쉽습니다.
학습률(learning_rate): 전체 앙상블에 대한 각 트리의 기여도를 결정합니다. 학습률이 낮을수록 수렴이 느려지고 과적합 위험이 감소하며, 값이 클수록 학습 속도가 빨라지되 잠재적인 과적합의 가능성이 커집니다.
트리 수(n_estimators): 앙상블의 총 트리 수를 지정합니다. 이 매개변수를 늘리면 성능이 향상될 수 있지만, 과적합의 위험이 증가합니다.
또한, scikit-learn의 그래디언트 부스팅 구현은 별도의 검증 데이터 세트를 요구하지 않고도 모델 성능을 평가하는 기법인 OOB(Out-of-Bag) 추정을 제공합니다. 또한 scikit-learn의 단계적 예측 방법은 새로운 데이터를 사용할 수 있게 되면 증분 예측를 지원하므로 실시간 처리가 가능하고 효율적입니다. 요약하자면, scikit-learn의 그래디언트 부스팅 구현은 특정 요구 사항과 데이터 세트 특성에 따라 모델을 미세 조정하기 위한 풍부한 기능 세트를 제공하여 궁극적으로 우수한 성능을 촉진합니다. 10
고차원 의료 데이터 처리: 그래디언트 부스팅은 관찰 횟수에 비해 많은 특징을 포함하는 데이터 세트를 효과적으로 처리할 수 있습니다. 예를 들어, 의료 진단에서 그래디언트 부스팅은 100개 이상의 특징을 포함할 수 있는 환자 데이터를 기반으로 질병을 진단하는 데 사용될 수 있습니다. 의사결정트리를 취약한 학습자로 활용함으로써 알고리즘은 기존 선형 회귀 모델은 어려움을 겪을 수 있는 고차원을 관리할 수 있습니다. 이 알고리즘은 또한 희소 데이터에서 귀중한 정보를 추출하여 생물정보학이나 텍스트 분류 문제와 같은 응용 분야에 적합할 수 있습니다. 11,12
고객 서비스 이탈률 감소: 모델이 이미 존재하지만 최적의 성능을 제공하지 못하는 경우, 그래디언트 부스팅을 사용하여 이전의 예측 오류를 수정하여 예측을 반복적으로 개선할 수 있습니다. 한 가지 예는 전통적인 로지스틱 회귀 모델이 사용된 통신 분야의 고객 이탈을 예측하는 것입니다. 회사는 그래디언트 부스팅 알고리즘을 적용하여 높은 통화량 또는 저조한 네트워크 성능과 같이 고객이 다른 서비스로 이동하는 데 기여하는 주요 요인을 식별할 수 있습니다. 이러한 요인을 모델에 통합하면 정확도를 높이고 이탈률을 줄일 수 있습니다. 13
너도밤나무 생존 예측: 산림 생태계에서 너도밤나무 잎병(BLD)은 너도밤나무의 건강을 심각하게 위협합니다. 연구자들은 BLD의 위험이 있는 나무를 식별하고 생존 가능성을 예측하기 위한 예측 모델을 개발할 수 있습니다. 기후 데이터, 토양 품질 및 나무 특성과 같은 환경 요인을 분석하여 5년 동안 너도밤나무 생존 가능성(BTS)을 계산할 수 있는 머신 러닝 모델을 개발할 수 있습니다. 그래디언트 부스팅 기술을 사용하면 더 간단한 방법으로는 간과될 수 있는 복잡한 패턴을 포착할 수 있습니다. 이 모델은 BLD 위험에 처한 나무를 높은 정밀도로 식별하고 BTS를 정확하게 예측하여 연구자가 개입의 우선순위를 정하고 취약한 너도밤나무를 효과적으로 보호할 수 있도록 돕습니다. 이 사용 사례는 그래디언트 부스팅이 복잡한 환경 모니터링 작업에서 머신 러닝 모델의 예측 능력을 향상시키는 방법을 보여줍니다. 14
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.
1 Friedman, Jerome H. “Greedy Function Approximation: A Gradient Boosting Machine.” The Annals of Statistics 29, no. 5 (2001): 1189–1232. http://www.jstor.org/stable/2699986.
2 Schapire, R.E. (2013). Explaining AdaBoost. In: Schölkopf, B., Luo, Z., Vovk, V. (eds) Empirical Inference. Springer, Berlin, Heidelberg. https://link.springer.com/chapter/10.1007/978-3-642-41136-6_5
3 Fan, Wenjie, et al. "A Survey of Ensemble Learning: Recent Trends and Future Directions." arXiv preprint arXiv:2501.04871 (2025).
4 Matsubara, Takuo. “Wasserstein Gradient Boosting: A Framework for Distribution- Valued Supervised Learning.” arXiv.org, August 29, 2024. https://search.arxiv.org/paper.jsp?r=2405.09536&qid=1743170618344ler_nCn N_-2014411830&qs=gradient%2Bboosting.
5 Emami, Seyedsaman, and Gonzalo Martínez-Muñoz. 2023. “Sequential Training of Neural Networks with Gradient Boosting.” IEEE Access 11 (January): 42738–50. https://ieeexplore.ieee.org/document/10110967
6 Chen, Tianqi, et al. "Mean Squared Error." Encyclopedia Britannica, 2023. https://www.britannica.com/science/mean-squared-error.
7 XGBoost Developers. "XGBoost: A Scalable Tree Boosting System." GitHub, 2021. https://github.com/dmlc/xgboost/blob/master/README.md .
8 LightGBM Documentation Team. "LightGBM." 2021. https://lightgbm.readthedocs.io/en/stable/ .
9 Konstantinov, Andrei V., and Lev V. Utkin. “A Generalized Stacking for Implementing Ensembles of Gradient Boosting Machines.” In Studies in Systems, Decision and Control, 3–16, 2021. https://link.springer.com/chapter/10.1007/978-3-030-67892-0_1.
10 Documentation of Scikit-Learn “Scikit-Learn” 2007 https://scikit-learn.org/0.21/documentation.html
11. Lecun, Yann, et al. "Gradient-Based Learning Applied to Document Recognition." Proceedings of the IEEE 86, no. 11 (2007): 2278-2324. doi: 10.1109/PROC.2007.898639
12 Zhang, Zhongheng, Yiming Zhao, Aran Canes, Dan Steinberg, and Olga Lyashevska. 2019. “Predictive Analytics with Gradient Boosting in Clinical Medicine.” Annals of Translational Medicine 7 (7): 152–52. https://atm.amegroups.org/article/view/24543/23475.
13 Al Shourbaji, Ibrahim, Na Helian, Yi Sun, Abdelazim G. Hussien, Laith Abualigah, and Bushra Elnaim. 2023. “An Efficient Churn Prediction Model Using Gradient Boosting Machine and Metaheuristic Optimization.” Scientific Reports 13 (1): 14441. https://www.nature.com/articles/s41598-023-41093-6.
14 Manley, William, Tam Tran, Melissa Prusinski, and Dustin Brisson. “Modeling Tick Populations: An Ecological Test Case for Gradient Boosted Trees.” bioRxiv : the preprint server for biology, November 29, 2023. https://pmc.ncbi.nlm.nih.gov/articles/PMC10054924/#:~:text=The%20rapidly%20expanding%20environmental%20data,development%20of%20public%20health%20strategies.