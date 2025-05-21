업계 뉴스레터
전문가가 전하는 최신 AI 트렌드
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
감사합니다! 구독이 완료되었습니다.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
머신 러닝(ML)과 인공 지능(AI)에서 편향-분산 트레이드오프는 예측적 머신 러닝 모델의 성능을 제어하는 개념이자 데이터 과학의 기본 테넌트입니다.
특정 비즈니스 문제에 대한 ML 모델을 구축하기로 결정할 때 우리는 오류를 최소화하고 기본 신호를 포착하는 모델 아키텍처를 선택하려고 합니다. 편향과 분산은 예측 오류의 두 가지 원인을 나타냅니다. 편향은 지나치게 단순한 가정으로 인해 예측이 실제값에서 얼마나 멀리 떨어져 있는지 측정하는 반면, 분산은 다양한 학습 데이터에 따라 예측이 얼마나 변동되는지를 포착합니다.
이러한 트레이드오프를 이해하고 관리하는 것은 보이지 않는 데이터에 잘 일반화되는 모델을 구축하는 데 중요합니다. 편향이 높은 모델은 과소적합이 발생하여 중요한 패턴을 놓치는 경향이 있는 반면, 분산이 높은 모델은 과적합이 발생하여 노이즈를 신호인 것처럼 포착하기 쉽습니다. 적절한 균형을 맞추는 것은 효과적인 머신 러닝 설계의 핵심이며, 학습 데이터에서 잘 수행되는 모델이 현실 세계에서는 실패할 수 있는 이유를 설명하는 데 도움이 됩니다.
이 설명서에서는 편향-분산 트레이드오프 및 예측 오류에 대한 기술적 세부 사항을 살펴보고, 데이터 세트에 적합한 모델을 구축하는 방법을 그림으로 설명합니다.
선형 회귀 또는 K-최근접 이웃(KNN)과 같은 예측 모델에서 편향과 분산은 상호 의존적입니다.
이 설명서에서는 선형 회귀를 예로 들어 모델 복잡성이 예측 결과의 편향과 분산에 어떤 영향을 미치는지 설명합니다. 선형 회귀에서 지표는 평균 제곱 오차(MSE), 즉 실측값과 예측값의 평균 제곱 오차로 정의됩니다. MSE가 크면 모델이 학습 데이터에 적합하지 않은 것이며, MSE가 낮으면 모델이 학습 데이터에 적합한 것입니다.
MSE는 다음과 같이 정의됩니다.
또는 잔차 제곱합으로 표현됩니다.
입력 값 X와 이에 상응하는 아웃풋 값 Y의 집합이 주어졌다고 가정해 보겠습니다. X와 Y 사이의 진정한 관계는 비선형이며, 사인파처럼 매끄럽고 구부러진 U 모양과도 같습니다. 그러나 우리는 이의 기반 함수를 모릅니다. 대신 우리는 이를 근사화하는 노이즈 데이터 포인트를 관찰합니다.
이제 X를 사용하여 Y를 예측하는 모델을 구축하려고 합니다.
모델 복잡성이 성능에 어떤 영향을 미치는지 설명하기 위해 복잡성이 증가하는 세 가지 모델, 즉 선형 모델, 적당히 복잡한 다항식 모델 및 매우 복잡한 다항식 모델을 적합해 볼 수 있습니다.
이 노이즈 구성 요소는 현실의 데이터를 모방하여 무작위성을 도입합니다. 다항식은 X의 거듭제곱의 합에 계수를 곱한 수학 표현식입니다.
예를 들어, 1차 다항식은 다음과 같습니다.
모델은 직선으로 표시됩니다.
이 모델은 매우 간단하며 X와 Y 사이의 관계가 선형이라고 강력하게 가정합니다. 그러나 데이터에는 분명히 곡선 패턴이 있습니다. 그 결과:
이것은 과소적합의 예로, 모델이 너무 단순하여 실제 구조를 학습할 수 없습니다.
4차 다항식은 다음과 같습니다.
이제 x의 거듭제곱을 포함하는 다항식을 사용합니다(최대 :
). 이 모델은 노이즈에 너무 민감하지 않고 데이터의 곡선을 포착할 수 있을 만큼 복잡합니다.
이 예시에서 가장 성능이 좋은 모델로, 일반화도 잘 됩니다.
25차 다항식은 다음과 같습니다.
26개의 매개변수가 있는 이 모델은 유연성이 높고 심지어 무작위 노이즈를 포함하여 학습 데이터에 매우 밀접하게 적합됩니다. 곡선은 매우 구불구불하고 데이터에 과적합됩니다.
이것은 과적합의 예로, 모델은 신호와 함께 노이즈를 학습하고 보이지 않는 데이터에 잘 일반화되지 않습니다.
차수가 높을수록 곡선이 더 '구불구불'해지며, 신호와 노이즈를 모두 포함하여 학습 데이터에 더 많이 적응할 수 있습니다.
상기 예에서 모델 복잡성과 매개변수 수가 편향-분산 트레이드오프에 직접적인 영향을 미친다는 것을 알 수 있습니다. 모델이 더 복잡해지고 더 많은 매개변수가 추가될수록 테스트 세트의 예측값의 변동성이 증가하여 분산이 높아집니다. 그러나 모형이 단순화되고 매개변수 수가 감소함에 따라 예측의 이 증가합니다.
따라서 머신 러닝 모델을 구성할 때는 최적의 성능을 달성하기 위해 동시에 편향과 분산을 수행하는 것을 목표로 해야 합니다. 이 최적화는 학습에서 좋은 결과를 도출할 뿐만 아니라 보이지 않는 테스트 데이터에도 일반화합니다. 다음 섹션에서는 편향 및 분산 계산이 어떻게 도출되는지, 그리고 머신 러닝 모델에 편향, 분산 및 감소 불가능한 오류로 구성된 불확실성이 포함되는 이유는 무엇인지에 대한 수학적 세부 사항을 자세히 살펴봅니다.
실제 머신 러닝 모델에서 편향과 분산이 어떻게 나타나는지 이해하는 것은 성능을 진단하고 개선하는 데 필수적입니다. 다음 섹션에서는 고편향 고분산 모델이 어떻게 AI 시스템에서 낮은 성능을 초래할 수 있는지에 대해 자세히 살펴봅니다.
고편향 모델은 일반적으로 데이터의 실제 패턴을 포착하기에는 너무 단순합니다. 또한 학습 세트 과소적합으로 인해 학습 및 테스트 정확도가 떨어집니다. 전형적인 예는 이전에 표시된 비선형 데이터에 적용된 선형 회귀입니다. 특징과 대상 간의 실제 관계가 이차 또는 사인파이고 직선을 적합한 경우, 모델은 기본 구조를 포착할 능력이 부족합니다.
증상: 학습 세트와 테스트 세트 모두에서 높은 오류가 발생합니다. 편향이 커지고 학습 세트와 테스트 세트 모두에서 성능이 저하됩니다.
고분산 모델은 지나치게 유연하며 노이즈를 포함하여 학습 데이터에 너무 밀접하게 적합됩니다. 이러한 모델은 학습 세트를 과적합하고 보이지 않는 데이터로 일반화하지 못하여 과적합으로 이어지고 비정상적으로 높은 변동성을 가진 예측이 초래됩니다.
일반적인 예는 다음과 같습니다.
증상: 학습 오류는 낮지만 테스트 오류는 높습니다. 예측이 데이터 세트에 따라 상당히 다릅니다. 분산 항이 오류를 지배하며, 이는 모델이 데이터 변경 학습과 관련하여 불안정하다는 것을 나타냅니다.
이러한 오류를 진단하는 몇 가지 실용적인 도구는 다음과 같습니다.
학습 곡선(이전의 섹션 I 참조):
학습 오류가 낮고 검증 오류가 높으며 격차가 좁혀지지 않으면 고분산입니다. 교차 검증을 적용하여 모델의 성능을 진단하고 선택한 학습 세트에서 오류를 평균화할 수 있습니다.
업계 뉴스레터
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
실제로 편향-분산 트레이드오프를 제어하는 것은 '완벽한' 모델을 선택하는 것이 아니라 다양한 전략을 통해 복잡성을 관리하는 것입니다. 다음 전략 중 일부를 활용하여 예측 오류의 변동성을 제어할 목적으로 여러 기법을 적용할 수 있습니다.
정규화는 일반화, 즉 보이지 않는 데이터에 대한 성능을 개선하기 위해 모델의 복잡성을 제한하거나 페널티를 부과하는 데 사용되는 일련의 기법을 의미합니다. 수학적 용어로 정규화는 복잡성을 억제하는 페널티 항(일반적으로 큰 가중치 또는 지나치게 유연한 모델의 형태)을 추가하여 원래의 손실 함수를 수정합니다.
목표는 특히 고차원 또는 제한된 데이터를 처리할 때 과적합을 방지하는 것입니다. 머신 러닝 모델을 학습시킬 때는 일반적으로 평균 제곱 오차(MSE)와 같은 손실 함수를 최소화합니다
RSS=∑i=1n(yi-yi^)2
정규화를 통해 이 목표에 페널티를 추가합니다.
LossRidge=∑i=1n(yi-yi^)2+λ*Penalty
여기서,
λ는 학습 데이터를 적합하는 것과 모델을 단순하게 유지하는 것 사이의 트레이드오프를 제어하는 하이퍼매개변수입니다.
계수 크기의 제곱에 비례하는 페널티를 추가합니다. 이렇게 하면 지나치게 큰 가중치를 방지하여 분산을 줄일 수 있습니다. 페널티 항은 예측력이 낮은 특징이 낮은 값을 갖도록 하여 매개변수의 계수를 효과적으로 줄입니다.
희소성 장려:
Losslasso=∑i=1n(yi-ŷi)2+λ∑j=1p|βj|
관련성 없는 특징을 완전히 제거하여 모델을 단순화해서 분산을 줄일 수 있습니다. 페널티 항인 USD{\sum_{j=1}^{p} |\beta_j}USD는 중요하지 않은 특징을 0으로 줄여 그러한 특징을 실질적으로 완전히 제거합니다.
모델 복잡성과 정규화 강도는 종종 하이퍼매개변수를 통해 제어됩니다. 그리드 검색이나 교차 검증을 사용한 무작위 검색 또는 베이지안 최적화와 같은 기술은 보류 데이터에 대한 편향과 분산의 균형을 맞추는 모델을 찾는 데 도움이 될 수 있습니다.
편향-분산 트레이드오프는 단순히 이론적인 개념이 아니라, 딥 러닝과 대규모 AI 시스템에서 중요한 역할을 합니다. 오늘날 AI의 시대에 신경망 아키텍처의 선택은 편향과 분산 간의 균형을 관리하는 데 중요한 역할을 합니다. CNN과 RNN이라는 두 가지 기본 아키텍처가 실제로 이러한 균형을 모색하는 방법은 다음과 같습니다.
1. 컨볼루션 신경망(CNN): CNN은 공간적 구조를 가진 데이터(대부분 이미지)를 위해 특별히 설계되었습니다. 아키텍처 기능을 통해 편향을 낮게 유지하므로, 충분한 표현력을 유지하면서 분산을 줄일 수 있습니다.
2. 순환 신경망(RNN): RNN은 텍스트, 음성 또는 시계열과 같은 순차적 데이터에 맞춰 설계되었으며, 현재 아웃풋은 이전 요소에 따라 달라집니다. 이러한 설계는 장기적인 종속성(편향 감소)과 학습 안정성(분산 제어)의 균형을 맞추려고 합니다.
편향-분산 트레이드오프의 수학적 기초를 살펴보겠습니다. 이전의 예에서 우리는 예측값과 실제값의 총 오차를 줄이는 것을 목표로 했습니다. 이 오차는 편향, 분산, 감소 불가능한 오류의 세 가지 구성 요소로 구성됩니다. 모델의 예상 제곱 예측 오차를 다음과 같이 분석할 수 있습니다.
f^(x)
실제 함수와 비교: f(x),
여기서 f^(x)는 학습 데이터 세트 D에서 학습되고 x는 진짜(알 수 없는) 함수입니다.
다음을 가정합니다.
y=f(x)+ε,ε∼N(0,σ2)
이는 함수 y=f(x)+ε의 경우 오차(ε로 표시됨)는 평균이 0이고 분산이 σ2이며, σ는 분포의 표준 편차를 나타냅니다.
f^(x)는 입력 x에서 모델의 예측값입니다.
기대치(또는 평균)는 서로 다른 학습 데이터 세트 D와 노이즈 ε에 대해 취해집니다. 기호 E는 분포 평균의 실제값인 "기대치" 또는 "기대값"을 표현하는 데 사용됩니다.
우리의 관심사는 단일 포인트 x에서 예상되는 예측 오류입니다.
ED,ε[(y-f^(x))2]
대체:
y=f(x)+ε
따라서 식은 다음과 같이 됩니다.
=ED,ε[(f(x)+ε-f^(x))2]
제곱을 확장하면:
$=ED,ε[(f(x)-f^(x))2+2(f(x)-f^(x))ε+ε2]$
선형성을 사용하여 기대치 분할(선형성은 간단한 대수 개념입니다. 예: E[A+B]=E[A]+E[B]):
=ED[(f(x)-f^(x))2]+2ED,ε[(f(x)-f^(x))ε]+Eε[ε2]
이제 다음이 성립하므로:
E[ε]=0⇒E[(f(x)-f^(x))ε]=0
E[ε2]=σ2
다음이 산출됩니다.
ED[(f(x)-f^(x))2]+σ2
다음을 더하고 뺍니다.
ED[f^(x)] :
ED[(f(x)-f^(x))2]=ED[(f(x)-ED[f^(x)]+ED[f^(x)]-f^(x))2]
다음을 가정합니다.
a=f(x)-ED[f^(x)]
b=ED[f^(x)]-f^(x)
그런 다음:
ED[(a+b)2]=a2+ED[b2]+2aED[b]
ED[b]=0이므로, 교차 항이 사라지고 다음이 산출됩니다.
=(f(x)-ED[f^(x)])2+ED[(f^(x)-ED[f^(x)])2]
ED,ε[(y-f^(x))2]=$$(f(x)-ED[f^(x)])2+ED[(f^(x)-ED[f^(x)])2]+σ2
여기서 첫 번째 항은 편향2 , 두 번째 항은 분산, 세 번째 항은 감소 불가능한 오류입니다
이는 총 예상 예측 오차가 다음과 같이 분해될 수 있음을 보여줍니다.
- 편향²: 모델의 잘못된 가정으로 인한 오류(예: 적합도가 낮거나 지나치게 단순한 모형)
- 분산: 학습 데이터에 대한 민감도에서 발생한 오류(예: 과적합, 지나치게 복잡한 모델)
- 감소 불가능한 노이즈: 관측치에서 피할 수 없는 무작위성과 오류
요약하면, 편향과 분산은 머신 러닝에서 예측 오류의 두 가지 근본적인 원인입니다. 이러한 트레이드오프를 이해하는 것은 단순한 이론적인 연습이 아니라 실제로 ML 모델을 설계, 학습 및 배포하는 방법을 직접적으로 형성합니다.
간단한 선형 모델을 선택하든 복잡한 심층 신경망을 선택하든, 과소적합과 과적합 간의 균형을 인식하는 것은 견고한 AI 시스템을 구축하는 데 필수적입니다. 손실 함수로 평균 제곱 오차(MSE)에 초점을 맞췄지만, 이러한 트레이드오프는 광범위한 분포와 지표에 적용되므로 지도 학습 전반에 걸쳐 보편적인 고려 사항입니다.
최근 몇 년 동안 연구자들은 심층 신경망과 같이 과도하게 매개변수화된 대규모 모델에서 흥미로운 동작을 관찰했습니다. 고용량에도 불구하고 이러한 모델은 학습 데이터에 완벽하게 적합되는 경우에도 종종 일반화되어 전통적인 편향-분산 프레임워크를 거스르는 것처럼 보입니다.
이러한 수수께끼 같은 행동은 이중 하강의 개념을 소개한 Belkin 외 다수(2019년)의 "Reconciling modern machine learning and the bias-variance trade-off"와 일반화의 기하학적 해석을 제안하는 Bubeck 외 다수의 "A universal law of robustness via isoperimetry"와 같은 논문에서 탐구됩니다.
더 강력한 AI 시스템을 구축함에 따라 성능 최적화뿐만 아니라 모델 동작을 해석하고, 공정성을 보장하고, 책임감 있는 AI 관행을 발전시키기 위해서는 이러한 역학 관계에 대한 심층적인 이해가 필수적입니다.
IBM Granite는 비즈니스에 맞게 맞춤화되고 AI 애플리케이션 확장에 최적화되었으며 개방적이고 성능이 뛰어나며 신뢰할 수 있는 AI 모델 제품군입니다. 언어, 코드, 시계열 및 가드레일 옵션을 살펴보세요.
기업들은 신뢰할 수 없는 파운데이션 모델로는 생성형 AI를 확장할 수 없다는 것을 알고 있습니다. 발췌문을 다운로드하여 플래그십 'Granite 모델'을 보유한 IBM이 뛰어난 성과를 내는 기업으로 선정된 이유를 알아보세요.
watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.
IBM watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.
[1]: Hastie, T., Tibshirani, R., & Friedman, J. The Elements of Statistical Learning. Springer.
[2]: James, G., Witten, D., Hastie, T., & Tibshirani, R. An Introduction to Statistical Learning. Springer.
[3]: Belkin, M., Hsu, D., Ma, S., & Mandal, S. (2019). "Reconciling modern machine learning and the bias-variance trade-off." Proceedings of the National Academy of Sciences*, 116(32), 15849–15854.
[4]: Bubeck, S., Lee, Y. T., Price, E., & Razenshteyn, I. (2021). "A universal law of robustness via isoperimetry." Advances in Neural Information Processing Systems, 34, 10167–10179.