편향과 분산은 엔지니어가 머신 러닝 모델에 잘 맞도록 하기 위해 균형을 맞춰야 하는 이유를 설명합니다. 따라서 편향-분산 트레이드오프는 과소적합과 과적합을 해결하는 데 있어 핵심적인 역할을 합니다.
편향된 모델은 학습 과정을 단순화하기 위해 학습 데이터에 대해 강력한 가정을 하고, 설명할 수 없는 미묘함이나 복잡성을 무시합니다. 분산은 학습 데이터의 학습 변동에 대한 모델의 민감도를 나타냅니다.
편향성이 높은 모델의 예로는 데이터 패턴이 더 복잡한 경우에도 단순한 선형 또는 이진 관계를 가정하는 선형 회귀 알고리즘이나 얕은 Decision Trees가 있습니다.
이차 관계의 데이터에 선형 회귀 모델을 사용하면 선형 모델이 내재된 곡률을 포착할 수 없기 때문에 과소 적합이 발생합니다. 결과적으로 모델은 새로운 데이터로 잘 일반화할 수 없기 때문에 학습 세트와 보이지 않는 테스트 데이터에서 성능이 저하됩니다.
일반화는 학습된 패턴을 이해하고 보이지 않는 데이터에 적용하는 모델의 능력입니다. 분산이 낮은 모델은 너무 단순하여 복잡한 패턴을 포착하기 어렵기 때문에 적합도가 떨어지는 경향이 있습니다. 그러나 편향성이 낮은 모델은 너무 유연하면 과적합할 수 있습니다.
높은 분산은 모델이 학습 데이터 내에서 노이즈, 특이성 및 무작위 세부 정보를 캡처할 수 있음을 나타냅니다. 고분산 모델은 지나치게 유연하여 학습 오류가 낮지만 새로운 데이터에 대해 테스트할 때 학습된 패턴이 일반화되지 않아 테스트 오류가 높습니다.
시험에서 답을 맞히는 데 필요한 개념을 스스로 이해하는 대신 답을 외운다고 상상해 보세요. 시험 문제가 학습한 내용과 다르면 답을 맞히는 데 어려움을 겪을 것입니다. 머신 러닝 모델에서 최적의 성능을 달성하려면 분산과 편향 사이의 균형을 맞추는 것이 중요합니다.
과적합 모델은 훈련 데이터에 대한 모델 정확도는 높지만 일반화가 아닌 암기하기 때문에 새 데이터에 대한 정확도가 낮을 수 있습니다. 엔지니어가 매개변수나 계층이 너무 많은 머신 러닝 모델(예: 딥 러닝 신경망)을 사용할 때 과적합이 발생하여 훈련 데이터에 대한 적응성이 매우 낮아집니다.
작거나 노이즈가 많은 데이터 세트를 학습시키는 경우, 모델은 일반적인 패턴을 학습하기보다는 특정 데이터 포인트와 노이즈를 암기할 위험이 있습니다. 데이터에 오류나 불일치가 포함되어 있으면 모델이 이를 의미 있는 패턴으로 잘못 학습할 수 있습니다.
엔지니어는 학습과 테스트 간의 성능 격차를 찾지만, 학습 곡선에서 훈련 손실은 0을 향해 감소하는 반면 검증 손실은 증가하여 일반화가 제대로 이루어지지 않는 과적합을 감지할 수도 있습니다.
과적합 모델의 또 다른 징후는 데이터 포인트를 분류하기 위한 모델의 학습된 규칙인 결정 경계입니다. 결정 경계는 과적합 모델에서 지나치게 복잡하고 불규칙해지며, 실제 기본 구조를 포착하기보다는 학습 세트의 노이즈에 적응하기 때문에 과적합을 더욱 나타냅니다.
또한 고차원 데이터 세트는 '차원의 저주'로 인해 과적합으로 이어질 수 있습니다. 기능의 수가 증가하면 데이터 포인트가 희박해져 모델이 의미 있는 패턴을 찾기가 더 어려워지고 분산과 과적합의 위험이 증가합니다.
과소 적합 모델은 데이터 세트의 지배적인 패턴을 포착하지 못하기 때문에 학습 데이터 및 테스트 데이터에서 성능이 떨어집니다. 엔지니어는 일반적으로 두 데이터 세트에서 일관된 낮은 성능을 통해 과소 맞춤을 식별합니다.
또한 과소적합 모델은 학습 곡선에서 높은 오차를 보이고, 차선의 메트릭을 반환하며, 체계적인 잔류 패턴을 보이는 경향이 있는데, 이는 모두 데이터의 기본 관계를 효과적으로 학습할 수 없음을 나타냅니다.
의료 진단 모델
머신 러닝 모델은 작은 데이터 세트에서 의료 이미지를 '건강한' 또는 '병에 걸린'로 분류하도록 학습됩니다. 이 모델은 훈련 이미지를 기억하여 거의 완벽에 가까운 정확도를 달성하지만 훈련 데이터에서 일반적인 질병 특징 대신 특정 노이즈나 아티팩트를 학습했기 때문에 새 이미지를 다룰 때는 성능이 떨어집니다.
주가 예측
금융 모델은 많은 매개변수가 있는 복잡한 신경망을 사용하여 주가를 예측합니다. 대신 과거 데이터의 무작위 변동을 학습하여, 예측은 매우 정확하지만 미래 주가에 대해 테스트했을 때는 성능이 좋지 못합니다.
고객 탈퇴 예측
고객 유지 모델에는 매우 상세한 인구 통계 데이터와 같은 특정 기능이 너무 많이 포함되어 있어 학습 데이터가 과적합해집니다. 더 넓은 고객층에 적용할 경우 다양한 인구 통계에 따른 패턴을 일반화하고 식별하는 데 어려움이 있습니다.
주택 가격 예측
선형 회귀 모델은 오직 면적만 기준으로 해 주택 가격을 예측합니다. 모델이 위치, 침실 수 또는 주택 나이와 같은 다른 중요한 특징을 고려하지 않기 때문에 학습 및 테스트 데이터에서 성능이 저하됩니다.
날씨 예보
모델은 평균 기온 및 습도와 같은 간단한 기능 세트를 사용하여 강우량을 예측합니다. 계절적 패턴이나 여러 대기 요인 간의 상호 작용과 같은 복잡한 관계를 포착하지 못하여 정확도가 지속적으로 떨어집니다.
이미지 인식
얕은 의사결정 트리 는 고양이와 개의 이미지를 분류하는 데 사용됩니다. 단순한 특성으로 인해, 이 모델은 두 가지 포유류를 구분하지 못하며, 훈련 이미지뿐 아니라 새로운 이미지에서도 성능이 좋지 않습니다.
머신 러닝 알고리즘은 데이터 패턴을 인식하는 모델을 학습시켜 엔지니어가 이를 활용하여 보이지 않는 입력을 바탕으로 미래를 예측할 수 있도록 합니다. 하이퍼매개변수 튜닝은 과적합과 과소적합의 균형을 맞추는 데 큰 역할을 하며, 생소한 데이터를 예측 모델이 효과적으로 일반화할 수 있도록 합니다.
엔지니어는 하이퍼매개변수를 사용하여 학습 속도, 정규화 강도, 신경망의 레이어 수 또는 Decision Trees의 최대 깊이를 미세 조정할 수 있습니다. 적절한 조정을 통해 모델이 너무 경직되거나 지나치게 적응력이 떨어지는 것을 방지할 수 있습니다.
정규화
회귀 모델을 위한 정규화 또는 신경망의 드롭아웃은 모델이 단일 특징에 지나치게 의존하거나 학습 데이터에 노이즈를 끼워 맞추지 못하도록 하는 머신 러닝에 사용되는 기술입니다.
일반적인 정규화 유형에는 일부 계수를 0으로 축소하여 희소성을 높이는 L1과 모든 계수의 크기를 줄여 모델을 더 단순하고 일반화할 수 있게 만드는 L2가 있습니다. 정규화는 모델이 데이터를 암기하는 대신 기본 패턴에 집중할 수 있도록 도와줍니다.
데이터 증강
데이터 증강은 또 다른 효과적인 전략으로, 특히 컴퓨팅 비전과 같은 작업에서는 이미지를 뒤집거나, 회전하거나, 잘라내어 훈련 데이터를 인위적으로 늘리면 모델의 일반화 성능에 도움이 됩니다. 신경망의 매개변수 또는 계층 수를 줄여 모델을 단순화하면 학습 데이터 세부 정보를 기억하는 능력도 제한됩니다.
K-폴드 교차 검증
엔지니어는 K-폴드 교차 검증과 같은 기법을 사용하여 모델 일반화를 평가할 수도 있습니다. K-폴드 교차 검증은 데이터를 하위 집합으로 나누고 일부에서는 학습하고 나머지 부분에서는 테스트합니다.
마찬가지로 엔지니어는 홀드아웃 세트, 즉 학습 세트의 정보를 보이지 않는 데이터로 예약하여 일반화 성능을 평가하는 또 다른 수단을 제공할 수 있습니다. 그런 다음 결과를 평균화하여 전체 성능 점수를 제공합니다.
평가 프레임워크
이러한 기법 외에도 머신러닝 모델이 잘 일반화되도록 하려면 강력한 모델 평가 프레임워크가 필수적입니다. 고급 평가 기법 중 하나는 중첩 교차 검증으로, 특히 하이퍼매개변수 조정에 유용합니다. 중첩 교차 검증에서는 외부 루프가 데이터를 학습 및 테스트 하위 집합으로 분할하여 모델의 일반화 능력을 평가합니다.
동시에 내부 루프는 학습 데이터에 대해 하이퍼매개변수 조정을 수행하여 조정 프로세스가 검증 세트에 과도하게 적합하지 않도록 합니다. 이 접근 방식은 하이퍼매개변수 최적화와 모델 평가를 분리하여 보이지 않는 데이터에 대한 모델의 성능을 보다 정확하게 추정할 수 있습니다.
또 다른 효과적인 프레임워크는 학습-테스트 분할과 조기 중단을 결합하여 학습 중 검증 손실을 모니터링합니다. 전용 검증 세트에서 모델의 성능을 평가함으로써 엔지니어는 검증 성능이 정체되거나 저하될 때 학습을 중단하여 과적합을 방지할 수 있습니다.
평가 프레임워크에는 불균형 데이터 세트의 분류 문제에 대한 계층화된 샘플링이 포함되어 있어야 각 데이터 분할이 원래 데이터 세트와 동일한 클래스 분포를 유지하도록 보장할 수 있습니다. 이렇게 하면 다수 클래스에 대한 과적합을 방지하는 동시에 소수 클래스의 성능을 공정하게 평가할 수 있습니다.
앙상블 방법
배깅, 부스팅 과 같은 앙상블 방법은 여러 모델을 결합하여 개별적인 약점을 완화하고 전반적인 일반화를 개선합니다. 예를 들어, 널리 사용되는 앙상블 기법인 랜덤 포레스트는 여러 의사결정 트리의 예측을 집계하여 편향과 분산의 균형을 효과적으로 조정하여 과적합을 줄입니다.
더 복잡한 모델
과소적합 문제를 해결하기 위해 엔지니어는 데이터의 기본 패턴을 더 잘 포착하기 위해 모델의 복잡성을 높이는 경우가 많습니다. 예를 들어, 관계 특징과 대상 변수가 비선형적인 경우 단순 선형 회귀에서 다항 회귀로 전환하는 것이 도움이 될 수 있습니다. 더 복잡한 모델은 과소적합 문제를 해결할 수 있지만, 제대로 정규화하지 않으면 과적합의 위험이 있습니다.
정규화
정규화 페널티를 줄이면 모델을 과도하게 제한하지 않으면서 데이터를 더 유연하게 맞출 수 있습니다. 예를 들어, L1 및 L2 매개변수는 모델의 복잡성을 확인하는 데 사용되는 정규화 유형입니다. L1(라쏘)는 모델이 가장 중요한 기능만 선택하도록 장려하는 페널티를 추가합니다. L2(능선)는 모델의 중요성을 여러 기능 전반에 걸쳐 더 균등하게 분배하는 데 도움이 됩니다.
기능 엔지니어링
기능 엔지니어링 및 선택은 상호 작용 용어, 다항식 기능 추가 또는 범주형 변수 인코딩과 같은 기능을 생성하거나 변환하여 모델에 보다 관련성 높은 정보를 제공하는 역할을 합니다.
학습 시간
에포크 수를 늘려 모델에 더 많은 학습 시간을 허용하면 모델이 데이터를 학습할 수 있는 충분한 기회를 확보하는 데 도움이 됩니다. 에포크는 학습 데이터 세트를 한 번 완전히 통과하는 것을 의미하며, 여러 개의 에포크를 사용하면 모델이 패턴을 더 효과적으로 학습할 수 있습니다.
모델이 데이터의 패턴을 더 효과적으로 학습할 수 있도록 하기 위해 여러 개의 에포크를 사용하는 경우가 많습니다. 또한 학습 데이터 세트의 크기를 늘리면 모델이 더 다양한 패턴을 식별하여 지나치게 단순화할 위험을 줄이고 일반화를 개선하는 데 도움이 됩니다.
데이터 품질
전체적으로 엔지니어는 정확성, 완전성, 일관성을 위해 훈련 데이터를 철저히 평가하고 신뢰할 수 있는 소스와 교차 검증하여 불일치하는 부분을 해결해야 합니다. 정규화(0과 1 사이의 스케일링 값) 또는 표준화(평균 0, 표준편차 1로 스케일링)와 같은 기술을 사용하면 모델이 서로 다른 스케일로 인해 특정 변수를 다른 변수보다 선호하지 않도록 보장하는 데 도움이 됩니다.
시간이 지남에 따라 입력 데이터 분포가 변화할 수 있는데, 이를 데이터 드리프트라고 하며, 이로 인해 모델이 새로운 데이터에 적합하지 않거나 과도하게 적합하게 될 수 있습니다. 이를 방지하기 위해서는 정기적인 모니터링과 업데이트된 데이터 세트로 주기적인 재학습이 필수적입니다. 이상값을 제거하면 왜곡된 결과를 방지하고 모델의 견고성을 개선하는 데도 도움이 될 수 있습니다.
AutoML과 같은 도구는 하이퍼매개변수 조정, 기능 선택 및 모델 평가 프레임워크 생성을 자동화하여 프로세스를 더욱 간소화하여 엔지니어가 더 높은 수준의 인사이트와 의사 결정에 집중할 수 있도록 지원합니다.
좋은 모델 적합도는 과소적합과 과적합 사이의 최적의 균형에 있습니다. 이는 노이즈나 무작위 변동에 지나치게 민감하지 않으면서 데이터의 기본 패턴을 정확하게 포착하는 모델을 의미합니다.
도메인 지식은 엔지니어가 당면한 문제의 특정에 맞게 모델을 조정하는 데 도움이 되기 때문에 과소적합 및 과적합을 해결하는 데 중요한 역할을 합니다. 실제 데이터 세트에는 종종 노이즈, 불균형 또는 불일치가 포함되어 있습니다.
적절한 데이터 분할 및 전처리와 같은 효율적인 물류는 적합 문제를 완화하는 데 도움이 됩니다. 엔지니어는 데이터의 컨텍스트를 이해하면 전처리, 기능 선택 및 설계에 대해 정보에 입각한 결정을 내릴 수 있어 잘 훈련된 모델을 만들 수 있습니다. 예:
과적합과 과소적합 사이의 균형을 맞추면 엔지니어는 머신 러닝 모델이 지나치게 복잡해지지 않으면서도 엄격한 단순성에서 의미 있는 일반화로 전환되는 최적의 범위를 파악할 수 있습니다. 균형이 잘 잡힌 모델은 다양한 인구 통계에서 고객 이탈을 예측하고, 데이터 품질의 변화에도 불구하고 의료 이미지를 효과적으로 분류하며, 무작위 변동에 과적합하지 않고 시장 추세를 파악하여 주가를 예측할 수 있습니다.
편향 또는 분산 트레이드오프를 효과적으로 관리하면 데이터의 패턴을 정확하게 학습하는 동시에 미지의 상황에 적응하는 데 필요한 유연성을 유지하는 모델을 만들 수 있습니다. 이러한 균형을 달성함으로써 데이터 과학자는 기술적으로 건전하고 실제 애플리케이션에 영향력 있는 솔루션을 만들 수 있습니다.