홈
topics
overfitting
머신 러닝에서 과적합은 알고리즘이 학습 데이터에 과하게 적합한 상태이거나 정확하게 일치할 때 발생하며 그 결과 모델이 학습 데이터가 아닌 다른 데이터에서 정확한 예측을 생성하거나 결론을 도출할 수 없게 됩니다.
과적합은 머신 러닝 모델의 취지에 어긋납니다. 모델을 새로운 데이터로 일반화하면 궁극적으로 머신 러닝 알고리즘을 사용하여 매일 데이터를 예측하고 분류할 수 있게 됩니다.
머신 러닝 알고리즘이 구성되면 샘플 데이터 세트를 활용하여 모델을 학습시킵니다. 그러나 모델이 샘플 데이터를 너무 오래 학습하거나 모델이 너무 복잡하면 데이터 세트 내에서 '노이즈' 또는 관련 없는 정보를 학습하기 시작할 수 있습니다. 모델이 노이즈를 기억하고 학습 세트에 과하게 적합한 상태이면 '과적합'이 됩니다. 즉, 새로운 데이터를 효과적으로 일반화할 수 없게 됩니다. 모델이 새로운 데이터를 효과적으로 일반화할 수 없다면 의도한 분류 또는 예측 작업을 수행할 수 없습니다.
낮은 오류율과 높은 분산은 과적합을 나타내는 좋은 지표입니다. 이러한 유형의 동작을 방지하기 위해 일반적으로 학습 데이터 세트의 일부를 '테스트 세트'로 따로 설정하여 과적합 여부를 확인합니다. 학습 데이터의 오류율이 낮고 테스트 데이터의 오류율이 높으면 과적합임을 시사합니다.
IDC MarketScape: Worldwide AI Governance Platforms 2023년 보고서를 읽고 IBM이 선도기업으로 선정된 이유를 알아보세요.
과도한 학습 또는 모델 복잡성으로 인해 과적합이 발생하는 경우 논리적 예방 대응은 학습 과정을 일찍 종료하거나('조기 종료'라고도 함) 관련성이 낮은 입력을 제거하여 모델의 복잡성을 줄이는 것입니다. 그러나 너무 일찍 종료하거나 중요한 특징을 너무 많이 제외하면 반대 문제가 발생할 수 있으며 대신 모델이 과소적합될 수 있습니다. 과소적합은 모델이 충분한 시간 동안 학습되지 않았거나 입력 변수가 입력 변수와 출력 변수 간의 의미 있는 관계를 결정할 만큼 충분히 중요하지 않을 때 발생합니다.
두 시나리오 모두 모델은 학습 데이터 세트 내에서 우세 추이를 설정할 수 없습니다. 결과적으로 과소적합은 보이지 않는 데이터도 효과적으로 일반화하지 못합니다. 그러나 과적합과 달리 과소적합 모델은 예측에서 편향이 높고 분산이 적습니다. 이는 과소적합 모형이 과적합 상태로 전환될 때 발생하는 편향-분산 상충관계를 보여줍니다. 모델이 학습함에 따라 편향은 감소하지만 과적합이 되면 분산이 증가할 수 있습니다. 모델을 피팅할 때 목표는 과소적합과 과적합 사이의 '최적점'을 찾아 우세 추이를 설정하고 이를 새로운 데이터 세트에 광범위하게 적용할 수 있도록 하는 것입니다.
머신 러닝 모델의 정확도를 이해하려면 모델 적합성을 테스트하는 것이 중요합니다. K-폴드 교차 검증은 모델의 정확도를 평가하는 데 가장 널리 사용되는 기술 중 하나입니다.
k-폴드 교차 검증에서 데이터는 '폴드'라고도 하는 k개의 동일한 크기의 하위 집합으로 분할됩니다. k-폴드 중 하나는 홀드아웃 세트 또는 검증 세트라고 하는 테스트 세트 역할을 하고 나머지 폴드는 모델을 학습시킵니다. 이 프로세스는 각 폴드가 홀드아웃 폴드 역할을 할 때까지 반복됩니다. 각 평가 후 점수가 유지되며 모든 반복이 완료되면 점수의 평균을 계산하여 전체 모델의 성능을 평가합니다.
선형 모델을 사용하면 과적합을 방지하는 데 도움이 되지만 실제 문제의 대부분은 비선형 문제입니다. 과적합을 감지하는 방법을 이해하는 것 외에도 과적합을 완전히 방지하는 방법을 이해하는 것도 중요합니다. 다음은 과적합을 방지하는 데 사용할 수 있는 여러 가지 기법입니다.
위의 내용은 과적합에 대한 확립된 정의이지만 최근 연구(IBM 외부 링크)에 따르면 딥 러닝 모델과 신경망과 같은 복잡한 모델은 '정확히 일치하거나 보간'하도록 훈련되었음에도 불구하고 높은 정확도로 작동합니다. 이 발견은 해당 주제에 관한 기존 문헌과 정면으로 상충되는 것으로 아래의 '이중 하강' 위험 곡선을 통해 설명될 수 있습니다. 모델이 보간 임곗값을 초과하여 학습하면 모델의 성능이 향상되는 것을 볼 수 있습니다. 앞서 언급한 조기 중지 및 정규화 등 과적합을 피하기 위한 방법을 사용하면 실제로 보간을 방지할 수 있습니다.