과적합이란 무엇인가요?
watsonx.ai로 과적합을 방지하세요. AI 업데이트 구독
검정 및 파랑 배경
과적합이란 무엇인가요?

머신 러닝에서 과적합은 알고리즘이 학습 데이터에 과하게 적합한 상태이거나 정확하게 일치할 때 발생하며 그 결과 모델이 학습 데이터가 아닌 다른 데이터에서 정확한 예측을 생성하거나 결론을 도출할 수 없게 됩니다. 

과적합은 머신 러닝 모델의 취지에 어긋납니다. 모델을 새로운 데이터로 일반화하면 궁극적으로 머신 러닝 알고리즘을 사용하여 매일 데이터를 예측하고 분류할 수 있게 됩니다.

머신 러닝 알고리즘이 구성되면 샘플 데이터 세트를 활용하여 모델을 학습시킵니다. 그러나 모델이 샘플 데이터를 너무 오래 학습하거나 모델이 너무 복잡하면 데이터 세트 내에서 '노이즈' 또는 관련 없는 정보를 학습하기 시작할 수 있습니다. 모델이 노이즈를 기억하고 학습 세트에 과하게 적합한 상태이면 '과적합'이 됩니다. 즉, 새로운 데이터를 효과적으로 일반화할 수 없게 됩니다. 모델이 새로운 데이터를 효과적으로 일반화할 수 없다면 의도한 분류 또는 예측 작업을 수행할 수 없습니다.

낮은 오류율과 높은 분산은 과적합을 나타내는 좋은 지표입니다. 이러한 유형의 동작을 방지하기 위해 일반적으로 학습 데이터 세트의 일부를 '테스트 세트'로 따로 설정하여 과적합 여부를 확인합니다. 학습 데이터의 오류율이 낮고 테스트 데이터의 오류율이 높으면 과적합임을 시사합니다.

IDC에서 선도기업으로 선정된 IBM

IDC MarketScape: Worldwide AI Governance Platforms 2023년 보고서를 읽고 IBM이 선도기업으로 선정된 이유를 알아보세요.

관련 내용

AI 거버넌스 백서 등록

과적합과 과소적합 비교

과도한 학습 또는 모델 복잡성으로 인해 과적합이 발생하는 경우 논리적 예방 대응은 학습 과정을 일찍 종료하거나('조기 종료'라고도 함) 관련성이 낮은 입력을 제거하여 모델의 복잡성을 줄이는 것입니다. 그러나 너무 일찍 종료하거나 중요한 특징을 너무 많이 제외하면 반대 문제가 발생할 수 있으며 대신 모델이 과소적합될 수 있습니다. 과소적합은 모델이 충분한 시간 동안 학습되지 않았거나 입력 변수가 입력 변수와 출력 변수 간의 의미 있는 관계를 결정할 만큼 충분히 중요하지 않을 때 발생합니다.

두 시나리오 모두 모델은 학습 데이터 세트 내에서 우세 추이를 설정할 수 없습니다. 결과적으로 과소적합은 보이지 않는 데이터도 효과적으로 일반화하지 못합니다. 그러나 과적합과 달리 과소적합 모델은 예측에서 편향이 높고 분산이 적습니다. 이는 과소적합 모형이 과적합 상태로 전환될 때 발생하는 편향-분산 상충관계를 보여줍니다. 모델이 학습함에 따라 편향은 감소하지만 과적합이 되면 분산이 증가할 수 있습니다. 모델을 피팅할 때 목표는 과소적합과 과적합 사이의 '최적점'을 찾아 우세 추이를 설정하고 이를 새로운 데이터 세트에 광범위하게 적용할 수 있도록 하는 것입니다.

과적합 모델을 감지하는 방법

머신 러닝 모델의 정확도를 이해하려면 모델 적합성을 테스트하는 것이 중요합니다. K-폴드 교차 검증은 모델의 정확도를 평가하는 데 가장 널리 사용되는 기술 중 하나입니다.

k-폴드 교차 검증에서 데이터는 '폴드'라고도 하는 k개의 동일한 크기의 하위 집합으로 분할됩니다. k-폴드 중 하나는 홀드아웃 세트 또는 검증 세트라고 하는 테스트 세트 역할을 하고 나머지 폴드는 모델을 학습시킵니다. 이 프로세스는 각 폴드가 홀드아웃 폴드 역할을 할 때까지 반복됩니다. 각 평가 후 점수가 유지되며 모든 반복이 완료되면 점수의 평균을 계산하여 전체 모델의 성능을 평가합니다.

과적합을 방지하는 방법

선형 모델을 사용하면 과적합을 방지하는 데 도움이 되지만 실제 문제의 대부분은 비선형 문제입니다. 과적합을 감지하는 방법을 이해하는 것 외에도 과적합을 완전히 방지하는 방법을 이해하는 것도 중요합니다. 다음은 과적합을 방지하는 데 사용할 수 있는 여러 가지 기법입니다.

  • 조기 종료: 앞서 언급했듯이 이 방법은 모델이 모델 내의 노이즈를 학습하기 전에 학습을 종료합니다. 이 접근 방식은 학습 프로세스를 너무 빨리 종료하여 과소적합이라는 반대 문제를 일으킬 위험이 있습니다. 과소적합과 과적합 사이의 '최적점'을 찾는 것이 궁극적인 목표입니다.
  • 더 많은 데이터로 학습: 더 많은 데이터를 포함하도록 학습 세트를 확장하면 입력 변수와 출력 변수 간의 우세한 관계를 구문 분석할 수 있는 더 많은 기회를 제공하여 모델의 정확도를 높일 수 있습니다. 즉, 이는 정제되고 관련성 높은 데이터가 모델에 주입될 때 더 효과적인 방법입니다. 그렇지 않은 경우 모델에 복잡성이 계속 추가되어 과적합이 발생할 수 있습니다.
  • 데이터 증대: 정제되고 관련성이 높은 데이터를 학습 데이터에 주입하는 것이 바람직하지만 때로는 모델 안정성을 향상하기 위해 노이즈가 있는 데이터가 추가됩니다. 하지만 이 방법은 신중하게 사용해야 합니다.
  • 특징 선택: 모델을 구축할 때 특정 결과를 예측하는 데 사용되는 여러 매개 변수 또는 특징이 있지만 이러한 특징은 다른 특징과 중복되는 경우가 많습니다. 특징 선택은 학습 데이터 내에서 가장 중요한 특징을 식별한 다음 관련성이 없거나 중복되는 특징을 제거하는 과정입니다. 일반적으로 차원 축소로 오인되지만 이는 다릅니다.  그러나 두 방법 모두 모델을 단순화하여 데이터의 우세 추이를 설정하는 데 도움이 됩니다.
  • 정규화: 모델이 너무 복잡할 때 과적합이 발생하면 특징 수를 줄이는 것이 합리적입니다. 하지만 특징 선택 과정에서 어떤 입력을 제거해야 할지 모른다면 어떻게 어떻게 될까요? 모델에서 어떤 특징을 제거해야 할지 모르는 경우 정규화 방법이 특히 유용할 수 있습니다. 정규화는 계수가 더 큰 입력 매개변수에 '페널티'를 적용하여 모델의 분산량을 제한합니다.  라쏘 정규화, 릿지 회귀, 드롭아웃 등 다양한 정규화 방법이 있지만 모두 데이터 내의 노이즈를 식별하고 줄이는 것을 목표로 합니다.
  • 앙상블 방법: 앙상블 학습법은 분류기 세트(예: 의사 결정 트리)로 구성되며 가장 인기 있는 결과를 식별하기 위해 예측이 집계됩니다. 가장 잘 알려진 앙상블 방법으로 배깅(Bagging)과 부스팅(Boosting)이 있습니다. 배깅에서는 학습 세트에 있는 데이터의 무작위 샘플이 대체를 통해 선택됩니다. 즉, 개별 데이터 포인트를 두 번 이상 선택할 수 있습니다. 여러 데이터 샘플이 생성된 후 이러한 모델은 독립적으로 학습되며 작업 유형(예: 회귀 또는 분류)에 따라 이러한 예측의 평균 또는 대부분을 통해 더 정확한 추정치를 산출합니다. 이는 일반적으로 노이즈가 있는 데이터 세트 내의 분산을 줄이는 데 사용됩니다.
IBM Developer 이미지 인식 튜토리얼에서 이러한 접근 방식 중 일부를 활용하는 방법을 알아보세요.
최근 연구

위의 내용은 과적합에 대한 확립된 정의이지만 최근 연구(IBM 외부 링크)에 따르면 딥 러닝 모델과 신경망과 같은 복잡한 모델은 '정확히 일치하거나 보간'하도록 훈련되었음에도 불구하고 높은 정확도로 작동합니다. 이 발견은 해당 주제에 관한 기존 문헌과 정면으로 상충되는 것으로 아래의 '이중 하강' 위험 곡선을 통해 설명될 수 있습니다. 모델이 보간 임곗값을 초과하여 학습하면 모델의 성능이 향상되는 것을 볼 수 있습니다. 앞서 언급한 조기 중지 및 정규화 등 과적합을 피하기 위한 방법을 사용하면 실제로 보간을 방지할 수 있습니다.

관련 솔루션
IBM Watson Studio

IBM Watson Studio는 데이터 과학자가 모든 클라우드에서 대규모로 AI 모델을 구축, 실행, 테스트 및 최적화할 수 있도록 지원하는 개방형 데이터 플랫폼입니다.

IBM Watson Studio 살펴보기
IBM Cloud Pak for Data

IBM Cloud Pak for Data는 모든 클라우드에서 AI 및 분석에 모든 데이터를 사용할 수 있도록 데이터 패브릭을 제공하는 확장 가능한 개방형 데이터 플랫폼입니다.

IBM Cloud Pak for Data 알아보기
리소스 경사 기반 메타 학습에서 양성 과적합에 대한 이해

경험적 증거에 따르면 과도하게 매개변수화된 메타 학습 방법이 여전히 잘 작동하는 것으로 나타났는데 이를 흔히 양성 과적합이라고 합니다.

과도한 과적합은 적절하게 학습된 평활화에 의해 완화될 수 있습니다.

적대적 훈련(AT) 중에 학습된 평활화를 더 많이 주입하는 두 가지 경험적 방법을 조사합니다.