정규화란 무엇인가요?

작성자

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

정규화란 무엇인가요?

정규화는 머신 러닝 모델에서 과적합을 줄이기 위한 방법입니다. 일반적으로 정규화는 일반화 가능성을 높이기 위해 학습 정확도의 약간의 감소를 감수합니다.

정규화에는 머신 러닝 모델의 과적합을 수정하기 위한 다양한 기법이 포함됩니다. 이처럼 정규화는 모델의 일반화 가능성, 즉 새로운 데이터 세트에 대한 정확한 예측을 생성하는 능력을 높이는 방법입니다.1 정규화를 사용하면 훈련 오류가 증가하는 대신, 일반화 가능성이 높아집니다. 즉, 정규화 방법은 일반적으로 훈련 데이터에 대한 예측의 정확도는 떨어지지만 테스트 데이터에 대한 예측은 더 정확합니다.

정규화는 최적화와 다릅니다. 정규화는 모델의 일반화 가능성을 개선하고 최적화는 모델의 학습 정확도를 높입니다. 그러나 두 가지 모두 머신 러닝과 데이터 과학에서 중요한 개념입니다.

정규화에는 여러 형태가 있습니다. 이에 대한 완벽 가이드를 제공하려면 책 한 권을 써도 부족합니다. 이 문서에서는 머신 러닝에서 정규화의 목적을 이해하는 데 필요한 이론에 대한 개요와 몇 가지 인기 있는 정규화 기법에 대한 개론을 제공합니다.

편향-분산 트레이드오프

테스트 오류를 줄이기 위해 학습 오류를 증가시키는 것을 편향-분산 트레이드 오프라고 합니다. 편향-분산 트레이드오프는 머신 러닝에서 잘 알려진 문제입니다. 먼저 '편향'과 '분산'을 정의해야 합니다. 간단히 설명하면 다음과 같습니다.

  • 편향은 예측값과 실제값의 평균 차이를 측정합니다. 편향이 증가하면 훈련 데이터 세트에 대한 모델의 예측 정확도가 떨어집니다. 편향이 높다는 것은 훈련 오류가 높다는 것을 의미합니다.

  • 분산은 주어진 모델의 다양한 실현에 대한 예측 간의 차이를 측정합니다. 분산이 증가하면 보이지 않는 데이터에 대한 모델의 예측 정확도가 떨어집니다. 분산이 높다는 것은 테스트 및 유효성 검사 중 오류가 많다는 의미입니다.

따라서 편향과 분산은 각각 학습 세트와 테스트 세트에 대한 모델 정확도와 반비례합니다.2 개발자는 모델 편향과 분산을 모두 줄이는 것을 목표로 합니다. 그러나 이 둘을 동시에 줄이는 것이 항상 가능한 것은 아니므로 정규화가 필요합니다. 정규화는 편향을 증가시키는 대신 모델 분산을 줄입니다.

회귀 모델 적합성

정규화는 편향을 높이고 분산을 줄임으로써 모델 과적합을 해결합니다. 과적합은 학습 데이터의 오류는 감소하는 반면 테스트 데이터의 오류는 감소를 멈추거나 증가하기 시작할 때 발생합니다.3 즉, 과적합은 편향이 낮고 분산이 높은 모델을 설명합니다. 그러나 정규화로 인해 편향이 너무 심해지면 모델이 과소적합하게 됩니다.

과소적합은 이름과 달리 과적합의 반대를 의미하지 않습니다. 오히려 과소적합은 높은 편향과 높은 분산을 특징으로 하는 모델을 설명합니다. 과소적합된 모델은 훈련 및 테스트 중에 불만족스러울 정도로 잘못된 예측을 생성합니다. 이는 훈련 데이터 또는 매개변수가 충분하지 않아 발생하는 경우가 많습니다.

그러나 정규화는 잠재적으로 모델 과소적합으로 이어질 수 있습니다. 정규화를 통해 너무 많은 편향이 도입되면 모델 분산이 감소하지 않고 증가할 수도 있습니다. 정규화는 특히 단순한 모델, 즉 매개변수가 거의 없는 모델에 이러한 영향을 줄 수 있습니다. 따라서 구현하려는 정규화의 유형과 정도를 결정할 때는 모델의 복잡성, 데이터 세트 등을 고려해야 합니다.4

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

감사합니다! 구독이 완료되었습니다.

구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.

선형 모델을 사용한 정규화 유형

선형 회귀 로지스틱 회귀는 모두 머신 러닝의 기반이 되는 예측 모델입니다. 선형 회귀(또는 일반 최소 제곱)는 제공된 데이터 포인트(예:교육 데이터)를 통해 가장 적합한 선을 찾아 주어진 아웃풋에 대한 하나 이상의 예측 변수의 영향을 측정하고 예측하는 것을 목표로 합니다. 로지스틱 회귀는 다양한 예측 변수가 주어진 이진 아웃풋을 통해 클래스 확률을 결정하는 것을 목표로 합니다. 즉, 선형 회귀는 연속적인 정량적 예측을 수행하는 반면 로지스틱 회귀는 불연속적인 범주형 예측을 생성합니다.5

물론 어느 회귀 모델에서든 예측 변수의 수가 증가하면 입력-출력 관계가 항상 간단하지는 않으며 회귀 공식을 조작해야 합니다. 정규화를 입력합니다. 회귀 모델의 정규화에는 세 가지 주요 형태가 있습니다. 이 목록은 간단한 개론이라는 점을 참고하시기 바랍니다. 이러한 정규화 기법을 선형 또는 로지스틱 회귀에 적용하는 방법은 매우 다양합니다.

  • 라소 회귀(또는 L1 정규화)는 높은 값의 상관 계수에 페널티를 주는 정규화 기법입니다. 모델의 제곱 오분류 합계(SSE) 손실 함수에 정규화 항(페널티 항이라고도 함)을 도입합니다. 이 페널티 항은 계수 합계의 절대값입니다. 하이퍼파라미터 람다(λ)에 의해 차례로 제어되며, 일부 특징 가중치를 0으로 줄입니다. 따라서 라소 회귀는 모델에서 다중 상관 특징을 완전히 제거합니다.

  • 릿지 회귀(또는 L2 정규화)는 SSE 손실 함수에 페널티 항을 도입하여 높은 값의 계수에 페널티를 부여하는 정규화 기법입니다. 하지만 라소 회귀와는 다릅니다. 첫째, 릿지 회귀의 페널티 항은 계수의 절댓값이 아니라 계수의 제곱합입니다. 두 번째로, 릿지 회귀는 특징 선택을 실행하지 않습니다. 라소 회귀의 페널티 항은 계수 값을 0으로 축소하여 모델에서 특징을 제거할 수 있지만, 릿지 회귀는 특징 가중치만 0에 가깝게 축소할 뿐 결코 0으로 만들지는 않습니다

  • 엘라스틱 넷 정규화는 기본적으로 릿지와 라소 회귀를 모두 결합한 것이지만, SSE 손실 함수에 L1 및 L2 페널티 항을 모두 삽입합니다. L2와 L1은 각각 특징 가중치 합의 제곱 또는 절대값을 취하여 페널티 항 값을 도출합니다. 엘라스틱 넷은 이 두 가지 페널티 값을 비용 함수(SSE) 방정식에 삽입합니다. 엘라스틱 넷은 이러한 방식으로 다중 상관성을 해결하면서 특징 선택도 가능하게 합니다.6

이러한 방법은 예측 모델에서 예측 변수 값을 축소하기 때문에 통계학에서는 이를 '계수 축소'라고도 합니다. 세 가지 기법 모두에서 페널티 항의 강도는 다양한 교차 검증 기법을 사용하여 계산할 수 있는 람다에 의해 제어됩니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

머신 러닝에서의 정규화 유형

데이터 세트

데이터 증강은 모델 학습 데이터를 수정하는 정규화 기법입니다. 기존 학습 데이터에서 파생된 인공 데이터 샘플을 생성하여 학습 세트의 크기를 확장합니다. 학습 세트에 더 많은 샘플, 특히 실제 데이터에서는 보기 드문 사례를 추가하면 모델이 더 많고 다양한 데이터를 학습할 수 있습니다. 머신 러닝 연구는 최근 특히 불균형한 데이터 세트를 해결하기 위한 수단으로 분류기를 위한 데이터 증강을 탐구하고 있습니다.7 데이터 증강은 합성 데이터와는 다릅니다. 후자는 새로운 인공 데이터를 생성하는 것이고, 전자는 데이터 세트를 다양화하고 확대하기 위해 기존 데이터의 수정된 복제본을 생성하는 것입니다.

이미지 세트 다양화를 위한 수정 기법 시각화

모델 학습

조기 중지는 아마도 가장 쉽게 구현할 수 있는 정규화 기법일 것입니다. 이는 모델 학습 중 반복 횟수를 제한합니다. 여기서 모델은 학습 데이터를 지속적으로 통과하며 학습 및 검증 정확도가 개선되지 않거나, 악화되는 경우 중지됩니다. 검증 오류가 정체되거나 증가하기 전에 최대한 낮은 학습 오류에 도달할 때까지 모델을 학습시키는 것이 이 기법의 목표입니다.8

머신 러닝 Python 패키지 중 상당수가 조기 중지를 위한 학습 명령 옵션을 제공합니다. 조기 중단이 기본 교육 설정값인 경우도 있습니다.

훈련 및 검증 정확도와 관련된 조기 중지의 그래프 시각화

Neural networks

신경망은 많은 인공 지능 애플리케이션과 서비스를 구동하는 복잡한 머신 러닝 모델입니다. 신경망은 입력 계층, 하나 이상의 숨겨진 계층,아웃풋 계층으로 구성되며, 각 계층은 여러 노드로 구성됩니다.

드롭아웃은 학습 중에 네트워크에서 입력 및 출력 연결과 함께 노드를 무작위로 삭제하여 신경망을 정규화합니다(그림 3). 드롭아웃은 고정된 크기의 아키텍처를 여러 가지 변형으로 학습하며, 각 변형은 아키텍처에서 제외되는 무작위 노드가 다릅니다. 테스트에는 드롭아웃이 없는 단일 신경망이 사용되며, 무작위로 수정된 훈련 아키텍처에서 파생된 대략적인 평균화 방법을 사용합니다. 드롭아웃은 다양한 아키텍처를 갖춘 많은 수의 신경망을 훈련하는 것과 비슷합니다.9

신경망과 드롭아웃 네트워크의 다이어그램 비교

가중치 감소는 심층 신경망에 사용되는 또 다른 형태의 정규화입니다. 가중치 감소는 선형 모델의 L2 정규화와 마찬가지로 정규화 매개변수를 통해 네트워크 가중치의 제곱 합을 줄입니다.10 그러나 신경망에 적용하면 L1 정규화와 유사한 효과를 가지므로 일부 뉴런 가중치가 0으로 감소합니다.11 이렇게 하면 네트워크에서 노드를 효과적으로 제거하여 희소성을 통해 네트워크 복잡성을 줄일 수 있습니다.2

가중치 감소는 심층 신경망의 드롭아웃과 표면적으로 유사하게 보일 수 있지만 두 기법은 서로 다릅니다. 한 가지 주요 차이점은 드롭아웃의 경우 페널티 값이 네트워크 깊이에 따라 기하급수적으로 증가하는 반면, 가중치 감소의 페널티 값은 선형적으로 증가한다는 것입니다. 일부에서는 드롭아웃이 가중치 감소보다 네트워크 복잡성에 더 큰 페널티를 줄 수 있다고 생각합니다.13

많은 온라인 기사와 튜토리얼에서 L2 정규화와 가중치 감소를 혼동하고 있습니다. 실제로 학계에서는 L2와 가중치 감소를 구별하는 학자도 있고,14 이 둘을 동일시하는 학자도 있으며15 둘 사이의 관계를 설명하는 데 일관성이 없는 경우도 있습니다.16 이러한 용어 불일치를 해결하는 것은 향후 연구를 위해 필요하지만 간과되는 영역입니다.

각주

[1] Deep Learning, Goodfellow 외, The MIT Press, 2016년

[2] An Introduction to Statistical Learning, G. James 외, Springer, 2013년

[3] Deep Learning, Goodfellow 외 

[4] Vandenbussche, Vincent, Regularization cookbook, Packt Publishing, 2023년 

[5] An Introduction to Statistical Learning, G. James 외

[6] Applied Predictive Modeling, Kuhn, Max and Johnson, Kjell, Springer, 2016년 및 Regression: Models, Methods and Applications, Fahrmeir, Ludwig 외, 2판, Springer, 2021년

[7] "Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation", Ghiasi 외, CVPR, 2021년

[8] Neural Networks: Tricks of the Trade, Montavon, 외 2판. 2012년

[9] "Dropout: A Simple Way to Prevent Neural Networks from Overfitting", JMLR, Srivastava 외, 2014년

[10] Applied Predictive Modeling, Kuhn, Max and Johnson, Kjell, Springer, 2016년.

[11] "Deep Learning Meets Sparse Regularization: A Signal Processing Perspective", arXiv, 2023년 1월

[12] "Comparing Biases for Minimal Network Construction with Back-propagation", Proceedings, Hanson and Pratt, 1988년 

[13] "Surprising properties of dropout in deep networks", Helmbold, David and Long, Philip, JMLR, 2018년

[14] "Three Mechanisms of Weight Decay Regularization", Zhang, Guodong, Wang, Chaoqi, Xu, Bowen, Roger, Grosse, arXiv, 2018년

[15] "Fundamental differences between Dropout and Weight Decay in Deep Networks", Helmbold, David and Long, Philip, ResearchGate, 2016년

[16] Deep Learning, Goodfellow 외

 
관련 솔루션
IBM watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.

watsonx.ai 살펴보기 라이브 데모 예약하기