정규화란 무엇인가요?

작성자

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

정규화란 무엇인가요?

정규화는 머신 러닝 모델에서 과적합을 줄이기 위한 방법입니다. 일반적으로 정규화는 일반화 가능성을 높이기 위해 학습 정확도의 약간의 감소를 감수합니다.

정규화에는 머신 러닝 모델의 과적합을 수정하기 위한 다양한 기법이 포함됩니다. 이처럼 정규화는 모델의 일반화 가능성, 즉 새로운 데이터 세트에 대한 정확한 예측을 생성하는 능력을 높이는 방법입니다.¹ 정규화를 사용하면 훈련 오류가 증가하는 대신, 일반화 가능성이 높아집니다. 즉, 정규화 방법은 일반적으로 훈련 데이터에 대한 예측의 정확도는 떨어지지만 테스트 데이터에 대한 예측은 더 정확합니다.

정규화는 최적화와 다릅니다. 정규화는 모델의 일반화 가능성을 개선하고 최적화는 모델의 학습 정확도를 높입니다. 그러나 두 가지 모두 머신 러닝과 데이터 과학에서 중요한 개념입니다.

정규화에는 여러 형태가 있습니다. 이에 대한 완벽 가이드를 제공하려면 책 한 권을 써도 부족합니다. 이 문서에서는 머신 러닝에서 정규화의 목적을 이해하는 데 필요한 이론에 대한 개요와 몇 가지 인기 있는 정규화 기법에 대한 개론을 제공합니다.

편향-분산 트레이드오프

테스트 오류를 줄이기 위해 학습 오류를 증가시키는 것을 편향-분산 트레이드 오프라고 합니다. 편향-분산 트레이드오프는 머신 러닝에서 잘 알려진 문제입니다. 먼저 '편향'과 '분산'을 정의해야 합니다. 간단히 설명하면 다음과 같습니다.

편향은 예측값과 실제값의 평균 차이를 측정합니다. 편향이 증가하면 훈련 데이터 세트에 대한 모델의 예측 정확도가 떨어집니다. 편향이 높다는 것은 훈련 오류가 높다는 것을 의미합니다.
분산은 주어진 모델의 다양한 실현에 대한 예측 간의 차이를 측정합니다. 분산이 증가하면 보이지 않는 데이터에 대한 모델의 예측 정확도가 떨어집니다. 분산이 높다는 것은 테스트 및 유효성 검사 중 오류가 많다는 의미입니다.

따라서 편향과 분산은 각각 학습 세트와 테스트 세트에 대한 모델 정확도와 반비례합니다.² 개발자는 모델 편향과 분산을 모두 줄이는 것을 목표로 합니다. 그러나 이 둘을 동시에 줄이는 것이 항상 가능한 것은 아니므로 정규화가 필요합니다. 정규화는 편향을 증가시키는 대신 모델 분산을 줄입니다.

회귀 모델 적합성

정규화는 편향을 높이고 분산을 줄임으로써 모델 과적합을 해결합니다. 과적합은 학습 데이터의 오류는 감소하는 반면 테스트 데이터의 오류는 감소를 멈추거나 증가하기 시작할 때 발생합니다.³ 즉, 과적합은 편향이 낮고 분산이 높은 모델을 설명합니다. 그러나 정규화로 인해 편향이 너무 심해지면 모델이 과소적합하게 됩니다.

과소적합은 이름과 달리 과적합의 반대를 의미하지 않습니다. 오히려 과소적합은 높은 편향과 높은 분산을 특징으로 하는 모델을 설명합니다. 과소적합된 모델은 훈련 및 테스트 중에 불만족스러울 정도로 잘못된 예측을 생성합니다. 이는 훈련 데이터 또는 매개변수가 충분하지 않아 발생하는 경우가 많습니다.

그러나 정규화는 잠재적으로 모델 과소적합으로 이어질 수 있습니다. 정규화를 통해 너무 많은 편향이 도입되면 모델 분산이 감소하지 않고 증가할 수도 있습니다. 정규화는 특히 단순한 모델, 즉 매개변수가 거의 없는 모델에 이러한 영향을 줄 수 있습니다. 따라서 구현하려는 정규화의 유형과 정도를 결정할 때는 모델의 복잡성, 데이터 세트 등을 고려해야 합니다.⁴

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

선형 모델을 사용한 정규화 유형

선형 회귀와 로지스틱 회귀는 모두 머신 러닝의 기반이 되는 예측 모델입니다. 선형 회귀(또는 일반 최소 제곱)는 제공된 데이터 포인트(예:교육 데이터)를 통해 가장 적합한 선을 찾아 주어진 아웃풋에 대한 하나 이상의 예측 변수의 영향을 측정하고 예측하는 것을 목표로 합니다. 로지스틱 회귀는 다양한 예측 변수가 주어진 이진 아웃풋을 통해 클래스 확률을 결정하는 것을 목표로 합니다. 즉, 선형 회귀는 연속적인 정량적 예측을 수행하는 반면 로지스틱 회귀는 불연속적인 범주형 예측을 생성합니다.⁵

물론 어느 회귀 모델에서든 예측 변수의 수가 증가하면 입력-출력 관계가 항상 간단하지는 않으며 회귀 공식을 조작해야 합니다. 정규화를 입력합니다. 회귀 모델의 정규화에는 세 가지 주요 형태가 있습니다. 이 목록은 간단한 개론이라는 점을 참고하시기 바랍니다. 이러한 정규화 기법을 선형 또는 로지스틱 회귀에 적용하는 방법은 매우 다양합니다.

라소 회귀(또는 L1 정규화)는 높은 값의 상관 계수에 페널티를 주는 정규화 기법입니다. 모델의 제곱 오분류 합계(SSE) 손실 함수에 정규화 항(페널티 항이라고도 함)을 도입합니다. 이 페널티 항은 계수 합계의 절대값입니다. 하이퍼파라미터 람다(λ)에 의해 차례로 제어되며, 일부 특징 가중치를 0으로 줄입니다. 따라서 라소 회귀는 모델에서 다중 상관 특징을 완전히 제거합니다.
릿지 회귀(또는 L2 정규화)는 SSE 손실 함수에 페널티 항을 도입하여 높은 값의 계수에 페널티를 부여하는 정규화 기법입니다. 하지만 라소 회귀와는 다릅니다. 첫째, 릿지 회귀의 페널티 항은 계수의 절댓값이 아니라 계수의 제곱합입니다. 두 번째로, 릿지 회귀는 특징 선택을 실행하지 않습니다. 라소 회귀의 페널티 항은 계수 값을 0으로 축소하여 모델에서 특징을 제거할 수 있지만, 릿지 회귀는 특징 가중치만 0에 가깝게 축소할 뿐 결코 0으로 만들지는 않습니다
엘라스틱 넷 정규화는 기본적으로 릿지와 라소 회귀를 모두 결합한 것이지만, SSE 손실 함수에 L1 및 L2 페널티 항을 모두 삽입합니다. L2와 L1은 각각 특징 가중치 합의 제곱 또는 절대값을 취하여 페널티 항 값을 도출합니다. 엘라스틱 넷은 이 두 가지 페널티 값을 비용 함수(SSE) 방정식에 삽입합니다. 엘라스틱 넷은 이러한 방식으로 다중 상관성을 해결하면서 특징 선택도 가능하게 합니다.⁶

이러한 방법은 예측 모델에서 예측 변수 값을 축소하기 때문에 통계학에서는 이를 '계수 축소'라고도 합니다. 세 가지 기법 모두에서 페널티 항의 강도는 다양한 교차 검증 기법을 사용하여 계산할 수 있는 람다에 의해 제어됩니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

머신 러닝에서의 정규화 유형

데이터 세트

데이터 증강은 모델 학습 데이터를 수정하는 정규화 기법입니다. 기존 학습 데이터에서 파생된 인공 데이터 샘플을 생성하여 학습 세트의 크기를 확장합니다. 학습 세트에 더 많은 샘플, 특히 실제 데이터에서는 보기 드문 사례를 추가하면 모델이 더 많고 다양한 데이터를 학습할 수 있습니다. 머신 러닝 연구는 최근 특히 불균형한 데이터 세트를 해결하기 위한 수단으로 분류기를 위한 데이터 증강을 탐구하고 있습니다.⁷ 데이터 증강은 합성 데이터와는 다릅니다. 후자는 새로운 인공 데이터를 생성하는 것이고, 전자는 데이터 세트를 다양화하고 확대하기 위해 기존 데이터의 수정된 복제본을 생성하는 것입니다.

모델 학습

조기 중지는 아마도 가장 쉽게 구현할 수 있는 정규화 기법일 것입니다. 이는 모델 학습 중 반복 횟수를 제한합니다. 여기서 모델은 학습 데이터를 지속적으로 통과하며 학습 및 검증 정확도가 개선되지 않거나, 악화되는 경우 중지됩니다. 검증 오류가 정체되거나 증가하기 전에 최대한 낮은 학습 오류에 도달할 때까지 모델을 학습시키는 것이 이 기법의 목표입니다.⁸

머신 러닝 Python 패키지 중 상당수가 조기 중지를 위한 학습 명령 옵션을 제공합니다. 조기 중단이 기본 교육 설정값인 경우도 있습니다.

Neural networks

신경망은 많은 인공 지능 애플리케이션과 서비스를 구동하는 복잡한 머신 러닝 모델입니다. 신경망은 입력 계층, 하나 이상의 숨겨진 계층,아웃풋 계층으로 구성되며, 각 계층은 여러 노드로 구성됩니다.

드롭아웃은 학습 중에 네트워크에서 입력 및 출력 연결과 함께 노드를 무작위로 삭제하여 신경망을 정규화합니다(그림 3). 드롭아웃은 고정된 크기의 아키텍처를 여러 가지 변형으로 학습하며, 각 변형은 아키텍처에서 제외되는 무작위 노드가 다릅니다. 테스트에는 드롭아웃이 없는 단일 신경망이 사용되며, 무작위로 수정된 훈련 아키텍처에서 파생된 대략적인 평균화 방법을 사용합니다. 드롭아웃은 다양한 아키텍처를 갖춘 많은 수의 신경망을 훈련하는 것과 비슷합니다.⁹

가중치 감소는 심층 신경망에 사용되는 또 다른 형태의 정규화입니다. 가중치 감소는 선형 모델의 L2 정규화와 마찬가지로 정규화 매개변수를 통해 네트워크 가중치의 제곱 합을 줄입니다.¹⁰ 그러나 신경망에 적용하면 L1 정규화와 유사한 효과를 가지므로 일부 뉴런 가중치가 0으로 감소합니다.¹¹ 이렇게 하면 네트워크에서 노드를 효과적으로 제거하여 희소성을 통해 네트워크 복잡성을 줄일 수 있습니다.²

가중치 감소는 심층 신경망의 드롭아웃과 표면적으로 유사하게 보일 수 있지만 두 기법은 서로 다릅니다. 한 가지 주요 차이점은 드롭아웃의 경우 페널티 값이 네트워크 깊이에 따라 기하급수적으로 증가하는 반면, 가중치 감소의 페널티 값은 선형적으로 증가한다는 것입니다. 일부에서는 드롭아웃이 가중치 감소보다 네트워크 복잡성에 더 큰 페널티를 줄 수 있다고 생각합니다.¹³

많은 온라인 기사와 튜토리얼에서 L2 정규화와 가중치 감소를 혼동하고 있습니다. 실제로 학계에서는 L2와 가중치 감소를 구별하는 학자도 있고,¹⁴ 이 둘을 동일시하는 학자도 있으며¹⁵ 둘 사이의 관계를 설명하는 데 일관성이 없는 경우도 있습니다.¹⁶ 이러한 용어 불일치를 해결하는 것은 향후 연구를 위해 필요하지만 간과되는 영역입니다.

생성형 AI + ML의 힘 활용하기

생성형 AI와 머신 러닝을 비즈니스에 자신 있게 통합하는 방법 알아보기

각주

[1] Deep Learning, Goodfellow 외, The MIT Press, 2016년

[2] An Introduction to Statistical Learning, G. James 외, Springer, 2013년

[3] Deep Learning, Goodfellow 외

[4] Vandenbussche, Vincent, Regularization cookbook, Packt Publishing, 2023년

[5] An Introduction to Statistical Learning, G. James 외

[6] Applied Predictive Modeling, Kuhn, Max and Johnson, Kjell, Springer, 2016년 및 Regression: Models, Methods and Applications, Fahrmeir, Ludwig 외, 2판, Springer, 2021년

[7] "Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation", Ghiasi 외, CVPR, 2021년

[8] Neural Networks: Tricks of the Trade, Montavon, 외 2판. 2012년

[9] "Dropout: A Simple Way to Prevent Neural Networks from Overfitting", JMLR, Srivastava 외, 2014년

[10] Applied Predictive Modeling, Kuhn, Max and Johnson, Kjell, Springer, 2016년.

[11] "Deep Learning Meets Sparse Regularization: A Signal Processing Perspective", arXiv, 2023년 1월

[12] "Comparing Biases for Minimal Network Construction with Back-propagation", Proceedings, Hanson and Pratt, 1988년

[13] "Surprising properties of dropout in deep networks", Helmbold, David and Long, Philip, JMLR, 2018년

[14] "Three Mechanisms of Weight Decay Regularization", Zhang, Guodong, Wang, Chaoqi, Xu, Bowen, Roger, Grosse, arXiv, 2018년

[15] "Fundamental differences between Dropout and Weight Decay in Deep Networks", Helmbold, David and Long, Philip, ResearchGate, 2016년

[16] Deep Learning, Goodfellow 외

리소스

ML 전문성 업그레이드

실습, 강좌, 가이드 프로젝트, 평가판 등을 통해 기본 개념을 배우고 기술을 쌓으세요.

생성형 AI + ML의 힘 활용하기

생성형 AI와 머신 러닝을 비즈니스에 자신 있게 통합하는 방법 알아보기

업무에 AI 활용: 생성형 AI로 ROI 향상

AI 투자에 대해 더 나은 수익을 얻고 싶으신가요? 주요 영역에서 차세대 AI를 확장하여 최고의 인재들이 혁신적인 새 솔루션을 구축하고 제공하도록 지원함으로써 변화를 주도하는 방법을 알아보세요.

적절한 파운데이션 모델을 선택하는 방법

사용 사례에 가장 적합한 AI 파운데이션 모델을 선택하는 방법을 알아보세요.

IBM Granite 살펴보기

IBM Granite는 비즈니스에 맞게 맞춤화되고 AI 애플리케이션 확장에 최적화되었으며 개방적이고 성능이 뛰어나며 신뢰할 수 있는 AI 모델 제품군입니다. 언어, 코드, 시계열 및 가드레일 옵션을 살펴보세요.

신뢰와 확신을 바탕으로 새로운 AI 시대에 성공하는 방법

강력한 AI 전략의 3가지 핵심 요소인 경쟁 우위 확보, 비즈니스 전반의 AI 확장, 신뢰할 수 있는 AI 발전에 대해 자세히 알아보세요.

AI 활용 현황 보고서

IBM은 2,000개 조직을 대상으로 AI 이니셔티브에 대한 설문조사를 실시하여 효과적인 전략과 효과적이지 못한 전략, 그리고 앞서나갈 수 있는 방법을 알아보았습니다.

정규화란 무엇인가요?

작성자

정규화란 무엇인가요?

편향-분산 트레이드오프

회귀 모델 적합성

전문가가 전하는 최신 AI 트렌드

감사합니다! 구독이 완료되었습니다.

선형 모델을 사용한 정규화 유형

AI 디코딩: 주간 뉴스 요약

머신 러닝에서의 정규화 유형

데이터 세트

모델 학습

Neural networks

각주

리소스