라쏘 회귀란 무엇인가요?

라쏘 회귀는 과적합을 방지하고 통계 모델의 정확도를 높이기 위해 페널티를 적용하는 정규화 기법입니다.

L1 정규화라고도 하는 라쏘 회귀는 선형 회귀 모델에 대한 정규화의 한 형태입니다. 정규화는 학습 데이터의 과적합으로 인한 오류를 줄이기 위한 통계적 방법입니다. 이 접근 방식은 다음 공식으로 표현할 수 있습니다.

w-hat = argmin_w MSE(W ) + ||w||₁

라쏘 기법의 개념은 계수에 L1 페널티를 사용한 1986년 산토사(Santosa)와 사임스(Symes)¹의 지구 물리학 연구 논문(ibm.com 외부 링크)에서 찾을 수 있습니다. 그러나 1996년 통계학자인 로버트 팁시라니(Robert Tibshirani)가 브레이만의 Nonnegative Garrote 연구³(ibm.com 외부 링크)를 기반으로 '라쏘 라는 용어를 독립적으로 개발하고 대중화했습니다²(ibm.com 외부 링크).

라쏘는 최소 절대 축소 및 선택 연산자의 약자입니다. 머신 러닝에서 고차원 데이터를 처리하는 데 자주 사용되는데, 이는 애플리케이션을 통해 자동 특징 선택을 용이하게 하기 때문입니다. 이를 위해 잔차 제곱합(RSS)에 페널티 항을 추가한 다음 정규화 매개변수(lambda 또는 λ)를 곱합니다. 이 정규화 매개변수는 적용되는 정규화의 양을 제어합니다. 람다 값이 클수록 페널티가 증가하여 더 많은 계수가 0을 향해 축소되고, 결과적으로 모델에서 일부 특징의 중요도가 감소(또는 완전히 제거)되어 자동으로 특징이 선택됩니다. 반대로, 람다 값이 작을수록 페널티의 영향이 줄어들어 모델 내에서 더 많은 특징을 유지할 수 있습니다.

이 페널티는 모델 내의 희소성을 촉진하여 데이터 세트 내에서 다중 상관성 및 과적합 문제를 방지하는 데 도움이 될 수 있습니다. 다중 상관성은 두 개 이상의 독립 변수가 서로 높은 상관관계를 가질 때 발생하며, 이는 인과 관계 모델링에서 문제가 될 수 있습니다. 과적합 모델은 새로운 데이터에 대한 일반화가 제대로 이루어지지 않아 그 가치가 완전히 떨어집니다. 라쏘 회귀는 회귀 계수를 0으로 줄임으로써 모델에서 독립 변수를 효과적으로 제거하여 모델링 프로세스 내에서 이러한 잠재적인 문제를 방지할 수 있습니다. 모델 희소성은 또한 릿지 회귀(L2 정규화라고도 함)와 같은 다른 정규화 기법과 비교해 모델의 해석 가능성을 향상할 수 있습니다.

참고로 이 문서에서는 선형 회귀 모델의 정규화에 초점을 맞추고 있지만, 로지스틱 회귀에도 라쏘 회귀를 적용할 수 있다는 점을 참고하시기 바랍니다.

편향-분산 트레이드오프

편향-분산 트레이드오프는 예측 모델의 잘 알려진 특징입니다. 편향은 예측값과 실제값 사이의 평균 차이를 측정하는 것이고, 분산은 주어진 모델의 다양한 실현에 대한 예측 간의 차이를 측정하는 것입니다. 편향이 증가하면 학습 데이터 세트에 대한 모델의 예측 정확도가 떨어집니다. 분산이 증가하면 다른 데이터 세트에 대한 모델의 예측 정확도가 떨어집니다. 따라서 편향과 분산은 각각 학습 세트와 테스트 세트에 대한 모델 정확도를 측정합니다. 편향과 분산을 함께 줄이는 것이 항상 가능한 것은 아니므로 라쏘 회귀와 같은 정규화 기법이 필요합니다.

라쏘 회귀 분석에서 L1 페널티라고도 하는 하이퍼파라미터 람다(λ)는 결과 계수에서 편향과 분산 간의 균형을 맞춥니다. λ가 증가하면 편향이 증가하고 분산이 감소하여 매개 변수가 적은 더 간단한 모델이 생성됩니다. 반대로, λ가 감소하면 분산이 증가하여 더 많은 매개변수를 가진 더 복잡한 모델이 됩니다. λ가 0이면 OLS 함수, 즉 정규화가 없는 표준 선형 회귀 모델이 남습니다.

라쏘 회귀는 어떻게 작동하나요?

이 섹션에서는 라쏘 회귀를 적용하는 방법을 간단히 설명하고, 데이터 과학 분야에서의 일반적 사용 사례를 소개합니다.

탐색적 데이터 분석 수행하기

데이터 세트에 선형 회귀 알고리즘을 적용하기 전에 데이터를 탐색하여 세트 내에 존재할 수도 있는 잠재적인 근본 문제를 파악하세요. 다음과 같은 경우를 이해해야 합니다.

누락된 데이터 존재 여부
특징이 많은지 여부
표준 편차가 동일한 평균을 중심으로 하는 연속형 변수의 분포
예측 변수가 서로 상관관계가 있는지

차원이 높고 상관관계를 가진 변수가 있는 데이터 세트에서는 과적합이 발생하기 쉬우므로 이를 이해하는 것이 중요합니다. 표준 편차가 1이고 평균을 중심으로 하지 않는 데이터도 대규모 척도가 모델에 미치는 영향을 제한하기 위해 척도를 재조정해야 합니다. 특징을 재조정하지 않으면 비용 함수에 악영향을 미쳐 베타 계수에 영향을 줄 수 있습니다. 쉽게 말해, 특징의 크기가 조정되지 않으면 단위의 차이로 인해 라쏘 회귀에서 의도하지 않은 페널티가 적용될 수 있습니다.

데이터 분할 및 연속형 예측 변수 재조정

탐색적 데이터 분석을 수행한 후에는 데이터를 학습 세트와 테스트 세트로 분할합니다. 데이터를 분할한 후 필요에 따라 데이터에 재조정을 적용합니다. Z-점수 크기 조정은 표준 편차 1과 평균 0을 공유하도록 기능을 다시 조정하는 일반적인 기능 크기 조정 접근 방식입니다.

라쏘 모델 피팅 및 λ값 선택

학습 데이터에 라쏘 회귀 모델을 피팅하고 평균 제곱 오차(MSE)를 최소화하기 위한 λ값을 선택합니다. 평균 제곱 오차(MSE)는 적절한 λ값을 결정하는 데 도움이 될 수 있습니다. MSE는 종속 변수의 예측값과 실제값 간의 차이를 평균적으로 측정하는 수단입니다. 라쏘 회귀는 편향과 분산이라는 상반된 요소의 균형을 맞추면서 평균 제곱 오차(MSE)를 최소화하여 가장 정확한 예측 모델을 구축합니다. 계수의 절대값에 매개변수 λ를 곱한 값과 동일한 잔차 제곱합(RSS)에 페널티 항을 추가하여 이를 달성합니다.

교차 검증을 통한 λ 최적화

λ의 최적값은 k-겹 교차 검증과 같은 교차 검증 기법을 사용하여 결정할 수 있습니다. 이 접근 방식은 평균 제곱 오차나 기타 성능 지표를 최소화하는 λ 값을 찾습니다.

앞서 언급했듯이 λ값이 높을수록 정규화가 더 많이 이루어집니다. λ가 증가하면 모델 편향은 증가하지만 분산은 감소합니다. λ가 커질수록 더 많은 계수 𝛽가 0으로 줄어들기 때문입니다.

모델의 성능 평가

일반적으로 모델 성능을 파악하기 위해 몇 가지 값, 특히 R²와 MSE를 출력할 수 있습니다. R²는 독립 변수로 설명되는 종속 변수(또는 반응 변수)의 분산 비율을 알려줍니다. 서로 다른 λ값에 대한 MSE 값을 비교하면 모델이 글로벌 최소값에 맞게 효과적으로 최적화되었는지 확인할 수 있습니다.

라쏘 회귀를 사용하는 경우

라쏘 회귀는 예측 문제에 적합합니다. 자동 변수 선택을 수행하는 기능을 통해 모델을 단순화하고 예측 정확도를 높일 수 있습니다. 그렇지만 라쏘 회귀가 계수를 0으로 줄여 도입하는 편향의 양으로 인해 릿지 회귀가 라쏘 회귀보다 성능이 우수할 수 있습니다. 또한 라쏘 회귀는 모델에 포함할 특징을 임의로 선택하기 때문에 데이터의 상관관계에 한계가 있습니다.

일반 적용 분야

라쏘 회귀는 다음과 같은 시나리오에서 적합할 수 있습니다.

고차원 데이터 세트 처리

예측 변수의 수가 관찰 변수 수보다 훨씬 많을 때 해당 데이터 세트는 고차원으로 간주됩니다. 라쏘 회귀는 가중치 매개 변수를 0으로 축소하여 모델에서 중요하지 않은 특징을 제거하여 데이터 세트 내의 차원을 줄이는 데 도움이 될 수 있습니다.

차원 축소에 대해 자세히 알아보기

특징 선택 자동화

L1 페널티로 인한 편향은 계수를 인위적으로 0을 향해 축소합니다. 일부 변수는 정확히 0으로 축소되어 예측을 수행하는 데 가장 중요한 변수의 하위 집합만 모델에 남습니다.

라쏘 회귀의 한계

라쏘 회귀는 모델의 해석 가능성에 부정적인 영향을 미치지 않고 일부 다중 상관성을 해결할 수 있지만, 심각한 다중 상관성을 극복할 수는 없습니다.⁴ 공분산 사이의 상관관계가 높으면 라쏘 회귀는 모델에서 특징 중 하나를 임의로 제외합니다. 이러한 상황에서는 엘라스틱 넷 정규화가 좋은 대안이 될 수 있습니다.

업계 뉴스레터

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

Python 또는 R에서 라쏘 회귀 구현하기

Python과 R은 모두 데이터 과학에서 널리 사용됩니다. Python은 유연하고 다양한 작업을 처리할 수 있습니다. 반면에 R은 통계 컴퓨팅 및 데이터 시각화를 위해 특별히 설계되었으며, 플롯과 차트를 위한 풍부한 그래픽 옵션을 제공합니다.

라쏘 회귀는 이러한 목적으로 라쏘 클래스를 제공하는 sklearn(ibm.com 외부 링크)과 같은 라이브러리를 사용하여 Python에서 구현할 수 있습니다. R은 glmnet 패키지를 λ 선택에 대한 효율적인 교차 검증에 활용할 수 있고, α를 다른 값으로 설정할 수 있는 유연성을 제공하므로 훌륭한 선택입니다. R은 또한 라쏘 회귀 모델을 이해하고 해석하는 데 중요한 역할을 하는 시각화 기능도 제공합니다.

생성형 AI + ML의 힘 활용하기

생성형 AI와 머신 러닝을 비즈니스에 자신 있게 통합하는 방법 알아보기

라쏘 회귀란 무엇인가요?