본문에서는 머신 러닝 및 인공 지능(AI)에서 가장 많이 사용되는 분류 알고리즘 중 하나인 로지스틱 회귀의 수학에 대해 알아봅니다. 또한 회귀 분석, 사용 사례 및 다양한 유형의 로지스틱 회귀도 자세히 살펴봅니다. 생성형 AI의 시대에도 로지스틱 회귀의 기반은 여전히 복잡한 신경망 모델을 조정하는 데 중요한 역할을 합니다. 또한 로지스틱 회귀는 행동과학 및 사회과학 연구와 데이터 과학 분야 전반의 맥락에서 통계 테스트를 수행하는 데에도 여전히 관련성이 높습니다. Python의 scikit-learn 모듈을 사용하면 회귀를 쉽게 구현할 수 있습니다.
이 설명서에서는 선형 회귀와 로지스틱 회귀의 차이점, 수학적 토대, 다양한 유형의 로지스틱 회귀 및 관련 사용 사례를 소개합니다.
로지스틱 회귀는 선형 회귀와 마찬가지로 예측 변수(독립 변수)와 출력 변수(반응, 목표 또는 종속 변수) 간의 관계를 조사하는 선형 모델의 일종입니다. 주요한 차이점은 선형 회귀는 아웃풋이 연속값일 때 사용된다는 것입니다(예: 누군가의 신용 점수 예측). 로지스틱 회귀는 결과가 범주형일 때 사용됩니다(예: 대출 승인 여부).
로지스틱 회귀에서 모델은 특정 결과가 발생할 확률을 예측합니다. 예를 들어, 누군가의 재무 프로필을 감안하여 대출이 승인될 확률을 예측할 수 있습니다. 모델의 아웃풋은 0과 1 사이의 값입니다. 임계값(종종 0.5)에 따라 결과는 "승인됨" 또는 "승인되지 않음"으로 분류됩니다. 로지스틱 회귀는 선형 회귀처럼 데이터에 직선을 그리는 대신 S자형 곡선을 적합하여 입력값을 확률에 매핑합니다.
선형 회귀와 로지스틱 회귀 모두 통계 검정을 사용하여 아웃풋에 의미 있는 영향을 미치는 예측 변수를 평가합니다. t-검정 및 분산 분석(ANOVA)(또는 회귀의 경우 우도비율 검정)과 같은 기법은 각 계수에 대한 p-값을 생성하여 관계가 통계적으로 유의한지 여부를 평가하는 데 도움이 됩니다. 낮은 p-값(일반적으로 0.05 미만)은 변수가 모델에 의미 있게 기여한다는 것을 나타냅니다. 또한 회귀 유형에 따라 다른 지표를 사용하여 좋은 적합, 즉 모델이 관찰된 결과를 얼마나 잘 설명하는지를 평가합니다.
모델을 구축할 때는 모델이 학습 데이터에서 노이즈를 포착하고 새로운 데이터에서 성능이 저하되는 과적합을 방지하는 것이 중요합니다. 예측 변수는 많지만 표본 크기는 작을 때 이러한 위험이 증가합니다. 이 문제를 해결하기 위해 계수를 축소하여 덜 중요한 변수의 영향을 줄이는 기법인 정규화를 적용할 수 있습니다. 이상값은 모델을 왜곡하고 오해의 소지가 있는 p-값이나 계수를 초래할 수 있으므로 세심한 주의를 기울여야 합니다. 실제로 우리는 특징 선택, 테스트 및 개선을 여러 번 반복하여 모델을 향상합니다.
두 모델을 보다 구체적으로 대조하기 위해 현재 저축액과 같은 특징을 기반으로 누군가의 신용 점수를 예측하려는 선형 회귀 시나리오를 생각해 보세요. 이를 다음과 같이 모델링할 수 있습니다.
선형 회귀와 마찬가지로 로지스틱 회귀는 일반화 선형 모델(GLM)에 속하는 선형 모델의 일종입니다. 앞의 예에서와 같이 승인될 확률이나 승인되지 않을 확률을 나타내려면 선형 함수를 적용합니다.
선형 함수는 선형 관계를 가정하므로, X의 값이 변경되면 Y는 (-inf, inf)의 값을 취할 수 있습니다. 아시다시피 확률은 [0,1]로 제한됩니다. 이 선형 모델 원칙을 사용하면 이진 결과의 확률을 직접 모델링할 수 없습니다. 대신 확률을 이해하려면 로지스틱 모델이 필요합니다. 따라서 결과를 제한할 수 있도록 입력에 변환을 적용하려고 합니다. 이 변환을 로지스틱 회귀 방정식이라고 합니다. 이 방정식은 복잡해 보일 수 있지만, 다음 섹션에서 어떻게 도출되는지 단계별로 분석하겠습니다.
시그모이드 변환을 사용하면 이전 사용 사례에 대한 이진 예측을 수행할 수 있습니다. 변환을 적용한 후 X의 값은 (-inf, inf)를 취할 수 있으며 y는 [0,1]로 제한됩니다.
로지스틱 회귀 함수(또는 시그모이드 함수)를 이해하려면 다음 개념에 대한 견고한 기반이 필요합니다.
확률 비율의 로그는 로짓 함수라고 하며, 로지스틱 회귀의 기초를 형성합니다.
확률이 0과 1 사이로 제한되므로 선형 함수를 사용하여 확률을 직접 모델링할 수 없기 때문에 대신 확률을 사용하겠습니다. 확률과 오즈는 모두 결과의 가능성을 나타내지만, 정의는 다릅니다.
확률은 가능한 모든 결과 중에서 특정 이벤트가 발생할 가능성을 측정합니다.
오즈는 이벤트가 발생할 가능성과 발생하지 않을 가능성을 비교합니다.
p(x)가 결과의 확률을 나타낸다고 가정하겠습니다. 그러면 x의 오즈는 다음과 같이 정의됩니다.
구체적인 예를 들어보겠습니다.
바구니에 사과 3개와 오렌지 5개가 들어 있다고 가정해 보겠습니다.
- 오렌지를 집을 확률은 5/(3+5) = 0.625입니다.
- 오렌지를 집을 오즈는 5/3 ≈ 1.667입니다.
즉, 오렌지를 집을 가능성이 사과를 집을 가능성보다 ≈1.667배 더 높습니다. 반대로 사과를 집을 오즈는 3 / 5 = 0.6으로 1보다 작으며, 이는 사과를 집는 결과가 나타날 가능성이 사과를 집지 않을 결과보다 낮다는 것을 나타냅니다. 오즈 방정식에 따라 오즈를 어떤 결과가 발생할 확률을 1에서 결과가 발생할 확률을 차감한 값으로 나눈 것으로 볼 수도 있습니다. 따라서 오렌지를 집을 오즈는 = P(오렌지)/(1-P(오렌지))=0.625/(1-0.625)≈1.667입니다.
Odds의 범위는 0부터 무한대까지 가능합니다. 오즈값이 1보다 크면 유리한 결과를 나타내고, 1보다 작으면 불리한 결과를 나타내며, 1과 같으면 이벤트가 발생할 가능성과 발생하지 않을 가능성이 동일한 것입니다.
그러나 확률은 1 주변에서 대칭이 아닙니다. 예를 들어, 2와 0.5의 확률은 "두 배의 가능성"과 "절반의 가능성"을 나타내지만 매우 다른 숫자 척도에 있습니다. 이러한 불균형을 해결하기 위해 확률의 로그를 취하여 무한한 [0, ∞) 확률 척도를 실수선(-∞, ∞)으로 변환합니다. 이를 로그 오즈(log-odds) 또는 로짓이라고 합니다. 이는 로지스틱 회귀 모델의 기초입니다.
로그 오즈는 다음과 같이 정의됩니다.
이 변환을 통해 로그 오즈를 입력의 선형 함수로 표현할 수 있습니다.
그런 다음 양변을 지수화하여 다시 오즈로 되돌릴 수 있습니다.
풀이 방법 예측 값이 0에서 1 사이로 유지되도록 하는 데 도움이 되는 시그모이드 함수가 도출됩니다.
이 변환을 사용하면 아래의 선형 함수를 사용하여 모델링하더라도 회귀를 통해 유효한 확률을 출력할 수 있습니다.
마지막으로 모델 계수의 효과를 해석하는 데 도움이 되는 개념인 오즈비를 소개하겠습니다. 오즈비는 입력 변수 x1이 한 단위 증가할 때 오즈가 어떻게 변하는지 알려줍니다.
이벤트의 오즈가 다음과 같다고 가정해 보겠습니다.
x1을 1 단위 늘리면 새로운 오즈는 다음이 됩니다.
즉, x1이 1단위 증가할 때마다 오즈에 eb1을 곱합니다. 이 승수가 오즈비입니다.
- b1>1이면 오즈가 증가합니다(이벤트가 발생할 가능성이 높아짐).
- b1<1이면 오즈가 감소합니다(이벤트가 발생할 가능성이 낮아짐).
- b1=1인 경우 오즈비는 0이며, 이는 입력이 오즈에 영향을 미치지 않음을 의미합니다.
로지스틱 회귀는 해석 가능성을 제공합니다. 즉, 입력에 따라 이벤트의 오즈가 어떻게 변하는지 알려주며, 이는 의료, 마케팅 및 금융과 같은 많은 응용 환경에서 유용합니다. 그러나 선형 회귀와 동일한 방식으로 계수를 해석할 수는 없습니다. 다음 섹션에서는 계수가 어떻게 결정되고 해석되는지 자세히 살펴보겠습니다.
이전 내용을 상기해 보세요. 선형 회귀에서 계수는 간단하게 해석할 수 있습니다. 연속 변수가 있는 선형 회귀의 예를 들어보겠습니다. 입력 특 x가 1단위 증가하면 예측 결과 y가 b1단위 증가합니다. 이 직접적인 관계는 선형 회귀가 입력 특징과 대상 간의 변화율이 일정하다고 가정하기 때문에 효과가 있습니다. 아웃풋은 무한하며 선형적으로 증가합니다.
그러나 로지스틱 회귀는 y를 직접 모델링하는 것이 아니라 로그 오즈(오즈의 로그)를 통해 y의 확률을 모델링합니다. 때문에 x가 1단위 증가하면 y의 일정한 단위 변화가 발생한다고 할 수 없습니다. 대신, 우리는 계수가 로그 오즈에 미치는 영향, 더 나아가 오즈와 결과의 확률에 미치는 영향 측면에서 계수를 해석합니다.
보다 구체적으로 로지스틱 회귀에서는 다음이 해당합니다.
중요한 것은 계수의 크기는 이러한 영향이 얼마나 강한지를 반영하며, 오즈비(계수의 지수)는 변수가 1단위 증가할 때 오즈가 얼마나 변하는지 알려준다는 점입니다.
다른 머신 러닝 알고리즘과 마찬가지로 범주형 변수를 통합하여 로지스틱 회귀를 예측할 수 있습니다. 많은 경우 범주형 또는 이산형 변수로 작업할 때는 원핫 인코딩 또는 더미 변수와 같은 특징 엔지니어링 기법을 사용하여 이러한 변수를 모델에서 사용할 수 있는 이진 형식으로 변환합니다.
예를 들어, 앞서 언긊한 것과 동일한 개념을 사용하여 누군가가 대출 승인( 승인의 경우 승인되지 않음의 경우) 기존 부채가 있는지 여부에 따라:
- 기존 부채가 없음을 의미
- 기존 부채가 있음을 의미
의 로그 오즈는 다음과 같습니다
계수 기존 부채가 있는 경우 그렇지 않은 사람에 비해 승인될 로그 오즈의 변화를 나타냅니다.
더 이해하기 쉽게 b1을 지수화하여 오즈비를 구할 수 있습니다.
따라서 선형 회귀에서 계수에 대한 직접적인 해석은 잃게 되지만, 로지스틱 회귀는 특히 오즈와 확률 이동의 관점에서 보면 여전히 풍부하고 해석 가능한 인사이트를 제공합니다. 의 함수로서 확률의 증가 또는 감소의 크기는 1단위 증가에 상승하지 않으나 , 이 특정 지점에 어디에 있는지에 따라 달라집니다.
로지스틱 회귀의 계수인 및 는 최대 우도 추정(MLE)을 사용하여 추정됩니다. MLE의 핵심적인 발상은 로지스틱 회귀 모델에서 관찰된 데이터를 가장 '가능성이 높은' 것으로 만드는 매개변수를 찾는 것입니다.
로지스틱 회귀에서는 대상 변수 가 1일 확률을 모델링하는데(예: "승인됨), 이때 입력은 이며 다음 로지스틱(시그모이드) 함수를 사용합니다.
MLE는 다양한 조합의 및 , 각 조합에 대해 이렇게 질문합니다. '이러한 매개변수가 주어지면 데이터에서 실제 결과를 볼 가능성이 얼마나 될까요?'
이는 각 데이터 포인트에 대한 예측 확률을 곱하는 우도 함수를 사용하여 포착됩니다.
- =1('승인됨')이면 모델의 예측 확률 최대한 1과 가까워야 합니다. 항 이 이를 해결합니다. y1의 실제 관찰 데이터가 실제로 '승인됨' 또는 1이면 항은 1이 됩니다.
- =0인 경우 예측 확률이 0에 가까워야 합니다. 용어 이 이 사례를 처리합니다. 실제로 관찰된 데이터인 '승인되지 않음'이거나 0인 경우 값은 아 0에 가까울 것이므로, 은 1에 가까울 것입니다.
따라서 각 데이터 포인트에 대해 또는 (실제 레이블이 1인지 0인지에 따라). 모든 예의 곱은 현재 모델에서 전체 데이터 세트를 볼 가능성이라는 단일 숫자를 제공합니다. 보시다시피 예측된 결과(매개변수를 사용하여 및 )가 관찰된 데이터와 일치하면 우도값이 최대화됩니다. 모든 확률을 곱하는 이유는 결과가 서로 독립적이라고 가정하기 때문입니다. 즉, 한 사람의 승인 기회가 다른 사람의 승인 기회에 영향을 미쳐서는 안 됩니다.
이 곱은 매우 작아질 수 있기 때문에 일반적으로 곱을 합계로 변환하고 계산 및 최적화하기 쉬운 로그 우도를 사용합니다.
로그 우도를 극대화하는 및 의 값을 찾기 위해 반복 최적화 알고리즘인 그래디언트 하강을 사용합니다. 각 단계에서 각 매개변수(예: 그래디언트)에 대해 로그 우도가 어떻게 변하는지 계산한 다음 우도를 증가시키는 방향으로 매개변수를 약간 업데이트합니다. 시간이 지날수록 이 프로세스는 데이터에 가장 적합한 및 값을 향해 수렴합니다.
로지스틱 회귀 모델에는 세 가지 유형이 있으며, 범주형 반응을 기반으로 정의됩니다.
로지스틱 회귀는 일반적으로 예측 및 분류 문제에 사용됩니다. 이러한 사용 사례 중 일부는 다음과 같습니다.
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.