통계적 머신 러닝이란 무엇인가요?

작성자

Developer Advocate

IBM

통계적 머신 러닝

소개: 머신 러닝에서 통계적 사고란 무엇인가요?

오늘날의 생성형 AI 시대에 실무자들은 단순한 선형 회귀부터 복잡하고 정교한 신경망 및 생성형 대규모 언어 모델(LLM)에 이르기까지 다양한 머신 러닝(ML) 모델을 구축합니다. 또한 고객 이탈, 추천 시스템 및 기타 사용 사례를 예측하기 위해 수행되는 유비쿼터스 데이터 과학과 데이터 분석도 있습니다. 다만 머신 러닝(ML) 모델은 방대한 데이터 세트와 강력한 알고리즘에서 실행되는 것처럼 보일 수 있지만, 자세히 보면 기본적으로 통계 프로세스입니다.

머신 러닝은 프로세스에 구조와 엄격함을 부여하는 베이지안 방법, 선형 대수학 및 검증 전략을 포함한 통계 기술과 수학적 도구를 기반으로 구축됩니다. 비선형 분류기를 구축하든, 추천 시스템을 조정하든 혹은 Python에서 생성 모델을 개발하든 통계적 머신 러닝의 핵심 원칙을 적용하게 됩니다.

모델을 학습시킬 때마다 데이터에서 매개변수를 추정하게 됩니다. 테스트할 때 우리는 이런 질문을 합니다. 이 패턴이 실제 패턴인가, 아니면 무작위 노이즈인가? 평가 지표를 사용하여 오류를 정량화하려면 어떻게 해야 하는가? 이러한 질문은 모두 통계에 관한 질문입니다. 통계 테스트 프로세스는 자신 있게 모델 지표를 구성하고 해석하는 데 도움이 됩니다. 이러한 전제 조건을 이해하는 것은 기초일 뿐만 아니라 컴퓨터 과학과 수학적 추론에 기반을 둔 견고하고 해석 가능한 AI 시스템을 구축하는 데 필수적입니다.

이 글에서는 오늘날 ML의 기반이 되는 통계적 원칙을 설명합니다. 이는 단순히 수학적 개념을 이해하기 위한 것이 아니라 머신 러닝 시스템을 자신 있게 구축하고 디버그하며 해석하는 데 필요한 멘탈 모델을 익히기 위한 것입니다.

먼저 다음의 상호 연결된 개념 6가지를 살펴보겠습니다.

1. 통계: 기본적으로 통계란 무엇이며, 오늘날의 AI에서 어떻게 사용되는가?

2. 확률: 데이터의 불확실성을 어떻게 정량화할 수 있는가?

3. 분포: 데이터 동작을 모델링하는 방법은 무엇인가?

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

통계란 무엇인가요?

통계는 데이터에서 인사이트를 추출하는 과학입니다. 통계는 정보를 구성, 분석 및 해석하여 패턴을 발견하고 불확실성 하에서 결정을 내립니다. 데이터 과학 및 머신 러닝 알고리즘의 맥락에서 통계는 데이터 동작을 이해하고 모델 선택에 도움이 되며 결과 평가를 위한 수학적 기반을 제공합니다. 통계는 복잡하고 노이즈가 많은 데이터 세트를 실행 가능한 인텔리전스로 변환합니다.

최신 머신 러닝은 통계적 방법을 기반으로 구축되었습니다. 지도 학습(예: 회귀 또는 분류)을 적용하든, 비지도 학습(예: 클러스터링)을 적용하든 혹은 강화 학습을 적용하든 통계 추론에 기반을 둔 도구를 사용하게 됩니다. 통계를 통해 불확실성을 정량화하고, 표본에서 일반화하고, 더 넓은 모집단에 대한 결론을 도출할 수 있습니다. 이 모든 것은 신뢰할 수 있는 인공 지능(AI) 시스템을 구축하는 데 필수적입니다.

기술 통계: 기본 사항 이해

모델을 학습시키기 전에 우리는 데이터의 주요 특성을 요약하기 위해 기술 통계에 의존하는 프로세스인 탐색적 데이터 분석(EDA)을 수행합니다. 이러한 요약은 각 특징의 중심 경향과 가변성에 대해 알려주어 이상값, 데이터 품질 문제 및 전처리 요구 사항을 식별하는 데 도움이 됩니다. 효과적인 모델을 구축하고 적절한 머신 러닝 알고리즘을 선택하려면 반드시 이러한 속성을 이해해야 합니다.

주요 측정치:

평균:

값의 산술 평균입니다. 중심성 측정 및 평균 제곱 오차(MSE)와 같은 손실 함수에 일반적으로 사용됩니다.

예: 고객 구매 가치가 증가하는 경우, 평균은 행동의 변화를 감지합니다.

중앙값:

데이터 정렬 시 중간에 있는 값입니다. 평균보다 이상값에 더 견고합니다.

예: 소득 데이터에서 중앙값은 치우친 부가 있는 "전형적인" 경우를 더 잘 반영합니다.

최빈값:

가장 자주 발생하는 값입니다. 일부 앙상블 방법에서처럼 범주형 특징 또는 다수결 투표에 유용합니다.

예: 사이트 방문자가 가장 많이 사용하는 브라우저 찾기.

표준 편차(SD):

값이 평균에서 얼마나 널리 확산되어 있는지 측정합니다. SD가 낮을수록 데이터 포인트가 평균 근처에 클러스터링되어 있음을 의미하고, SD가 높을수록 변동성이 더 크다는 것을 의미합니다.

예: 모델 검증에서 고분산 특징은 k-최근접 이웃과 같은 거리 기반 알고리즘에서 다른 특징을 압도하지 않도록 정규화가 필요할 수 있습니다.

사분위수 범위(IQR):

75번째 백분위수와 25번째 백분위수 사이의 범위(Q3~Q1)입니다. 데이터의 중간 50%를 포착하며, 이상값을 감지하는 데 유용합니다.

예: 고객 세분화 작업에서 지출의 IQR이 높으면 여러 하위 그룹의 동작이 일관되지 않은 것일 수 있습니다.

치우침:

분포의 비대칭을 나타냅니다. 양의 치우침은 오른쪽 꼬리가 더 길다는 것을 의미하고, 음의 치우침은 왼쪽 꼬리가 더 길다는 것을 의미합니다. 치우친 특징은 선형 모델의 가정을 위반하거나 평균 기반 지표를 부풀릴 수 있습니다.

예: 오른쪽으로 치우친 분포(예: 소득)는 선형 회귀를 적용하기 전에 로그 변환이 필요할 수 있습니다.

첨도:

분포의 "꼬리", 즉 값이 극단적일 가능성을 설명합니다. 첨도가 높으면 이상값이 더 빈번한 것이며, 첨도가 낮으면 분포가 보다 고른 것입니다.

예: 사기 탐지에서 거래 금액의 첨도가 높으면 비정상적인 지출 패턴을 나타내는 것일 수 있습니다.

이러한 측정은 또한 정규화, 표준화 또는 대체와 같은 전처리 결정에 도움이 되며, 새로운 특징을 엔지니어링하는 방식에 영향을 미칩니다.

머신 러닝의 기술 통계

EDA 중에 기술 통계는 다음에 도움이 됩니다.

데이터 분포 평가: 변수가 가우스인지, 치우쳐 있는지, 멀티모달인지 평가
이상값 및 오류 식별: 평균과 중앙값 간 불일치는 비정상적인 값을 나타낼 수 있음
데이터 품질 문제 발견: 예컨대 부정적인 연령 또는 불가능한 카테고리 감지
모델 선택 지원: 연속적 대상 변수는 회귀를 시사하며, 범주형 변수는 분류를 시사함. 특징 간의 관계(예: 상관관계)도 선형, 비모수 또는 커널 기반 방법을 사용할지 여부에 영향을 미칠 수 있음

통계를 통해 데이터를 이해하면 대규모 데이터 세트를 처리하고, 모델 지표를 평가하고, 과적합과 같은 위험을 완화하기 위해 모델을 준비하는 데 도움이 됩니다. 예를 들어, 설명 요약은 정규화가 필요한 불균형한 클래스 또는 특징 크기 조정을 드러낼 수 있으며, 둘 다 모델 성능과 공정성에 영향을 미칩니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

확률: 불확실성의 언어

머신 러닝을 이용한 모델링은 불확실성 때문에 존재합니다. 입력을 아웃풋에 완벽하게 매핑할 수 있다면 모델이 필요하지 않을 것입니다. 그러나 실제 데이터는 지저분하고 불완전하며 노이즈가 많기 때문에 우리는 확실성이 아닌 가능성을 모델링합니다. 확률에 대해 배우면 머신 러닝과 인공 지능(AI)이라는 모든 것의 기초가 마련됩니다. 확률 이론을 통해 모델링에 사용한 데이터를 아름답고 우아한 방식으로 이해할 수 있습니다. 확률은 ML 모델 예측의 불확실성을 모델링하는 데 중요한 역할을 합니다. 확률은 통계 모델의 가능성, 확률 및 확실성을 정량화하는 데 도움이 되므로, 만든 결과 모델을 자신 있게 측정할 수 있게 해 줍니다. 확률의 세계로 뛰어들어 기본 사항을 배우면 모든 통계 학습 모델의 기초와 예측이 어떻게 이루어지는지 이해할 수 있습니다. 또한 추론하고 확률적 결과를 산출하는 방법을 배우게 됩니다.

널리 사용되는 분포를 배우고 자신 있게 데이터를 모델링하기 위해 기본 사항을 살펴보고 몇 가지 용어를 명확히 알아보게습니다.

확률 변수: 무작위 현상의 결과를 숫자로 표현한 것입니다. 가능한 값이 무작위 프로세스의 수치 결과인 변수입니다.

이산 확률 변수: 유한하거나 계수 가능 무한 수의 고유 값을 취할 수 있는 확률 변수입니다. 예: 동전 던지기의 결과(앞면 = 1, 뒷면 = 0) 또는 한 시간 동안 수신된 스팸 이메일 개수

연속 확률 변수: 주어진 범위 내의 모든 값을 취할 수 있는 확률 변수입니다. 예: 사람의 키, 실내 온도, 강우량.

이벤트: 무작위 프로세스에서 발생하는 하나 이상의 결과 집합입니다. 예: 주사위 굴리기에서 짝수가 나옴(결과: 2, 4, 6) 또는 고객 이탈

결과: 무작위 실험의 가능한 단일 결과입니다. 예: 동전을 던지면 '앞면' 또는 '뒷면'이 나옴

확률 $P (A)$ : 이벤트 $A$ 의 발생 가능성을 측정한 수치입니다. 0(불가능)부터 1(확실)까지의 범위에서 발생합니다.

조건부 확률 $P (A | B)$ : 이벤트 $A$ 가 발생할 확률입니다(해당 이벤트 $A$ 가 이미 발생했다는 전제 하에). 많은 경우 특정한 특징이 주어지면 결과를 예측하려 하므로, 이 단계는 ML에서 매우 중요합니다.

확률은 0(불가능)에서 1(확실)까지 이벤트가 발생할 가능성을 측정한 것입니다.

머신 러닝에서 이는 종종 조건부 확률의 형태를 취합니다.

예: 로지스틱 회귀 모델은 다음을 도출할 수 있습니다.

> “연령 = 45세, 소득 = 미화 60,000달러, 이전 이력을 고려할 때

> 이탈 확률은 0.82입니다."

이 예는 고객이 이탈할 것이라는 의미가 아니라 학습 데이터의 통계 패턴을 기반으로 하는 믿음입니다.

생성형 AI의 시대에 로지스틱 회귀와 같은 확률 모델은 모델의 결과와 아웃풋을 파악하는 데 큰 역할을 합니다. 이 역할은 종종 신경망 계층에서 활성화 함수의 형태를 띱니다.

분포: 데이터 동작 방식 모델링

확률 분포는 확률 변수가 특정 범위 내에서 취할 수 있는 가능한 값과 우도를 설명하는 수학적 함수입니다. 데이터가 고립된 단일 지점으로 존재하는 경우는 거의 없으므로 ML에서 분포를 이해하는 것은 중요합니다. 분포는 구조와 "모양"이 있습니다. 다음 몇 가지 용어를 명확히 할 필요가 있습니다.

이산 분포: 고유하고 계수 가능한 값(예: 동전 던지기, 단어 수)을 취하는 변수에 적용됩니다.
연속 분포: 범위 내의 값(예: 키, 몸무게, 시간)을 취할 수 있는 변수에 적용됩니다.

핵심 개념

확률 질량 함수(PMF): PMF는 0 또는 1, 앞면 또는 뒷면 또는 매장에 도착하는 고객 수와 같이 계수 가능하고 고유한 값을 취하는 변수인 이산 확률 변수에 적용됩니다. PMF는 가능한 각 결과의 정확한 확률을 알려줍니다. 예를 들어, 공정한 6면 주사위를 굴리면 PMF는 다음 각 결과에 1/6의 확률을 할당합니다: $1, 2, 3, 4, 5, 6$ . PDF(범위에 걸쳐 확률 밀도를 분산)와 달리, PMF는 확률을 정확한 값에 집중시킵니다.
확률 밀도 함수(PDF): 임계값 모델, 공정성 감사 및 해석 가능성에 자주 사용되는 개념인 백분위수, 분위수 및 확률 임계값에 대해 추론하는 데 도움이 됩니다.
누적 분포 함수(CDF): CDF는 값이 특정 임계값보다 작거나 같을 누적 확률을 제공합니다. x축을 따라 이동할수록 0에서 1로 증가하며, "50달러 미만을 지출하는 고객의 비율은 얼마입니까?"와 같은 질문에 답변할 때 특히 유용합니다.
누적 질량 함수(CMF): CMF는 CDF에 대응하는 이산 함수로, 이산 변수가 특정 지점보다 작거나 같은 값을 취할 누적 확률을 제공합니다.

데이터 분포에 대해 올바른 가정을 하는 것은 매우 중요하며, 많은 머신 러닝 알고리즘은 모델 선택 및 해석 모두에서 이러한 가정에 의존합니다. 잘못된 가정은 편향된 추정치, 잘못 정렬된 손실 함수, 그리고 궁극적으로 애플리케이션에서 잘못된 일반화 또는 잘못된 결론으로 이어질 수 있습니다.

확률 분포는 다음을 뒷받침합니다.

오류 모델링: 회귀의 잔차에 대한 가정(많은 경우 가우스).
손실 함수: MSE는 가우스 가정에 상응합니다(베르누이 또는 로지스틱에 대한 교차 엔트로피).
모델 설계: 분류 대상은 종종 베르누이를 통해 모델링됩니다. 심층 생성 모델의 잠재 변수는 가우스 prior를 사용합니다.
생성형 AI: 학습된 고차원 분포에서 샘플링하는 것은 생성적 적대 신경망(GAN) 및 VAE와 같은 모델의 기본입니다.

이산 분포의 예: 베르누이 시행

베르누이 분포는 이산 무작위 이벤트의 단일 시도에서 성공 또는 실패 확률을 모델링합니다. 즉, 1(성공) 또는 0(실패)의 두 가지 결과만 있습니다. 통계에 사용되는 가장 간단한 유형의 분포이지만, 머신 러닝에서 많은 분류 문제의 기초를 형성합니다. 예를 들어, 동전을 10번 던졌을 때 앞면이 7번(성공) 나오고 뒷면이 3번(실패) 나왔면 확률 질량 함수(PMF)는 다음과 같이 그래프로 표시할 수 있습니다.

동전 던지기는 고전적인 베르누이 시행입니다. 확률 질량 함수를 동전 던지기 예제에 적용해 보겠습니다.

- $X$ 는 한 번의 플립 결과를 나타내는 확률 변수입니다.

- 앞면이 성공으로 간주되면 다음과 같이 정의합니다. $X = 1$ (앞면), $X = 0$ (뒷면)

- 동전이 공정하면 앞면이 나올 확률은 $p = 0.5$

베르누이 분포의 확률 질량 함수(PMF)는 다음과 같습니다.

$P (X = x) = p^{x} (1 - p)^{1 - x}, f o r x \in {0, 1}$

설명:

p는 성공 확률(X=1)
1 - p는 실패 확률(X=0)
x는 관측된 결과(1 또는 0)

머신 러닝에 적용: 이산 분포

베르누이 PMF는 많은 분류 모델의 확률적 중추를 형성하므로 반드시 이해해야 합니다. 특히, 로지스틱 회귀는 단순히 클래스 레이블을 출력하는 것이 아니라 특정 입력이 클래스 1에 속할 확률을 추정합니다. 이 예측된 확률은 베르누이 분포에서 매개변수 𝑝로 해석됩니다.

로지스틱 회귀에 사용되는 로지스틱(시그모이드) 함수는 예측된 값이 [0,1] 범위 내에 있도록 하여 유효한 베르누이 확률로 만듭니다. 모델은 각 목표값이 특징 X에서 예측된 확률 p를 가진 베르누이 분포에서 도출된다는 가정 하에 실제 이진 결과를 관찰할 가능성을 최대화하도록 학습됩니다. 이 경우 학습 손실을 최소화하기 위해 데이터가 주어지면 결과의 가능성을 최대화하기 위해 최대가능도 추정법(MLE) 접근 방식을 채택합니다. 일반적으로 베르누이와 같은 이산 분포의 경우 확률을 더 쉽게 조작할 수 있는 가능성으로 변환합니다. 확률은 오즈(odds)와 마찬가지로 불균형하므로, 일반적으로 로그 우도라고 하는 로그 변환을 적용하고 손실 함수를 로그 손실로 적용합니다. 이 섹션이 조금 혼란스럽게 들린다면 앞서 MLE를 사용하여 로그 우도 함수를 단계별로 유도하는 데 대해 언급된 회귀 설명서를 참고하세요. 이 연결은 아웃풋을 확률적 추정치로 해석하기 위한 통계적 근거를 제공합니다. 다음과 같은 다른 응용 분야도 있습니다.

이진 분류기(의사결정트리, 랜덤 포레스트, 이진 결과가 있는 지원 벡터 머신)는 특히 학습 후 확률 보정이 적용될 때 분류를 베르누이 결과를 예측하는 것으로 간주하여 암묵적으로 처리합니다.
평가 지표: 정밀도, 재현율 및 F1 점수는 기본적으로 각 예측이 이진 이벤트라는 가정에서 파생됩니다(베르누이 실행).

연속 분포의 예: 가우스(정규) 분포

정규 분포는 값이 중앙 평균을 중심으로 클러스터되는 경향이 있고 양방향으로 대칭 변동성을 갖는 연속 확률 변수를 설명합니다. 많은 자연 현상(키, 시험 점수, 측정 오류)이 특히 표본 전체에서 집계될 때 이 패턴을 따르기 때문에 통계학에서는 어디에나 있습니다.

성인 1,000명의 키를 기록한다고 상상해 보세요. 이 데이터를 나타내면 종 모양의 곡선이 드러납니다. 즉, 대부분의 사람들은 평균에 가깝고 극단적인 사람은 더 적습니다. 이 모양은 정규 분포의 확률 밀도 함수(PDF)에 의해 포착됩니다.

$f (x ∣ μ, σ^{2}) = \frac{1}{\sqrt{2 π σ^{2}}} \exp (- \frac{(x - μ)^{2}}{2 σ^{2}})$

설명:

𝑥는 연속 변수(예: 높이)입니다.
𝜇 는 평균(분포의 중심)입니다.
$σ^{2}$ 는 분산(제어 산포)입니다.
분모 $\sqrt{2 π σ^{2}}$ 은 곡선 아래 면적의 합이 1이 되도록 합니다.
지수 항은 평균에서 멀리 떨어진 값에 페널티를 주어 가능성을 낮춥니다.

머신 러닝에 적용: 지속적 배포

선형 회귀: 잔차(오차)가 정규 분포를 따른다고 가정하므로 평균 제곱 오차(MSE)를 손실 함수로 사용하는 것이 타당합니다. 이 가정을 통해 모델은 확률적 해석을 할 수 있고 통계적 추론이 용이해집니다(예: 신뢰 구간, 계수에 대한 가설 검정).
생성형 모델: 변이 자동 인코더(VAE), GAN 및 기타 생성형 모델은 많은 경우 잠재 변수가 표준 정규 분포를 따른다고 가정합니다. 새로운 데이터는 이 공간에서 샘플링하고 학습된 네트워크를 통해 변환하여 생성됩니다.
정규화: L2 정규화(릿지 회귀라고도 함)와 같은 기법은 손실 함수에 가중치의 제곱에 비례하는 항을 추가하여 대규모 모델 가중치에 페널티를 줍니다. 이 페널티 항은 모델 매개변수에 대한 가우스 prior를 가정하는 것에 상응하며, 베이지안 용어로 가중치가 0을 중심으로 한 정규 분포에서 도출된다고 믿는 것과 같습니다. 이 원리는 정규화를 확률에 뿌리를 둔 최적화 문제로 전환하여 더 간단한 모델을 촉진하고 과적합을 줄입니다.

결론

모든 머신 러닝 시스템의 핵심에는 모델 설계부터 해석까지 모든 것을 지원하는 보이지 않는 지지대인 통계적 백본이 있습니다. 우리는 통계가 진정으로 무엇인지 탐구하는 것으로 시작했습니다. 통계는 단순한 수학의 한 분야가 아니라 불확실성을 이해하고 데이터에서 의미를 추출하는 언어입니다. 기술 통계는 우리가 세상의 복잡성을 조사하고 요약하기 위한 첫 번째 관점을 제공하여 모델링을 시작하기도 전에 명확성을 제공합니다.

다음으로 불확실성 하에서 추론하기 위한 공식 도구 세트인 확률에 대해 자세히 알아보았습니다. 머신 러닝에서 확률은 결과의 가능성을 정량화하는 데 도움이 되므로, 모델이 단순한 예측이 아닌 신뢰도를 표현할 수 있게 합니다. 고객이 이탈할 가능성이든 분류에 레이블이 분류될 가능성이든, 확률 이론은 원시 데이터를 해석 가능한 인사이트로 전환합니다.

마지막으로 다양한 시나리오에서 데이터가 어떻게 동작하는지 정의하는 분포를 살펴보았습니다. 이진 결과를 모델링하는 이산 베르누이 분포부터 회귀 및 생성형 모델에서 가정을 형성하는 연속 가우스 분포에 이르기까지 이러한 분포를 이해하는 것이 중요합니다. 분포는 우리가 관찰하는 데이터와 우리가 구축하는 알고리즘을 모두 뒷받침하여 모델 선택에 도움이 되고 손실 함수를 형성하며 의미 있는 추론을 가능하게 합니다.

로지스틱 회귀 및 나이브 베이즈부터 딥 러닝 및 커널 방법에 이르기까지 최신 머신 러닝 알고리즘에서 이러한 통계 원칙은 선택적인 추가 기능이 아니라 머신 러닝의 메커니즘 그 자체입니다. 이러한 원칙은 불확실성을 추론하고, 성능을 최적화하며, 제한된 관찰에서 실제 의사 결정까지 일반화하는 데 도움이 됩니다. 이러한 기초를 익히면 머신 러닝을 사용하는 방법만 배우는 것이 아니라 머신 러닝을 이해하고, 구축하고 추론하는 방법을 배울 수 있습니다.

생성형 AI와 대규모 딥 러닝 모델의 시대에도 통계는 그 어느 때보다 관련성이 높습니다. 모든 트랜스포머 계층과 확산 단계 뒤에는 확률, 추정 및 분포 가정 위에 구축된 기반이 있습니다. 편향-분산 트레이드오프와 같은 개념 및 불확실성을 이해하는 것은 학문적일 뿐만 아니라 블랙박스 모델을 해석하고, 실패 모드를 진단하고, 책임감 있고 설명 가능한 AI를 구축하는 데 필수적입니다. 파운데이션 모델을 미세 조정하든, 불확실성 정량화를 위해 베이지안 기법을 적용하든 혹은 생성형 아웃풋을 평가하든, 통계적 추론은 복잡성을 명확하게 탐색할 수 있는 도구를 제공합니다. 생성형 AI 시스템이 더욱 강력해짐에 따라 통계적 기초에 기반을 두고 모델을 최신 상태뿐 아니라 원칙적이고 신뢰할 수 있는 상태로 유지할 수 있습니다.