모델 매개변수란 무엇인가요?

모델 매개변수는 머신러닝 모델 내에서 학습된 값으로, 입력 데이터를 생성된 텍스트나 예측된 분류와 같은 아웃풋으로 어떻게 변환할지 결정합니다. 머신러닝 알고리즘의 목적은 인공 지능(AI) 모델의 아웃풋이 기대 결과와 최대한 일치하도록 매개변수를 조정하는 것입니다.

이러한 매개변수의 값은 모델의 예측을 결정하고 궁극적으로 주어진 작업에 대한 모델의 성능을 결정합니다. 모델 내 매개변수의 수는 데이터 포인트 전반의 패턴을 포착하는 모델의 능력에 직접적으로 영향을 줍니다. 생성형 AI에 사용되는 것과 같은 대규모 모델은 수십억 개의 매개변수를 가질 수 있어 매우 정교한 아웃풋을 생성할 수 있습니다. 매개변수가 많아질수록 모델은 더 미묘한 데이터 패턴을 정확하게 포착할 수 있지만, 지나치게 많으면 과적합 위험이 있습니다.

각기 다른 머신러닝 알고리즘은 서로 다른 유형의 매개변수를 가지고 있습니다. 예를 들어 회귀 모델은 계수, 신경망은 가중치와 편향 값을 사용하며, 지원 벡터 머신 또는 상태 공간 모델과 같은 일부 알고리즘에는 고유한 유형의 매개변수가 있습니다.

모델 매개변수(훈련 과정에서 학습되는 변수)는 미리 설정하는 하이퍼파라미터와 혼동해서는 안 됩니다. 두 종류의 매개변수 모두 모델의 성능과 동작에 영향을 미치지만, 그 방식에는 상당한 차이가 있습니다.

업계 뉴스레터

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

간소화된 모델 매개변수

모델 매개변수는 아주 간단한 모델에도 존재하며, 일정한 비율로 변화하는 양을 설명하는 가장 단순한 수학 모델에도 나타납니다.

선형 회귀

주택 가격에 평방 피트가 어떤 영향을 미치는지 알아보려면 다음 방정식을 사용하는 간단한 선형 회귀 모델을 사용할 수 있습니다. $y = m x + b$ , 여기서 m(기울기)와 b(절편)은 매개변수이며, 이들을 조정하면 결과 선이 데이터에 맞춰 이동하고 기울어지게 됩니다.

분류

다소 더 복잡한 예시로 주택이 시장에 나온 기간(일수)을 기반으로 그 주택이 팔릴지 아닐지를 결정하는 데 로지스틱 회귀 모델을 사용할 수 있습니다.

로지스틱 회귀는 다음 공식을 사용합니다. $p = \frac{1}{1 + e^{- (w x + b)}}$ 여기서 p는 '판매될 확률', x는 '시장에 나온 일수'를 의미합니다. 다시 말하지만, w와 b는 모델이 '학습'하는 매개변수입니다. 방정식은 좀 더 복잡해졌지만 여전히 두 개의 매개변수만 사용됩니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

모델 매개변수의 유형

머신 러닝에서 모델 매개변수는 주로 가중치와 편향의 두 가지 유형으로 나뉩니다. 단순 선형 회귀 모델의 $y = m x + b$ 예시에서 가중치는 기울기 m에 해당하며, 이는 입력이 아웃풋에 얼마나 큰 영향을 미치는지를 조절합니다. 가중치가 클수록 입력의 영향도 커집니다. 편향은 절편 b에 해당합니다. 이 값은 모델이 전체 선을 위아래로 이동시킬 수 있게 해줍니다.

가중치

가중치는 가중치는 모델의 기본적인 조절기 또는 설정값으로 모델이 새로운 데이터를 어떻게 평가하고 예측할지를 결정합니다.

선형 회귀 모델에서는 가중치가 각 입력 데이터 포인트를 나타내는 요인의 상대적 영향력을 결정합니다. 신경망에서는 가중치가 각 뉴런의 아웃풋이 다음 층의 다른 뉴런 아웃풋에 미치는 상대적 영향력을 결정합니다.

'시장에 나온 일수'와 같은 요인들을 바탕으로 주택이 팔릴지를 예측하는 모델의 경우, 각 요인이 판매 가능성에 얼마나 강하게 영향을 미치는지를 반영하는 가중치를 갖게 됩니다.

편향

편향은 모델이 모델 가중치와 입력에 관계없이 아웃풋을 조정할 수 있게 하며, 임계값이나 오프셋 역할을 합니다. 편향 덕분에 모델은 전체 데이터 세트에서 더 큰 패턴이나 경향을 파악하고 일반화할 수 있습니다.

주택 판매 모델 예시로 돌아가 예를 들면 과거 데이터를 바탕으로 볼 때 이 지역에서는 대체로 전체 주택의 60%가 결국에는 팔리는 경향이 있다고 가정할 수 있습니다. 즉, 시장에 나온 기간이 얼마이든 혹은 특정 주택이 오래 나와 있거나 방문자가 적더라도 이런 비율은 크게 변하지 않는다는 의미입니다. 편향 덕분에 모델은 이런 현실적인 기준 확률에서 출발하고 다른 입력값에 따라 확률을 높이거나 낮출 수 있습니다.

이러한 '편향'의 사용은 모델이 차별적인 결과를 산출하는 알고리즘 편향과는 별개의 개념입니다. 편향은 모델이 데이터에 대해 잘못된 가정을 함으로써 발생하는 일종의 오류를 의미하며, 이로 인해 예측값과 실제값 사이에 차이가 생깁니다. 이 두 가지는 매개변수로서의 편향과는 무관합니다.

기타 매개변수

머신 러닝의 세계에는 다른 유형의 매개변수가 있습니다. 앞서 소개한 단순한 모델은 가중치와 편향을 사용하며, 훨씬 더 복잡한 신경망 모델도 마찬가지로 정규화를 위한 게인과 시프트 매개변수를 함께 사용합니다.

예를 들어 합성곱 신경망은 공간적 패턴을 탐지하는 필터(커널이라고도 함)를 사용합니다. 장단기 메모리를 가진 순환 신경망은 네트워크 내 정보 흐름을 제어하는 게이팅 매개변수를 사용합니다. 나이브 베이즈와 같은 확률 모델은 조건부 확률이나 확률 분포의 특성을 정의하는 매개변수를 사용합니다. 서포트 벡터 머신은 피처 공간에서 클래스를 구분하기 위해 하이퍼플레인의 위치와 방향을 결정하는 매개변수를 정의합니다. 상태 공간 모델은 관측 및 노이즈 매개변수를 포함합니다.

이들은 일부 예시에 불과하며 각기 다른 모델들의 매개변수는 그 모델에 따라 다르게 작동합니다. 그러나 모든 모델에서 매개변수는 입력 데이터를 아웃풋으로 매핑하는 방식을 결정합니다.

모델 매개변수와 하이퍼파라미터 비교

매개변수는 본질적으로 모델이 던지는 질문에 대한 답에 해당합니다. 예를 들어 “평방 피트를 기준으로 주택 가격을 가장 정확하게 예측할 수 있도록 하는 방정식의 최적 기울기는 무엇인가?”와 같은 질문에 대한 답입니다.

반면 하이퍼파라미터는 모델이 그 답을 찾는 방식을 규정하는 게임의 규칙으로 볼 수 있습니다. 모델을 학습시키는 데이터 과학자는 문제에 대한 이해를 바탕으로 모델이 답을 찾아가는 방식을 결정하는 경계를 설정합니다.

모델 매개변수는 모델 내부에 있으며, 학습 데이터에 따라 학습 과정의 여러 반복 단계에서 모델에 의해 지속적으로 업데이트됩니다. 모델은 학습 중에 매개변수 값을 업데이트합니다. 매개변수는 모델이 이전에 보지 못한 데이터에 어떻게 반응할지를 결정합니다.

모델 하이퍼파라미터는 모델 외부에 존재하며, 학습 전에 하이퍼파라미터 튜닝을 통해 미리 설정됩니다. 일부 하이퍼파라미터는 모델이 학습 중 어떻게 동작할지를 결정하며, 예를 들어 경사 하강법 시의 학습률이나 훈련 과정의 에포크 수가 이에 해당합니다.

다른 하이퍼매개변수는 랜덤 포레스트의 의사 결정 트리 수 ,k-평균 클러스터링의 클러스터 또는 신경망의 숨겨진 레이어와 같은 모델의 형태 구조를 담당합니다.

신경망의 모델 매개변수

머신 러닝 모델은 이전 예제보다 훨씬 더 복잡할 수 있습니다. 대규모 언어 모델(LLM)과 같은 신경망에서는 모델이 인간의 뇌에서 생물학적 뉴런이 협력하여 작동하는 방식과 유사하게 판단을 내립니다. 모든 신경망은 여러 인공 뉴런의 계층으로 구성되며, 각 뉴런은 숫자를 처리하는 수학적 함수를 나타냅니다. 딥러닝에서는 신경망이 이러한 여러 계층으로 구성됩니다.

계층에서 계층으로

각 뉴런은 네트워크의 한 부분이 다른 부분에 얼마나 강하게 영향을 미치는지를 제어합니다. 가중치는 뉴런 간 연결의 강도, 즉 한 뉴런의 아웃풋이 다음 뉴런의 입력에 얼마나 영향을 미치는지를 결정합니다.

훈련 중에 네트워크는 입력 데이터를 받습니다. 주택 가격을 계속해서 예시로 사용하자면, 입력 데이터는 평방 피트, 건축 연도, 지역 인구 통계 등 수십 가지의 요소로 구성될 수 있습니다.

이러한 입력 특성들은 뉴런의 첫 번째 계층으로 전달됩니다. 각 입력에는 가중치가 곱해지는데, 이는 해당 뉴런의 중요도에 대해 네트워크가 추정한 값입니다. 또한 유연성을 높이기 위해 편향이 추가되어, 뉴런이 이전 계층의 뉴런들로부터 전달된 입력의 가중합에 완전히 종속되지 않도록 일정한 독립성을 부여합니다. 활성화 함수는 해당 뉴런이 얼마나 강하게 '발화'할지를 결정하며, 그 결과를 다음 계층의 각 개별 뉴런의 활성화 함수로 입력하여 정보를 전달합니다. 이러한 뉴런 대 뉴런 연결에는 각각 고유한 가중치가 있습니다.

가중치는 행렬을 형성하고, 바이어스는 벡터를 형성하며, 레이어는 입력에 바이어스를 더한 선형 조합을 계산한 후 시그모이드, tanh, ReLU 또는 softmax와 같은 활성화 함수를 통해 결과를 전달합니다. 이 함수의 역할은 네트워크가 선형 관계 대신 복잡한 패턴을 학습하고 모델링할 수 있도록 하는 비선형성을 도입하는 것입니다.

데이터는 다음의 '숨겨진' 계층을 통해 이동합니다. 첫 번째 숨겨진 계층은 주택의 평방 피트와 침실 수를 결합하여 '전체 생활 공간'을 산출할 수 있습니다. 또 다른 계층은 주택의 지리적 위치와 학군 등급을 결합하여 ‘주거지의 선호도’를 결정할 수 있습니다. 이 모델은 ‘주거지 선호도’에 대한 인간의 이해를 가지고 있지 않으며, 단지 훈련 데이터에 나타난 수치 패턴을 인식하고 상관관계를 찾을 뿐입니다.

계층을 거치면서 네트워크는 어떤 패턴이 가장 중요한지 '이해'하기 시작합니다. 이렇게 쌓인 계층들은 단순한 연산을 복잡하고 계층적인 패턴을 학습할 수 있는 강력한 네트워크로 전환합니다.

손실 및 역전파(Backpropagation)

다음 단계에서 네트워크는 손실(네트워크의 아웃풋과 기준값 간의 차이, 즉 학습 데이터 세트에 포함된 데이터의 구조)을 계산합니다. 이는 모델이 기준값과 얼마나 차이가 있는지를 나타내는 하나의 수치입니다.

그런 다음 역전파 과정에서 네트워크는 가중치와 편향에 대한 손실 함수의 기울기를 계산하여, 어떤 매개변수가 손실에 영향을 미치는지, 그리고 이를 최소화하기 위해 어떻게 조정해야 하는지를 결정합니다. 이 과정은 기울기 하강법 알고리즘을 이용해 각 계층을 역순으로 거치며 이루어집니다. 기울기 하강법과 같은 최적화 알고리즘은 손실 함수를 최소화하도록 설계되어 모델에 손실을 줄이기 위해 매개변수를 효율적으로 변경하는 방법을 안내합니다.

위의 과정은 모델이 원하는 성능 수준으로 아웃풋(이 경우 예측 주택 가격)을 도출할 수 있을 때까지 반복됩니다.

주택 가격 예측의 예는 신경망이 여러 특징을 한 번에 받아 비선형 방식으로 결합한 후 유용한 예측값을 도출하는 방식을 보여줍니다. 그러나 이는 더 간단한 선형 회귀 모델을 통해 달성할 수 있었습니다. 신경망은 데이터가 비정형적이거나, 기존 모델에 비해 패턴이 너무 복잡하거나 고차원적인 경우에 특히 탁월한 성능을 발휘합니다. 예를 들어, 신경망을 사용하여 위성 사진과 인근 지도 데이터를 처리하여 판매 가격을 예측할 수 있습니다. 또는 신경망을 학습시켜 ‘조용한 거리’, ‘새 지붕’과 같은 매물 설명에 포함된 주요 용어를 인식하게 할 수도 있습니다.

미세 조정

초기 학습이 완료되면 AI 모델을 특정 작업이나 주제 영역에 추가로 적용할 수 있습니다. 미세 조정은 사전 학습된 모델을 특정 사용 사례에 맞게 조정하는 프로세스입니다. 이를 위해 모델의 매개변수는 새 데이터에 대한 추가 학습을 통해 업데이트됩니다.

다른 유형의 학습

주택 가격을 예측하는 신경망의 위 예시는 모델이 레이블이 지정된 데이터를 사용하여 학습하는 지도 학습을 설명합니다. 이 경우, 모델에는 입력 데이터와 이에 대응하는 아웃풋이 모두 주어집니다. 모델은 자신의 예측값을 기준값(이 경우, 레이블이 지정된 데이터)과 비교합니다. 미세 조정은 주로 지도 학습 환경에서 이루어집니다.

비지도 학습에서는 모델에 ‘정답’을 제공하지 않고 레이블이 지정되지 않은 데이터에서 패턴이나 구조를 찾아 매개변수를 학습합니다. 이러한 모델은 지도 학습처럼 예측을 기준값 레이블과 비교하지 않고, 모델이 데이터 자체를 얼마나 잘 설명하는지 평가하는 목표 함수를 최적화합니다. 예를 들어 클러스터에서는 매개변수(예: k-평균의 클러스터 중심점)가 반복적으로 업데이트되어 서로 비슷한 데이터 포인트들이 더 가까이 모이도록 그룹화됩니다. 차원 축소에서는 데이터의 분산을 가장 잘 설명하는 방향을 찾아 그에 따라 매개변수를 학습합니다.

강화 학습에서 모델(또는 모델로 구동되는 에이전트)은 환경과 상호 작용하여 올바른 행동에 대한 보상을 받습니다. 매개변수는 보통 예상 보상을 추정하는 정책이나 가치 함수를 정의합니다. 매개변수는 예측된 보상과 실제 받은 보상을 비교하여 업데이트됩니다.

모델 매개변수 성능 검증

훈련 데이터에서 성능을 향상시키는 것이 모델 훈련의 목적이지만 이는 어디까지나 최종 목적을 위한 수단에 불과합니다. 가장 중요한 목표는 일반화이며, 이는 모델이 훈련 데이터에서는 보지 못했던 실제 작업에도 잘 적용될 수 있도록 훈련하는 과정을 통해 달성됩니다.

매개변수가 훈련 데이터의 노이즈나 무작위 변동까지 학습해 새 데이터에 대한 일반화 성능이 저하되는 '과적합'과 같은 문제를 피하는 것도 매우 중요합니다. 매개변수는 의미 있는 패턴을 학습할 만큼 유연해야 하지만 관련 없는 세부 사항을 기억할 정도로 유연해서는 안 됩니다.

모델 성능을 평가하기 위해 여러 데이터 과학 기법이 사용됩니다. 교차 검증은 데이터 세트를 여러 부분(폴드)으로 분할하는 모델 평가 기법입니다. 모델은 일부 폴드(부분집합)로 학습하고 나머지 한 폴드로 테스트하며, 모든 폴드가 한 번씩 테스트 세트로 사용될 때까지 이 과정을 반복합니다. 이렇게 하면 모델이 데이터의 여러 파티션에서 테스트되기 때문에 과적합 위험이 줄어듭니다. 교차 검증은 매개변수를 직접 변경하지 않지만, 학습된 매개변수가 미확인 데이터에 얼마나 잘 일반화되는지 평가합니다. 폴드 간에 성능이 일관되면 매개변수가 잘 최적화되었을 수 있습니다. 그렇지 않은 경우 모델 매개변수가 이미 관찰한 훈련 데이터의 일부에 과적합되었을 수 있습니다. 더 다양한 데이터로 추가적으로 모델을 훈련시키면 일반화 성능이 향상될 수 있습니다.

또 다른 기법인 부트스트랩핑은 원본 데이터 세트에서 복원 추출로 무작위 샘플링해 새로운 데이터 세트를 만드는 통계적 방법입니다. 부트스트랩 샘플마다 약간씩 다르기 때문에 부트스트랩핑을 통해 여러 가지 매개변수 세트가 생성됩니다. 이렇게 생성된 부트스트랩 모델들 간의 편차를 확인하면 약간씩 다른 데이터로 훈련했을 때 매개변수가 얼마나 신뢰할 수 있는지 평가할 수 있습니다.

실무자는 정확도, 정밀도, 재현율 또는 평균 제곱 오차와 같은 모델 성능을 정량화하는 지표에도 의존합니다. 이러한 지표는 현재 매개변수가 모델 성능을 올바르게 개선하고 있는지에 대해 객관적인 피드백을 제공합니다.

생성형 AI + ML의 힘 활용하기

생성형 AI와 머신 러닝을 비즈니스에 자신 있게 통합하는 방법 알아보기