LLM 매개변수란 무엇인가요?

작성자

Staff writer

Staff Editor, AI Models

IBM Think

LLM 매개변수, 정의

LLM 매개변수는 대규모 언어 모델(LLM)의 아웃풋 및 동작을 제어하고 최적화하는 설정입니다. 학습 가능한 매개변수에는 가중치와 편향이 포함되며 대규모 언어 모델(LLM)이 학습 데이터 세트에서 학습할 때 구성됩니다. 하이퍼매개변수는 모델 외부에 위치하여 학습 프로세스를 안내하고 구조를 결정하며 아웃풋을 형성합니다.

업계 뉴스레터

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

LLM 매개변수 유형

LLM 매개변수는 다음과 같은 세 가지 주요 카테고리로 분류될 수 있습니다.

가중치

편향

하이퍼매개변수

가중치

가중치는 LLM이 특정 입력에 할당하는 중요도를 나타내는 숫자 값입니다. 응답을 생성할 때 인공 지능(AI) 모델에서 모든 입력이 동등하게 처리되는 것은 아닙니다. 입력의 가중치가 높을수록 모델의 아웃풋과 더 관련성이 높습니다.

가중치와 같은 학습 가능한 매개변수 설정은 학습 프로세스 중에 모델의 학습 알고리즘에 의해 구성됩니다. 학습 알고리즘은 모델의 매개변수를 최적화하여 오류를 최소화하려고 시도하는 손실 함수를 사용하여 머신 러닝(ML) 모델의 성능을 측정합니다.

신경망 내에서 가중치는 한 뉴런 계층에서 다음 뉴런 계층으로의 신호 강도를 결정하는 승수입니다. 신호가 네트워크를 통해 진행하려면 활성화 함수의 강도 임계값을 충족해야 합니다. 따라서 가중치는 네트워크가 계층을 통해 데이터를 전파하는 방식에 직접적인 영향을 미칩니다.

역전파(Backpropagation)는 가중치 값의 변경이 모델 성능에 미치는 영향을 계산하는 데 사용됩니다.

편향

가중치와 마찬가지로 편향도 AI 모델 학습 중에 자동으로 구성됩니다. 편향은 이전 계층의 신호 값에 추가되는 상수 값입니다. 모델은 편향을 사용하여 가중치만으로는 활성화 함수를 통과하기에 충분하지 않을 수 있는 조건에서 뉴런이 활성화되도록 합니다.

편향은 모델을 더 유연하게 만들 수 있습니다. 모델은 가중치가 부여된 입력이 활성화 임계값을 충족하지 않는 경우에도 데이터에서 학습할 수 있습니다. 가중치와 마찬가지로 편향도 학습 중에 역전파를 통해 조정되어 모델 성능을 최적화하고 오류를 최소화합니다.

LLM의 가중치와 편향이 결합되면 수십억 개의 매개변수가 있는 모델이 생성될 수 있습니다. 사전 학습된 LLM이 다운스트림 작업을 위해 추가로 학습되는 미세 조정 프로세스 중에 해당 가중치와 편향은 도메인별 학습 데이터로 조정됩니다.

하이퍼매개변수

하이퍼매개변수는 모델의 동작, 모양, 크기, 리소스 사용 및 기타 특성을 결정하는 외부 설정입니다. 하이퍼매개변수 조정 또는 모델 조정 프로세스에서는 알고리즘을 사용하여 성능 향상을 위한 하이퍼매개변수의 최적 조합을 찾아냅니다. 프롬프트 엔지니어링과 함께 하이퍼매개변수 조정은 주요 LLM 맞춤화 방법 중 하나입니다.

계층 수 및 숨겨진 계층의 차원과 같은 아키텍처 하이퍼매개변수는 모델의 크기와 모양을 구성합니다.

학습률 및 배치 크기와 같은 학습 하이퍼매개변수는 모델의 학습 프로세스를 안내합니다. 학습 하이퍼매개변수는 모델 성능과 모델이 필요한 벤치마크를 충족하는지 여부에 큰 영향을 미칩니다.

온도 및 top-p 샘플링과 같은 추론 하이퍼매개변수는 생성형 AI 모델이 아웃풋을 생성하는 방법을 결정합니다.

컨텍스트 창, 출력 시퀀스의 최대 토큰 수 및 중지 시퀀스와 같은 메모리 및 컴퓨팅 하이퍼매개변수는 모델 성능 및 기능과 리소스 요구 사항의 균형을 맞춥니다.

존재 페널티, 빈도 페널티와 같은 아웃풋 품질 하이퍼매개변수는 LLM이 비용을 제어하는 동시에 더욱 다양하고 흥미로운 아웃풋을 생성하는 데 도움이 됩니다.

AI 아카데미

파운데이션 모델이 AI 패러다임의 전환을 가져오는 이유

새로운 수익을 창출하고 비용을 절감하며 생산성을 높일 수 있는, 유연하고 재사용 가능한 새로운 AI 모델을 살펴봅니다. 그다음, 가이드북을 통해 보다 심층적으로 알아봅니다.

에피소드로 이동

주목할 만한 LLM 매개변수

GPT-4 및 GPT-3, Llama, Gemini 및 기타 트랜스포머 모델과 같은 복잡한 신경망과 같은 대규모 모델의 매개변수 수는 수십억 개에 달할 수 있습니다. 작은 모델은 매개변수가 적기 때문에 컴퓨팅 사용량이 적지만 복잡한 패턴과 관계를 식별하는 능력도 떨어집니다.

모든 매개변수는 모델이 만나는 실제 데이터를 이해하는 방법을 결정하는 데 도움이 됩니다. 그러나 모델의 아웃풋에 가장 직접적인 영향을 미치는 매개변수는 하이퍼매개변수입니다. 오픈 소스 모델의 한 가지 이점은 하이퍼매개변수 설정이 표시된다는 것입니다.

하이퍼매개변수 조정은 LLM 맞춤화의 중요한 요소로, 특정 작업에 맞게 모델을 조정하는 것입니다.

모델의 하이퍼매개변수 중 가장 중요한 것은 다음과 같습니다.

레이어 수

컨텍스트 창

온도

Top-p(핵 샘플링)

Top-k

토큰 수(최대 토큰)

학습률

빈도 페널티

존재 패널티

중지 시퀀스

레이어 수

신경망의 수는 모델 크기와 복잡성을 설정하는 데 중요한 하이퍼매개변수입니다. 신경망은 뉴런 또는 노드 레이어로 구성됩니다. 초기 입력 레이어와 최종 아웃풋 레이어 사이에 레이어가 많을수록 모델이 더 복잡해집니다.

하지만 복잡성이 항상 좋은 것은 아닙니다. 필요하지 않은 작업에 대해 너무 많은 레이어가 있는 모델은 과적합으로 인해 어려움을 겪고 컴퓨팅 리소스를 낭비할 수 있습니다. 한편, 레이어가 충분하지 않은 모델은 복잡한 데이터 세트의 패턴, 관계 및 분포를 파악하지 못합니다.

컨텍스트 창

컨텍스트 창 하이퍼매개변수는 오픈 소스 LLM Llama-2와 같은 트랜스포머 아키텍처에 구축된 모든 모델과 관련이 있습니다. 컨텍스트 창은 전체 입력 시퀀스에서 일관성을 유지하면서 모델이 처리할 수 있는 최대 토큰 수입니다.

컨텍스트 창은 또한 모델이 이전 콘텐츠를 놓치지 않고 유지할 수 있는 대화의 길이를 결정합니다. 컨텍스트 창이 클수록 정확도가 높아지고 할루시네이션이 줄어들며 더 큰 문서를 처리하거나 더 긴 대화를 할 수 있습니다.

그러나 컨텍스트 창이 크면 더 많은 수준의 컴퓨팅 리소스가 필요하며 응답 생성을 위한 처리 시간이 길어질 수 있습니다.

온도

LLM 온도 하이퍼매개변수는 무작위성 또는 창의성 다이얼과 유사합니다. 온도를 높이면 텍스트 생성 중에 모델의 아웃풋에 나타나는 다음 단어에 대한 확률 분포가 증가합니다.

온도 설정 1은 모델에 대한 표준 확률 분포를 사용합니다. 온도가 1보다 높으면 확률 분포가 평탄해져 모델이 더 넓은 범위의 토큰을 선택하도록 유도합니다. 반대로, 온도가 1보다 낮으면 확률 분포가 넓어져 모델이 가장 가능성이 높은 다음 토큰을 선택할 가능성이 높아집니다.

온도 값이 1.0에 가까우면(예: 0.8) LLM이 더 창의적으로 반응하지만 예측 가능성은 떨어질 수 있다는 것을 의미합니다. 한편, 온도가 0.2로 낮을수록 더 결정론적인 반응을 얻을 수 있습니다. 온도가 낮은 모델은 안정적인 경우 예측 가능한 아웃풋을 제공합니다. 2.0에 가까운 더 높은 온도는 무의미한 아웃풋을 생성하기 시작할 수 있습니다.

사용 사례는 LLM의 이상적인 온도 값을 알려줍니다. ChatGPT와 같이 재미있고 창의적으로 설계된 챗봇은 인간과 유사한 텍스트를 생성하기 위해 더 높은 온도가 필요합니다. 법률, 상황, 금융과 같이 규제가 엄격한 분야의 텍스트 요약 앱은 이와 반대이며, 이를 통해 생성된 텍스트 요약은 엄격한 요구 사항을 준수해야 합니다.

Top-p(핵 샘플링)

온도와 마찬가지로 Top-p 샘플링도 생성된 텍스트 아웃풋의 단어 다양성에 영향을 미칩니다. Top-p는 아웃풋 시퀀스의 다음 토큰에 대한 확률 임계값 p를 설정하는 방식으로 작동합니다. 모델은 확률 한도 내에서 토큰을 사용하여 응답을 생성할 수 있습니다.

Top-p 샘플링을 사용하면 토큰은 확률 순으로 순위가 매겨집니다. 시퀀스에서 다음에 나타날 가능성이 더 높은 토큰은 점수가 더 높으며, 가능성이 낮은 토큰의 경우 그 반대입니다. 이 모델은 누적 p 점수가 설정된 임계값에 도달할 때까지 잠재적인 다음 토큰 그룹을 구성한 다음 해당 그룹에서 토큰을 무작위로 선택합니다.

p 임계값이 높을수록 아웃풋이 더 다양해지는 반면, 임계값이 낮을수록 정확도와 일관성이 유지됩니다.

온도와 Top-p 샘플링 비교

온도와 Top-p 샘플링의 차이점은 온도가 잠재적 토큰의 확률 분포를 조정하는 반면, Top-p 샘플링은 토큰 선택을 유한한 그룹으로 제한한다는 것입니다.

Top-k

Top-k 하이퍼매개변수는 또 다른 다양성에 초점을 맞춘 설정입니다. k 값은 시퀀스에서 다음으로 간주될 수 있는 항 수에 대한 제한을 설정합니다. 항은 확률에 따라 정렬되며 상위 k 항이 후보로 선택됩니다.

Top-p와 Top-k 비교

Top-p는 토큰 풀을 설정된 p 확률 합계로 제한하는 반면, Top-k는 풀을 가장 가능성이 높은 상위 k 조건으로 제한합니다.

토큰 수(최대 토큰)

토큰 수 또는 최대 토큰 하이퍼매개변수는 아웃풋 토큰 길이의 상한을 설정합니다. 토큰 번호 값이 작을수록 챗봇 대화 및 요약과 같은 빠른 작업, 즉 LLM뿐만 아니라 소규모 언어 모델로도 처리할 수 있는 작업에 이상적입니다.

토큰 번호 값이 높을수록 바이브 코딩에 LLM을 사용하려는 경우와 같이 더 긴 아웃풋이 필요한 경우에 더 좋습니다.

학습률

학습률은 학습과 미세 조정 중에 모델이 가중치와 편향을 조정하는 속도에 영향을 미치는 중요한 하이퍼매개변수입니다. 이러한 프로세스에서는 경사 하강법으로 알려진 학습 알고리즘을 사용하는 경우가 많습니다.

경사 하강법 알고리즘은 모델 예측의 오차를 측정하는 손실 함수를 최소화하려고 시도합니다. 학습을 반복할 때마다 알고리즘은 다음 데이터 배치의 성능을 이상적으로 개선하기 위해 모델의 가중치를 업데이트합니다.

학습률은 가중치가 업데이트되는 정도를 제어합니다. 학습률이 높을수록 더 큰 증가로 이어져 학습 속도가 빨라지지만 극소값을 초과할 위험이 있습니다. 학습률이 낮을수록 더 섬세한 조정이 이루어지지만 최소값에 도달하려면 더 많은 반복이 필요하며 심지어 정체될 수도 있습니다.

학습률을 관리하는 효과적인 방법 중 하나는 더 높은 값으로 학습을 시작하고 모델이 손실 함수의 극소값에 가까워질수록 학습률을 낮추는 것입니다.

빈도 페널티

빈도 페널티 하이퍼매개변수는 모델이 동일한 아웃풋 내에서 항을 과도하게 사용하는 것을 방지하는 데 도움이 됩니다. 아웃풋에 항이 나타나면 빈도 페널티가 적용되어 모델이 해당 행을 나중에 다시 사용하지 못하게 합니다.

모델은 로짓이라고 하는 각 토큰에 점수를 할당하고 로짓을 사용하여 확률 값을 계산합니다. 빈도 페널티는 항이 반복될 때마다 항의 로짓 값을 선형적으로 낮추어 다음에 선택될 가능성을 점진적으로 낮춥니다. 빈도 페널티 값이 높을수록 적용당 로짓이 더 많이 낮아집니다.

모델은 반복되는 항을 사용하지 않기 때문에 대신 다른 항을 선택해야 하므로 생성된 텍스트에서 더 다양한 단어 선택이 가능합니다.

반복 페널티

반복 페널티는 빈도 페널티와 유사하지만, 선형이 아닌 기하급수적이라는 점이 다릅니다. 반복 페널티는 항이 재사용될 때마다 항의 로짓을 기하급수적으로 낮추므로 빈도 페널티보다 더 강한 억제 효과가 있습니다. 따라서 반복 페널티 값을 낮게 설정하는 것이 좋습니다.

존재 패널티

존재 페널티는 한 번만 적용된다는 점을 제외하고는 빈도 페널티와 유사하게 작동하는 관련 하이퍼매개변수입니다. 존재 페널티는 항이 아웃풋에 얼마나 자주 존재하는지에 관계없이 적어도 한 번 이상 나타나기만 하면 해당 항의 로짓 값을 동일한 양만큼 낮춥니다.

아웃풋에 곰이라는 항이 10번 등장하고 여우라는 항이 한 번 등장하면 곰이 여우보다 더 높은 빈도 페널티를 받습니다. 하지만 곰과 여우는 둘 다 동일한 존재 페널티를 공유합니다.

중지 시퀀스

정지 시퀀스는 사전 설정된 토큰 문자열로, 토큰이 나타날 때 모델이 아웃풋 시퀀스를 종료하도록 합니다. 예를 들어 모델이 한 번에 단일 문장을 아웃풋하도록 설계된 경우 중지 시퀀스는 마침표일 수 있습니다.

중지 시퀀스는 모델이 중지 지점까지 아웃풋을 생성하는 방식에 영향을 주지 않고 응답 간결성을 유지합니다. 중지 시퀀스는 모델 응답을 자르기 때문에 API를 통해 LLM에 연결할 때 토큰 비용을 절약하는 데도 도움이 됩니다.

LLM 매개변수 최적화

모델의 학습 가능한 내부 매개변수(가중치 및 편향)를 최적화하는 것은 강력한 성능을 위해 필수적입니다. 모델에 최적의 하이퍼매개변수가 장착되면 설계자는 내부 LLM 매개변수를 형성하는 데 도움이 되는 다양한 방법을 원하는 대로 사용할 수 있습니다.

미세 조정은 특정 작업에 대한 모델의 가중치와 편향을 조정합니다. 매개변수 효율적인 미세 조정(PEFT)은 대부분의 매개변수를 고정하고 작은 관련 하위 집합을 변경합니다.

전이 학습은 모델의 사전 지식을 사용하여 새로운 작업의 성능을 향상시키는 데 중점을 둔 광범위한 모델 최적화 방식입니다.

양자화는 모델 내부의 모든 수학을 단순화하여 동일한 데이터를 나타내면서 더 작고 효율적으로 만듭니다.

조기 중지는 눈에 띄는 성능 향상이 없을 때 학습 과정을 중단하여 과적합을 방지합니다.

적절한 파운데이션 모델을 선택하는 방법

데이터 세트를 준비하고 파운데이션 모델을 사용할 때 올바른 접근 방식을 선택하는 방법을 살펴보세요.