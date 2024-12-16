LLM은 확률 분포에 따라 다음 단어(그보다는 다음 토큰)를 예측하여 텍스트를 생성합니다. 각 토큰에는 LLM의 로짓(숫자 값)이 할당되고 총 토큰 세트는 '소프트맥스 확률 분포'로 정규화됩니다. 각 토큰에는 0과 1 사이에 존재하는 '소프트맥스 함수'가 할당되며 모든 토큰의 소프트맥스 확률의 합은 1입니다.

LLM 온도 매개변수는 이 분포를 수정합니다. 온도가 낮을수록 본질적으로 확률이 가장 높은 토큰이 선택될 가능성이 높아지며 온도가 높을수록 모델이 가능성이 낮은 토큰을 선택할 가능성이 높아집니다. 이는 온도 값이 높을수록 LLM의 토큰 선택에 더 많은 변동성이 발생하기 때문에 발생합니다. 다양한 온도 설정에 따라 본질적으로 생성형 AI 모델이 텍스트를 출력할 때 다양한 수준의 무작위성이 도입됩니다.

온도는 모델 성능의 무작위성을 제어하는 데 중요한 기능입니다. 이를 통해 사용자는 텍스트 생성의 다양한 실제 애플리케이션에 더 적합하도록 LLM 아웃풋을 조정할 수 있습니다. 보다 구체적으로, 이 LLM 설정을 통해 사용자는 특정 사용 사례에 대한 아웃풋을 생성할 때 일관성과 창의성의 균형을 맞출 수 있습니다. 예를 들어, 기술적 문서나 챗봇을 통한 대화형 응답과 같이 정밀도와 사실적 정확성이 필요한 작업의 경우 낮은 온도가 더 적합할 수 있습니다. 온도 값이 낮을수록 LLM이 보다 일관된 텍스트를 생성하고 관련 없는 응답을 방지하는 데 도움이 됩니다. 대조적으로, 창의적인 아웃풋이나 창의적 글쓰기나 개념 브레인스토밍과 같은 창의적인 작업에는 높은 온도가 선호됩니다. 온도 설정을 통해 사용자는 LLM을 효과적으로 미세 조정하고 모델의 아웃풋을 원하는 결과로 조정할 수 있습니다.

온도는 종종 '창의성'과 혼동되지만, 항상 그런 것은 아닙니다. 모델이 학습 데이터의 텍스트를 얼마나 광범위하게 사용하는지로 보는 것이 더 도움이 됩니다. Max Peeperkorn 외 다수1는 다양한 온도 값에 대한 LLM 아웃풋에 대한 실증적 분석을 수행하고 다음과 같이 썼습니다.

"우리는 온도가 참신함과 약한 상관관계가 있고, 당연히 일관성 없음과 중간 정도의 상관관계가 있지만 응집력이나 전형성과는 관계가 없다는 것을 발견했습니다. 그러나 창의성에 대한 온도의 영향은 '창의성 매개변수' 주장에서 제안하는 것보다 훨씬 더 미묘하고 약합니다. 전반적인 결과는 LLM이 온도가 높아질수록 약간 더 새로운 아웃풋을 생성한다는 것을 시사합니다."

온도 값이 높으면 모델 아웃풋이 더 창의적으로 보일 수 있지만 학습 데이터에 의해 결정되는 정도가 줄어드는 것으로 보는 것이 더 정확합니다.