태그

모델 튜닝이란 무엇인가요?

작성자

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

모델 튜닝이란 무엇인가요?

모델 튜닝은 최상의 학습 성능을 얻기 위해 머신 러닝 모델의 하이퍼파라미터를 최적화합니다. 이 프로세스에는 최적의 하이퍼파라미터 값 집합을 찾을 때까지 조정하는 과정이 포함되며, 이를 통해 정확도, 생성 품질 및 기타 성능 메트릭이 향상됩니다.

모델 튜닝은 모델의 최적 하이퍼 매개 변수를 식별하기 때문에 하이퍼파라미터 최적화 또는 하이퍼파라미터 튜닝이라고도 합니다.

하이퍼파라미터란 무엇인가요?

하이퍼파라미터는 학습 데이터에서 파생될 수 없는 모델 구성 변수입니다. 이러한 변수는 모델의 주요 기능과 동작을 결정합니다. 학습률과 같은 일부 하이퍼파라미터는 훈련 중 모델의 동작을 제어합니다. 신경망의 계층 수를 설정하는 하이퍼매개변수와 같이 모델 자체의 특성을 결정하는 것도 있습니다.

데이터 과학자는 학습을 시작하기 전에 머신 러닝(ML) 모델의 하이퍼파라미터 값을 구성해야 합니다. 성공적인 ML 모델 학습을 위해서는 사전에 올바른 하이퍼파라미터 조합을 선택하는 것이 필수적입니다.

하이퍼파라미터와 모델 매개변수 비교

모델 매개변수 또는 모델 가중치는 인공지능(AI) 모델이 학습 중에 발견하는 변수입니다. AI 알고리즘은 학습 데이터 세트의 기본 관계, 패턴 및 분포를 학습한 다음, 이러한 결과를 새로운 데이터에 적용하여 성공적인 예측을 수행합니다.

머신 러닝 알고리즘이 학습을 거치면서 매개변수를 설정하고 업데이트합니다. 이러한 매개변수는 모델이 학습 데이터 세트에서 학습하는 내용을 나타내며 시간이 지남에 따라 최적화 알고리즘이 반복되며 변경됩니다.

모델 튜닝이 중요한 이유는 무엇인가요?

하이퍼매개변수 값이 모델 성능에 직접적인 영향을 미치기 때문에 모델 튜닝은 중요합니다. 적절한 하이퍼파라미터 구성은 곧 모델 훈련 중 더 나은 학습으로 이어집니다.

적절한 튜닝이 없으면 모델은 과적합(학습 데이터에 너무 밀착되어 새로운 데이터 세트에 적응할 수 없음)에 취약해질 수 있습니다. 다른 단점으로는 과도한 모델 편향이나 분산이 있습니다.

각 머신 러닝 알고리즘에는 고유한 최적의 하이퍼파라미터 조합이 있으며, 일부는 다른 조합보다 성능에 더 많은 영향을 미칩니다. 모델 튜닝을 가장 영향력 있는 하이퍼파라미터의 핵심 세트로 제한하면 시간과 컴퓨팅 리소스 수요를 줄일 수 있습니다.

과적합

과적합은 모델이 학습 데이터에 비해 너무 복잡할 때 발생합니다. 하이퍼파라미터는 계층이 너무 많거나 학습 가능한 매개변수가 너무 많은 신경망을 생성합니다. 과적합이 존재하면 모델이 학습 데이터 세트에 너무 밀접하게 적응합니다. 과적합 모델은 학습 데이터를 일반화하는 데 실패했기 때문에 새로운 데이터에 적응할 수 없습니다.

교실에 두 명의 학생이 있다고 생각해보겠습니다. 한 학생은 사실을 암기를 통해 학습하고, 다른 학생은 배운 기본 개념을 이해함으로써 학습합니다. 지금까지 둘 다 교육 과정 자료를 다루는 테스트에서 좋은 결과를 얻었습니다. 하지만 학습한 내용을 새로운 주제에 적용해야 한다면 어떻게 될까요?

일반화할 수 있는 학생은 학습한 내용을 성공적으로 전달하는 반면, 기억에 의존하는 학생은 학습한 내용을 전달하는 데 어려움을 겪을 수 있습니다. 핵심 원리를 이해하지 못한 채 수업 내용의 세부 사항을 이해한 것에 너무 가깝게 '과도하게 적합'해진 것입니다.

편향

편향은 모델의 예측과 실제 실제 결과 사이의 격차입니다. 편향은 결함이 있는 학습 데이터 세트에서 비롯될 수 있지만, 최적화되지 않은 모델 튜닝으로 인해 발생하기도 합니다. 이 경우 훈련 데이터 세트가 실행 가능하더라도 모델이 잘 학습할 수 없습니다.

편향성이 높은 모델은 학습 데이터의 미묘한 부분을 무시하고 학습 중에 정확한 예측을 생성하지 못할 수 있습니다. 선형 회귀와 같이 더 단순한 알고리즘은 학습 데이터에서 더 복잡한 관계를 포착할 수 없기 때문에 편향성이 높을 가능성이 큽니다.

특정 작업에 적합한 알고리즘을 선택하는 것은 모델 튜닝을 시작하기 전에도 좋은 성능을 얻기 위한 첫 번째 단계입니다.

분산

분산은 반대로 모델 예측의 일관성을 나타냅니다. 분산이 크다는 것은 모델이 학습 데이터 세트에서는 잘 작동하지만, 보이지 않는 데이터에 대한 예측의 일관성이 떨어진다는 것을 의미합니다. 분산이 큰 모델은 과적합(학습 데이터에서 학습한 내용을 새 데이터로 이전할 수 없음) 문제를 겪습니다.

정규화는 편향-분산 비율을 더 큰 편향에 유리하게 이동시켜 과적합을 줄이는 기술입니다. 좋은 모델 튜닝은 편향과 분산 간의 균형을 관리하여 최적의 실제 예측을 달성합니다.

Mixture of Experts | 12월 12일, 에피소드 85

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

Mixture of Experts의 모든 에피소드 보기

모델 튜닝은 어떻게 이루어지나요?

모델 튜닝은 최상의 학습 결과를 가져오는 하이퍼파라미터의 구성을 발견하는 방식으로 작동합니다. 작고 간단한 모델을 구축하는 경우처럼 데이터 과학자가 하이퍼파라미터를 미리 수동으로 구성할 수 있는 경우도 있습니다. 그러나 트랜스포머 및 기타 복잡한 모델에는 수천 개의 하이퍼파라미터 조합이 있을 수 있습니다.

선택지가 너무 많기 때문에 데이터 과학자는 최적의 결과를 얻을 가능성이 가장 높은 잠재적 조합의 일부를 포함하도록 하이퍼파라미터 검색 공간을 제한할 수 있습니다. 또한 자동화된 방법을 사용하여 의도한 사용 사례에 맞는 최적의 하이퍼파라미터를 알고리즘적으로 검색할 수 있습니다.

모델 튜닝 방법

가장 일반적인 모델 튜닝 방법은 다음과 같습니다.

그리드(grid) 검색
무작위 검색
베이지안(Bayesian) 최적화
하이퍼밴드(Hyperband)

그리드(grid) 검색

그리드 검색은 '무차별 대입' 모델 튜닝 방법입니다. 데이터 과학자 가능한 모든 하이퍼파라미터 값으로 구성된 검색 공간을 만듭니다. 그런 다음 그리드 검색 알고리즘이 사용 가능한 모든 하이퍼파라미터 조합을 생성합니다. 모델은 각 하이퍼파라미터 조합에 대해 학습하고 검증한 후, 가장 성능이 좋은 모델을 선택해 사용합니다.

그리드 검색은 더 작은 하위 집합 대신, 가능한 모든 하이퍼파라미터 값을 테스트하기 때문에 포괄적인 튜닝 방법입니다. 이렇게 확장된 범위의 단점은 그리드 검색에 시간이 많이 걸리고 리소스가 많이 사용된다는 것입니다.

무작위 검색

무작위 검색 알고리즘은 가능한 모든 하이퍼파라미터 구성을 테스트하는 대신, 잠재적 옵션의 통계적 분포에서 하이퍼파라미터 값을 선택합니다. 데이터 과학자는 가장 가능성이 높은 하이퍼파라미터 값을 조합하여 알고리즘이 실행 가능한 옵션을 선택할 가능성을 높입니다.

무작위 검색은 그리드 검색보다 빠르고 쉽게 구현할 수 있습니다. 그러나 모든 조합이 테스트되지 않기 때문에 최상의 단일 하이퍼파라미터 구성을 찾을 수 있다는 보장은 없습니다.

베이지안(Bayesian) 최적화

베이지안 최적화는 그리드 및 무작위 검색과 달리, 이전 시도 결과를 기반으로 하이퍼파라미터 값을 선택합니다. 이 알고리즘은 이전 하이퍼파라미터 값의 테스트 결과를 사용하여 더 나은 결과를 가져올 가능성이 높은 값을 예측합니다.

베이지안 최적화는 목적 함수의 확률론적 모델을 구구축하는 방식으로 작동합니다. 이 대리 함수는 시간이 지날수록 결과가 개선됨에 따라 효율성이 높아집니다. 즉, 성능이 낮은 하이퍼파라미터 값에 리소스를 할당하지 않고도 최적의 구성에 집중할 수 있습니다.

이전 테스트 라운드를 기반으로 모델을 최적화하는 기술을 순차 모델 기반 최적화(SMBO)라고 합니다.

하이퍼밴드(Hyperband)

하이퍼밴드는 실행 가능성이 높은 하이퍼파라미터 구성에 집중하는 동시에 실행 가능성이 낮은 검색을 중단하여 무작위 검색 워크플로를 개선합니다. 하이퍼밴드 알고리즘은 테스트를 반복할 때마다 테스트된 모든 구성 중 성능이 가장 좋지 않은 절반을 제거합니다.

하이퍼밴드의 '연속 반감기' 접근 방식은 원래 후보 풀에서 가장 적합한 단일 구성이 발견될 때까지 가장 유망한 구성에 계속 집중합니다.

모델 튜닝과 모델 학습 비교

모델 튜닝이 최적의 하이퍼매개변수를 발견하는 과정이라면, 모델 트레이닝은 머신 러닝 알고리즘이 학습 데이터 세트에서 패턴을 식별하고 새로운 데이터를 정확하게 예측하도록 학습하는 과정입니다.

학습 과정에서는 최적화 알고리즘을 사용하여 모델의 예측과 실제 값 간의 격차를 측정하는 손실 함수, 즉 목적 함수를 최소화합니다. 목표는 목적 함수의 가능한 가장 낮은 값에 대한 모델 가중치와 편향의 최적 조합을 식별하는 것입니다. 최적화 알고리즘은 학습 중에 모델의 가중치를 주기적으로 업데이트합니다.

경사 하강법 계열의 최적화된 알고리즘은 손실 함수의 경사를 하강시켜 최소값을 찾는 방식으로 작동합니다. 최소값은 모델이 가장 정확한 지점입니다. 로컬 최소값은 지정된 지역의 최소값이지만 함수의 전역 최소값(절대 최저값)이 아닐 수도 있습니다.

손실 함수의 전역 최소값을 항상 식별할 필요는 없습니다. 모델은 손실 함수가 성공적으로 최소화되면 수렴에 도달한 것으로 간주합니다.

교차 검증, 테스트 및 재학습

모델은 학습 후 교차 검증을 거쳐 학습 데이터의 다른 부분으로 학습 결과를 확인합니다. 모델의 예측을 검증 데이터의 실제 값과 비교합니다. 그런 다음 성능이 가장 높은 모델은 테스트 단계로 이동하여 배포 전에 예측의 정확성을 다시 검사합니다. 교차 검증과 테스트는 대규모 언어 모델(LLM) 평가에 필수적입니다.

재학습은 시간이 지남에 따라 모델을 지속적이고 자율적으로 재학습하여 모델이 최상의 성능을 유지하도록 하는 MLOps(머신 러닝 운영) AI 라이프사이클의 일부입니다.

모델 튜닝과 미세 조정 비교

모델 튜닝은 학습에 가장 적합한 하이퍼파라미터 값을 식별하는 반면, 미세 조정은 특정 다운스트림 작업을 위해 사전 학습된 파운데이션 모델을 조정하는 프로세스입니다. 미세 조정은 전이 학습의 한 유형으로, 모델의 기존 학습을 새로운 작업에 적용하는 것입니다.

미세 조정을 통해 사전 학습된 모델은 모델의 의도된 사용 사례와 관련된 더 작은 데이터 세트에 대해 다시 훈련됩니다. 처음에 작은 데이터 세트에서 모델을 학습시키면 과적합의 위험이 있지만, 대규모의 일반화된 데이터 세트에서 학습하면 이러한 위험을 완화할 수 있습니다.

하이퍼파라미터 예시

모든 알고리즘에는 고유한 하이퍼파라미터 세트가 있지만, 유사한 알고리즘 간에 공유되는 하이퍼파라미터가 많습니다. 대규모 언어 모델(LLM)을 구동하는 신경망의 일반적인 하이퍼파라미터는 다음과 같습니다.

학습률
학습률 감소
에포크(Epoch)
일괄 처리 규모
모멘텀
숨겨진 계층 수
계층당 노드
활성화 기능

학습률

학습률은 모델이 훈련 중에 가중치를 업데이트하는 속도를 결정합니다. 학습률이 높다는 것은 모델이 더 빨리 학습하지만 손실 함수의 국소 최소값을 초과할 위험이 있다는 것을 의미합니다. 한편, 학습률이 낮으면 과도한 학습 시간이 발생하여 리소스와 비용 요구가 증가할 수 있습니다.

학습률 감소

학습률 감소는 시간이 지남에 따라 ML 알고리즘의 학습률을 느리게 하는 하이퍼파라미터입니다. 모델은 처음에는 파라미터를 더 빠르게 업데이트한 다음 수렴에 가까워질수록 더 큰 뉘앙스로 업데이트하여 오버슈팅의 위험을 줄입니다.

에포크(Epoch)

모델 학습에는 모델을 학습 데이터에 여러 번 노출하여 가중치를 반복적으로 업데이트하는 작업이 포함됩니다. 에포크는 모델이 전체 학습 데이터 세트를 처리할 때마다 발생하며, 에포크 하이퍼파라미터는 학습 프로세스를 구성하는 에포크 개수를 설정합니다.

일괄 처리 규모

머신 러닝 알고리즘은 최적화 알고리즘을 반복할 때마다 전체 학습 데이터 세트를 처리하지 않습니다. 대신, 학습 데이터는 배치로 분리되며, 각 배치 후에 모델 가중치가 업데이트됩니다. 배치 크기는 각 배치의 데이터 샘플 수를 결정합니다.

모멘텀

모멘텀은 이전 업데이트와 동일한 방향으로 가중치를 업데이트하는 ML 알고리즘의 성향입니다. 모멘텀은 학습에 대한 알고리즘의 확신이라고 생각하면 됩니다. 높은 모멘텀은 알고리즘이 더 빠른 수렴을 가능하게 하며, 이는 중요한 국소 최소값을 우회할 위험이 있습니다. 반면에 모멘텀이 낮으면 알고리즘이 업데이트로 인해 이리저리 바뀌면서 진행이 지연될 수 있습니다.

숨겨진 계층 수

신경망은 인간 두뇌의 구조를 모델링하며 상호 연결된 여러 계층의 뉴런 또는 노드로 구성되어 있습니다. 이러한 복잡성으로 인해 트랜스포머 모델과 같은 고급 모델이 복잡한 생성 작업을 처리할 수 있습니다. 계층 수가 적을수록 모델이 더 간결해지지만 계층 수가 많을수록 더 복잡한 작업을 수행할 수 있습니다.