업계 뉴스레터
전문가가 전하는 최신 AI 트렌드
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
매개변수 효율적인 미세 조정(PEFT)은 특정 작업 또는 데이터 세트에 대해 사전 훈련된 대규모 언어 모델(LLM)과 신경망의 성능을 개선하는 방법입니다. PEFT는 작은 매개변수 세트를 훈련시키고 대규모 사전 훈련된 모델의 구조를 대부분 유지함으로써 시간과 컴퓨팅 리소스를 절약합니다.
자연어 처리(NLP) 또는 이미지 분류와 같은 일반적인 작업에 대해 학습된 신경망을 이와 관련된 새로운 작업에 특화하기 위해 학습 과정을 처음부터 다시 거치지 않아도 됩니다. PEFT는 매번 처음부터 시작하지 않고도 고도로 전문화된 모델을 구축할 수 있는 리소스 효율적인 방법입니다.
PEFT는 사전 훈련된 모델 매개변수와 계층 대부분을 고정해두고 미리 결정된 다운스트림 작업의 최종 계층에 어댑터라고 하는 훈련 가능한 매개변수 몇 개를 추가하는 방식으로 작동합니다.
미세 조정된 모델은 훈련 중에 습득한 모든 학습 내용을 유지하면서 각각의 다운스트림 작업을 전문화합니다. 많은 PEFT 방법은 모델이 한 번에 많은 정보를 저장하지 않고도 학습할 수 있도록 도와주는 메모리 절약 기술인 그래디언트 체크포인트를 통해 효율성을 더욱 향상합니다.
업계 뉴스레터
가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.
구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.
매개변수 효율적인 미세 조정은 효율성과 성능의 균형을 유지하여 조직이 컴퓨팅 리소스를 최대화하면서 스토리지 비용을 최소화할 수 있도록 지원합니다. GPT-3, LLaMA 및 BERT와 같은 트랜스포머 기반 모델을 PEFT 방법으로 조정하면 모델이 사전 훈련 매개변수에 포함된 모든 지식을 사용하면서 미세 조정을 하지 않을 때보다 더 우수한 성능을 발휘할 수 있습니다.
PEFT는 한 작업에서 훈련된 모델을 이와 관련된 두 번째 작업에 적용하는 전이 학습에 자주 사용됩니다. 예를 들어, 이미지 분류를 훈련한 모델을 객체 감지에 사용될 수 있습니다. 기본 모델이 너무 커서 완전히 재교육하기 어렵거나 새 작업이 원래 작업과 다른 경우에 PEFT가 이상적인 솔루션이 될 수 있습니다.
기존의 완전 미세 조정 방법은 사전 훈련된 LLM의 모든 매개변수를 약간 조정하여 특정 작업에 맞게 조정합니다. 그러나 인공지능(AI)과 딥 러닝(DL)의 발전으로 모델이 더 크고 복잡해지면서, 미세 조정 프로세스가 컴퓨팅 리소스와 에너지를 너무 많이 소모하게 되었습니다.
또한 미세 조정된 각 모델은 원본과 동일한 크기를 가집니다. 결국 모든 모델이 상당한 양의 스토리지 공간을 차지하므로 이를 사용하는 조직의 비용이 더욱 증가합니다. 미세 조정을 통해 머신러닝(ML)의 효율성이 향상되기는 하지만, LLM 미세 조정 프로세스 자체가 비효율적입니다.
PEFT는 모델의 의도된 사용 사례와 가장 관련성이 높은 매개변수 몇 개를 조정하여 특화된 모델 성능을 제공하는 동시에 모델 가중치를 줄여 컴퓨팅 비용과 시간을 크게 절감합니다.
매개변수 효율적인 미세 조정은 다양한 이점을 제공하므로 업무에 LLM을 사용하는 조직에서 인기를 끌고 있습니다.
생성형 AI에 사용되는 대부분의 대규모 언어 모델은 Nvidia와 같은 제조업체에서 만든 고가의 그래픽 처리 장치(GPU)로 구동됩니다. 각 LLM은 컴퓨팅 리소스와 에너지를 상당히 많이 사용합니다. 가장 관련성이 높은 매개변수만 조정하면 에너지 및 클라우드 컴퓨팅 비용을 크게 줄일 수 있습니다.
가치 창출 시간은 LLM을 사용하는 조직이 이를 개발, 학습 및 배포하여 실제로 가치를 창출하기까지 걸리는 시간입니다. PEFT는 학습 가능한 몇 가지 매개변수만 조정하기 때문에 새로운 작업을 위해 모델을 업데이트하는 데 걸리는 시간이 훨씬 짧습니다. PEFT는 적은 시간과 비용으로 전체 미세 조정 프로세스에 뒤지지 않는 성능을 제공할 수 있습니다.
파괴적 망각이란 LLM이 새로운 사용 사례에 맞게 재훈련하거나 조정될 때 최초 훈련 과정에서 얻은 지식을 잃어버리거나 '망각'하는 것을 뜻합니다. PEFT는 대부분의 초기 매개변수를 보존하므로 파괴적 망각의 발생을 방지합니다.
과적합이란 모델이 학습 과정에서 해당 학습 데이터에 지나치게 적합한 상태가 되어 다른 컨텍스트에서 정확한 예측을 생성할 수 없게 되는 것을 말합니다. PEFT로 조정된 트랜스포머 모델은 대부분의 매개변수가 정적으로 유지되므로 과적합이 훨씬 적습니다.
PEFT는 몇 가지 매개변수에 집중하여 미세 조정 프로세스에 대한 학습 데이터 요구 사항을 낮춥니다. 전체 미세 조정에서는 미세 조정 프로세스 중에 모델의 모든 매개변수가 조정되기 때문에 훨씬 더 큰 학습 데이터 세트가 필요합니다.
PEFT가 없으면 전문 LLM을 개발하는 데 너무 많은 비용이 들기 떄문에 다수의 중소규모 조직에서는 감당하기 어렵습니다. PEFT를 활용하면 모델을 학습시키고 미세 조정할 시간 또는 리소스를 갖추지 못한 팀도 LLM을 사용할 수 있습니다.
PEFT를 사용하면 데이터 과학자 및 기타 전문가가 일반 LLM을 개별 사용 사례에 맞게 사용자 지정할 수 있습니다. AI 팀은 컴퓨팅, 에너지 및 스토리지 리소스를 소모하는 것에 대해 크게 걱정할 필요 없이 모델 최적화를 실험할 수 있습니다.
AI 팀은 각각 상대적인 장점과 전문성을 갖춘 여러 PEFT 기술과 알고리즘을 자유롭게 사용할 수 있습니다. Hugging Face 및 기타 수많은 GitHub 커뮤니티에서 가장 인기 있는 PEFT 도구 중 다수를 찾을 수 있습니다.
어댑터는 자연어 처리(NLP) 모델에 가장 먼저 적용된 PEFT 기술 중 하나입니다. 연구원들은 모델 가중치를 최소화하면서 여러 다운스트림 작업을 위해 모델을 훈련시켜야 하는 문제를 해결하기 위해 노력하고 있었습니다. 이에 대한 해답으로 등장한 어댑터 모듈은 모델의 각 트랜스포머 계층에 훈련 가능한 작업별 매개변수 몇 개를 삽입하는 작은 추가 기능입니다.
2021년에 도입된 대규모 언어 모델의 저순위 적응(LoRA)은 트윈 저순위 분해 행렬을 사용하여 모델 가중치를 최소화하고 훈련 가능한 매개변수의 하위 집합을 더 줄입니다.
QLoRA는 사전 학습된 각 매개변수의 가중치를 일반적인 32비트 가중치에서 단 4비트로 정량화 또는 표준화하는 LoRA의 확장 버전입니다. 따라서 QLoRA는 메모리를 상당히 절약하며, 단 하나의 GPU에서 LLM을 실행할 수 있습니다.
자연어 생성(NLG) 모델을 위해 특수 제작된 접두사 조정은, 모든 매개변수를 고정된 상태로 유지하면서 접두사라고 하는 작업 특이적 연속 벡터를 각 트랜스포머 계층에 추가합니다. 이렇게 하면 접두사 조정 모델은 완전히 미세 조정된 비슷한 성능의 모델보다 매개변수를 천 배 이상 적게 저장합니다.
프롬프트 튜닝은 입력 또는 학습 데이터에 맞춤형 프롬프트를 주입하여 프리픽스 튜닝을 간소화하고 모델을 학습시킵니다. 하드 프롬프트는 수동으로 생성되는 것이고, 소프트 프롬프트는 기본 모델에서 지식을 추출하여 AI가 생성한 숫자 문자열입니다. 소프트 프롬프트는 사람이 생성한 하드 프롬프트보다 뛰어난 성능을 보이는 것으로 드러났습니다.
P-튜닝은 자연어 이해(NLU) 작업을 위해 설계된 프롬프트 튜닝의 변형입니다. P-튜닝은 수동으로 생성한 프롬프트를 사용하는 대신 자동화된 프롬프트 훈련 및 생성을 도입하여 시간이 지남에 따라 더욱 영향력 있는 훈련 프롬프트를 생성합니다.
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.