명령어 조정은 사전 학습된 파운데이션 모델을 다운스트림 작업에 적용하는 데 사용되는 광범위한 범주의 미세 조정 기술의 하위 집합입니다. 파운데이션 모델은 스타일 사용자 지정부터 사전 학습된 모델의 핵심 지식과 어휘 보완, 특정 사용 사례에 대한 성능 최적화에 이르기까지 다양한 목적에 맞게 미세 조정할 수 있습니다. 미세 조정은 특정 영역이나 인공 지능 모델 아키텍처에만 국한된 것은 아니지만 LLM 라이프사이클의 필수적인 부분이 되었습니다. 예를 들어 Meta의 Llama 2 모델 제품군은 기본 모델, 대화용으로 미세 조정된 변형(Llama-2-chat) 및 코딩용으로 미세 조정된 변형(Code Llama)으로 제공됩니다.(여러 크기로 제공)
명령어 조정은 다른 미세 조정 기술과 상호 배타적이지 않습니다. 예를 들어 채팅 모델은 도움말이나 정직성과 같은 추상적인 자질을 개선하기 위해 미세 조정 기법인 인간 피드백을 통한 강화 학습(RLHF)과 명령어 조정을 모두 거치는 경우가 많으며, 코딩을 위해 미세 조정된 모델은 (명령어 추종에 대한 응답을 광범위하게 최적화하기 위해) 명령어 조정과 (모델의 코드 구문 및 어휘 지식을 보강하기 위해) 프로그래밍 관련 데이터에 대한 추가 미세 조정을 모두 거칩니다.
LLM의 기원은 대규모 트랜스포머 모델을 자연어 처리(NLP) 작업에 도입한 2017년 논문 "Attention is All You Need"으로 거슬러 올라가지만, Google(2021년)1과 OpenAI(2022년)2의 영향력 있는 논문이 각각 주도한 명령어 조정과 RLHF가 통합되고,—ChatGPT가 출시되면서 현재의 생성형 AI의 시대를 여는 최신 LLM이 탄생했습니다.
대부분의 미세 조정 기술과 마찬가지로 명령어 조정의 유용성은 사전 학습된 LLM이 대화나 명령어 추종에 최적화되어 있지 않다는 사실에 있습니다. 말 그대로 LLM은 프롬프트에 답변하지 않고 텍스트를 추가할 뿐입니다. 명령어 조정은 추가된 텍스트를 더 유용하게 만드는 데 도움이 됩니다.
자동 회귀 언어 모델(Meta의 Llama 2, OpenAI의 GPT, Google의 Gemini 또는 IBM의 Granite와 같이 텍스트 생성에 사용되는 LLM)을 위한 사전 학습 프로세스는 이러한 LLM을 최적화하여 주어진 시퀀스에서 다음 단어가 완성될 때까지 간단히 예측합니다.
LLM은 방대한 서면 콘텐츠 말뭉치에 대한 자기 지도 학습을 사용하여 사전 학습됩니다. 사전 학습에서 자동 회귀 모델은 텍스트 샘플의 시작 부분을 제공받고 발췌문이 끝날 때까지 시퀀스의 다음 단어를 예측하는 작업을 반복적으로 수행합니다. 각 예측에 대해 원본 샘플 문장의 실제 다음 단어가 '근거 자료' 역할을 합니다. 신경망의 각 노드에서 발생하는 수학적 연산에 적용되는 다양한 가중치와 편향 등 모델 매개변수를 반복적으로 조정하여 모델의 예측을 원본 텍스트에 가깝게 만드는 경사 하강법과 같은 최적화 알고리즘을 통해 모델은 학습 데이터의 언어 패턴(그리고 더 나아가 이러한 언어 패턴에서 전달되는 '지식')을 '학습'하게 됩니다.
이러한 사전 학습 프로세스는 언어적으로 일관된 텍스트를 생성하는 인상적인 능력을 부여하지만, 모델 성능이 인간 사용자의 실질적인 요구에 맞춰지는 것은 아닙니다. 미세 조정 없이 없다면 기본 모델은 "빵을 어떻게 굽는지 가르쳐 주세요"라는 메시지에 "가정용 오븐에서"라고 응답할 수 있습니다. 문법적으로는 올바르지만 사용자가 원하는 응답은 아닙니다.
그렇지만 특정 목적(예: 명령어 추종)을 위해 LLM을 사전 학습시키는 것은 비현실적입니다. '대규모 언어 모델'의 ‘대규모’는 이러한 모델에 수십억 개의 매개변수가 있는 경우가 많다는 사실을 의미하며, 이러한 거대한 모델을 처음부터 학습시키려면 엄청난 양의 에너지, 시간, 계산 리소스 및 학습 데이터가 필요합니다. 반대로 이미 학습된 LLM을 미세 조정할 때는 훨씬 적은 데이터가 필요하며, 특히 부분 미세 조정이나 저순위 적응(LoRA)과 같은 매개변수 효율적인 미세 조정(PEFT) 방법을 사용할 때는계산 요구 사항의 일부만 필요합니다.
강화 학습, 준지도 학습 또는 추가적인 자기 지도 학습 등 거의 모든 머신 러닝 패러다임을 통해 미세 조정을 수행할 수 있지만, 명령어 조정에는 레이블이 지정된(입력, 아웃풋) 쌍에 대한 지도 학습이 수반됩니다. 명령어 조정이 다른 형태의 감독형 미세 조정(SFT)과 다른 점은 명령어 데이터 세트의 입력 샘플이 사용자가 프롬프트에서 요청할 수 있는 요청과 유사한 작업으로만 구성되며, 아웃풋은 이러한 요청에 대한 바람직한 응답을 보여준다는 점입니다. LLM의 아웃풋이 명령어 데이터 세트의 예시와 유사하도록 모델 가중치를 조정할 때 LLM은 빵 굽기에 대한 실제 조언이 포함된 텍스트를 추가하여 “빵 굽는 법을 가르쳐 주세요”와 같은 프롬프트에 응답하도록 '학습'합니다.
따라서 명령어 조정은 모델의 기본 목표인 다음 단어 예측과 모델이 명령어를 따라 특정 작업을 수행하도록 하는 사용자의 목표 사이의 간극을 메우는 데 도움이 됩니다. 이를 통해 모델 동작을 더 유용하고 예측 가능하게 만들 수 있습니다.
다양한 명령어 추종 작업의 레이블이 지정된 데이터 세트에서 LLM을 미세 조정하면 일반적으로 명령어를 따르는 능력이 향상되어 효과적인 프롬프트에 필요한 컨텍스트 내 정보의 양을 줄일 수 있습니다. 명령어 데이터 세트는 사람이 직접 만들거나 다른 LLM에서 생성할 수 있습니다.
Google Research의 영향력 있는 2022년 논문 “미세 조정 언어 모델은 제로샷 학습자”에 명시된 바와 같이, 명령어 조정의 목표는 LLM이 NLP 명령어에 응답하는 능력을 향상하는 것입니다. 이를 위해 명령어 조정은 '사전 학습-미세 조정과 프롬프트 패러다임의 매력적인 측면을 모두 결합'합니다. 본질적으로 프롬프트 엔지니어링의 원칙을 지도형 미세 조정에 유기적으로 통합함으로써 명령어 조정은 미세 조정된 모델에서 유용하고 정확한 응답을 도출하는 데 필요한 프롬프트 엔지니어링 및 퓨샷 예시의 양을 줄입니다.1
명령어 데이터 세트의 각 학습 샘플은 세 가지 요소로 구성됩니다.
Google 논문에서는 LaMDA-PT 모델의 명령어 조정 변형인 FLAN(Finetuned Language Net)이 번역, 질문-답변, 독해 및 자연어 추론( NLI )과 같이 명령어로 자연스럽게 표현되는 작업에서 가장 큰 개선을 보였다고 언급했습니다. 자연어 추론은 주어진 '가설'이 주어진 '전제'에서 논리적으로 이어지는지 판별하는 작업입니다.
이를 설명하기 위해 FLAN 논문은 Brown 등이 2020년에 오리지널 GPT-3 모델에 대해 발표한 연구 논문에서 한 관찰 결과를 언급합니다. 사전 학습된 LLM(추가 미세 조정 없음)이 NLI와 같은 작업에 어려움을 겪는 이유 중 하나는 일반적인 NLI 작업과 유사한 구절이 자체 감독 사전 학습에 사용된 레이블이 지정되지 않은 데이터 말뭉치에서 자연스럽게 발생할 가능성이 낮기 때문입니다.3 반대로, 궁극적으로 모델이 문장을 정확하게 완성해야 하는 상식적인 추론 작업과 같이 사전 학습의 간단한 언어 모델링 목표와 더 유사한 작업의 경우 명령어는 대부분 중복됩니다(따라서 명령어 조정으로 얻을 수 있는 이점이 적습니다).
이 논문에서 가장 중요한 점은 명령어 조정 데이터 세트에 추가 작업을 수행하면 명령어 데이터 세트에 나타나지 않았던 새로운 작업에서도 명령어 조정 모델의 성능이 향상된다는 사실을 입증했다는 것입니다. 여기에 명령어 조정의 근본적인 이점이 있습니다. 즉, 모델이 일반적으로 명령어를 따르는 능력의 전체적인 향상입니다.
FLAN 논문에는 명령어 미세 조정의 명백한 이점이 명령어 자체 때문인지 아니면 단순히 여러 NLP 작업에서 모델을 미세 조정했기 때문인지를 탐구한 제거 연구도 포함되어 있습니다. 미세 조정에서 명령어의 역할을 조사하기 위해 제거 연구에서는 다음과 같은 세 가지 설정에서 기본 모델을 미세 조정했습니다.
그런 다음 제거 연구에서는 일련의 제로샷 명령어 추종 과제에서 미세 조정된 각 언어 모델의 결과를 측정했습니다. 명령어 조정 모델은 '템플릿 없음' 모델보다 18% 이상, '데이터 세트 이름' 모델보다 8% 이상 더 높은 정확도를 달성했습니다. 이는 명령어 자체에 대한 학습이 보이지 않는 작업에서 제로샷 성능을 향상하는 데 매우 중요하다는 점을 나타냅니다.
생각의 사슬(Chain-of-thought, CoT) 프롬프트는 LLM에게 질문에 대한 답변뿐만 아니라 답변에 도달한 방법에 대한 근거를 생성하도록 요청합니다. 이는 순차적 추론의 예시와 함께 퓨샷 프롬프트를 사용하거나 프롬프트 끝에 “단계별로 생각해 보세요”를 추가하는 방식으로 달성할 수 있습니다. 연구에 따르면 CoT 프롬프트는 다양한 산술, 기호 추론 및 기타 논리적 추론 작업에서 대규모 모델의 제로샷 기능을 크게 향상하는 것으로 나타났습니다.5 Wei, et al은 명령어 데이터 세트에 CoT 작업을 포함하지 않는 명령어 조정은 CoT 평가에서 모델 성능을 크게 저하시키지만 CoT 데이터 세트를 추가하면 모든 평가에서 성능이 향상된다는 사실을 발견했습니다.6
또한, 연구진은 퓨샷 예시가 있든 없든 CoT 과제에 대한 명령어 미세 조정이 제로샷 환경에서 모델의 CoT 추론 능력을 향상한다는 사실을 발견했습니다. 이러한 이점을 직관적으로 이해하면 단순히 언어적으로 일관성이 있어 보이는 답변을 찾는 것이 아니라 논리적인 단계로 문제를 해결하도록 세밀하게 조정함으로써 모델이 자신의 추론 능력을 더 잘 생성하고 적용하는 방법을 배운다는 것입니다.
명령어 조정을 목적으로 하는 수많은 데이터 세트가 존재하며, 그 중 상당수는 오픈 소스입니다. 이러한 데이터 세트는 직접 작성(또는 수집)된 자연어(명령어, 아웃풋) 쌍으로 구성되거나, 템플릿을 사용하여 기존 주석이 달린 데이터 세트를 명령어로 변환하거나, 다른 LLM을 사용하여 예시를 생성할 수도 있습니다.
쌍(명령어, 아웃풋)을 직접 작성하는 것은 간단하지만, 궁극적으로 상당한 시간과 비용이 수반되는 노동 집약적인 프로세스입니다. 일반적으로 템플릿을 적용하여 자연어 데이터 세트를 명령어로 변환하기 위해 다양한 방법이 제안되었습니다. 인간이 만든 여러 오픈 소스 데이터 세트가 공개 되면서 유기적 데이터에 대한 미세 조정 비용을 줄이는 데 도움이 되었습니다.
인간이 만든 대표적인 오픈 소스 명령어 데이터 세트는 다음과 같습니다.
명령어와 대상 아웃풋을 수동으로 생성하는 데 필요한 막대한 비용과 노동력으로 인해 많은 명령어 데이터 세트는 대규모 LLM의 응답을 사용하여 프롬프트, 아웃풋 또는 둘 다 생성합니다. LLM 생성 데이터 세트를 사용하면 더 작은 모델이 더 큰 모델의 동작을 모방하도록 가르치는 효과가 있으며, 때로는 의도적인 교사/학습자 역학 관계에 따라 추가 효과를 얻을 수 있습니다.
LLM의 성능이 향상됨에 따라 LLM에서 생성된 명령어 조정 데이터 세트의 활용도도 비슷하게 증가했습니다. 2023년 발표된 논문에서는 Alpaca 미세 조정 패러다임을 재현했습니다. 이 패러다임은 InstructGPT에서 생성된 명령어에 대해 LLaMA를 미세 조정하는 동시에 GPT-4를 사용하여 명령어를 생성하는 프로세스를 병렬로 반복했습니다. 그 결과 LLaMA-GPT4라고 명명된 모델은 Alpaca의 '도움' 점수를 상당히 능가했으며 '도움', '정직' 및 '무해성' 측정에서 GPT-4 자체와 거의 일치하는 결과를 얻었습니다.11
명령어 조정 기술이 LLM에서 중요한 발전을 이루었지만, 명령어 조정 데이터 세트를 다양화하고 그 이점을 완전히 규명하기 위한 작업은 여전히 남아 있습니다.
명령어 조정의 가장 큰 어려움은 미세 조정에 사용할 고품질 명령어를 생성하는 것입니다. 적절하게 큰 명령어 데이터 세트를 만드는 데 필요한 리소스는 소수의 오픈 소스 데이터 세트로 명령어를 중앙 집중화하여 모델 다양성을 감소시키는 효과를 가져올 수 있습니다. 명령어를 생성하는 데 대규모의 독점 LLM을 사용하면 비용은 절감할 수 있지만, 이는 오픈 소스 LLM 전반에 걸쳐 이러한 독점 LLM의 편향성과 단점을 강화할 수 있는 잠재적인 단점이 있습니다. 이러한 문제는 독점 모델이 인간 연구자의 내재적 편견을 피하고자 소규모 모델의 성능을 평가하기 위해 종종 사용된다는 사실로 인해 더욱 복잡해집니다.
기술적인 측면에서 일부 연구자는 더 큰 모델을 사용해 더 작은 모델을 개선하면 작은 모델이 큰 모델의 스타일을 모방하는 데 도움이 되지만 실제 기능은 향상되지 않을 수 있다는 우려를 제기했습니다. 2023년에 발표된 한 실증 연구에서는 명령어 조정을 통해 얻을 수 있는 인상적인 성능 향상 중 상당수가 논리적 추론의 진정한 개선보다는 피상적인 패턴 포착에 의한 것일 수 있음을 시사했습니다.12
마찬가지로, 다른 연구자들은 보고된 일부 개선 사항이 명령어 학습 데이터 세트의 성과와 너무 밀접하게 관련된 작업에 대한 명령어 조정 모델 성능 평가의 의존도에 어느 정도 의존할 수 있다고 가정했습니다. Gudibande 등은 이러한 방식으로 조정된 모델 명령어에 대한 더 표적화된 테스트를 통해 '오픈 소스 모델을 개선하기 위한 최고의 활용 조치는 독점 시스템을 모방하는 지름길을 택하는 대신 더 나은 기본 [언어 모델] 개발이라는 어려운 과제를 해결하는 것'이라고 결론지었습니다.13
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.
생성형 AI가 창출할 수 있는 가치와 AI가 요구하는 투자 및 그로 인한 위험에서 CEO가 균형을 맞출 수 있는 방법을 알아보세요.
실습, 강좌, 가이드 프로젝트, 평가판 등을 통해 기본 개념을 배우고 기술을 쌓으세요.
생성형 AI와 머신 러닝을 비즈니스에 자신 있게 통합하는 방법 알아보기
AI 투자에 대해 더 나은 수익을 얻고 싶으신가요? 주요 영역에서 차세대 AI를 확장하여 최고의 인재들이 혁신적인 새 솔루션을 구축하고 제공하도록 지원함으로써 변화를 주도하는 방법을 알아보세요.
참고: 모든 링크는 ibm.com 외부에 있습니다.
1 'Finetuned Language Models Are Zero-Shot Learners', Google (via arXiv), 2021년 9월 3일(2022년 2월 8일 최종 수정).
2 'Aligning language models to follow instructions', OpenAI, 2022년 1월 27일.
3 'Language Models are Few-Shot Learners', arXiv, 2020년 7월 22일.
4 'WMT 2014', Papers With Code, 2014년 6월 27일.
5 'Language Models are Zero-Shot Reasoners', arXiv, 2022년 5월 24일(2023년 1월 29일 최종 수정).
6 'Scaling Instruction-Finetuned Language Models', Google(arXiv를 통해), 2022년 12월 6일.
7 'Alpaca: A Strong, Replicable Instruction-Following Model', Stanford Center for Research on Foundation Models, 2023년 3월 13일.
8 'WizardLM: Empowering Large Language Models to Follow Complex Instructions', arXiv, 2023년 6월 10일.
9 'Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality', LMSYS Org, 2023년 3월 30일.
10 'Orca: Progressive Learning from Complex Explanation Traces of GPT-4', Microsoft, 2023년 6월.
11 'Instruction Tuning with GPT-4', arXiv, 2023년 4월 6일.
12 'Do Models Really Learn to Follow Instructions? An Empirical Study of Instruction Tuning', arXiv, 2023년 5월 19일.
13 'The False Promise of Imitating Proprietary LLMs', arXiv, 2023년 5월 25일.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com, openliberty.io