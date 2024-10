명령어 조정은 사전 학습된 파운데이션 모델을 다운스트림 작업에 적용하는 데 사용되는 광범위한 범주의 미세 조정 기술의 하위 집합입니다. 파운데이션 모델은 스타일 사용자 지정부터 사전 학습된 모델의 핵심 지식과 어휘 보완, 특정 사용 사례에 대한 성능 최적화에 이르기까지 다양한 목적에 맞게 미세 조정할 수 있습니다. 미세 조정은 특정 영역이나 인공 지능 모델 아키텍처에만 국한된 것은 아니지만 LLM 라이프사이클의 필수적인 부분이 되었습니다. 예를 들어 Meta의 Llama 2 모델 제품군은 기본 모델, 대화용으로 미세 조정된 변형(Llama-2-chat) 및 코딩용으로 미세 조정된 변형(Code Llama)으로 제공됩니다.(여러 크기로 제공)

명령어 조정은 다른 미세 조정 기술과 상호 배타적이지 않습니다. 예를 들어 채팅 모델은 도움말이나 정직성과 같은 추상적인 자질을 개선하기 위해 미세 조정 기법인 인간 피드백을 통한 강화 학습(RLHF)과 명령어 조정을 모두 거치는 경우가 많으며, 코딩을 위해 미세 조정된 모델은 (명령어 추종에 대한 응답을 광범위하게 최적화하기 위해) 명령어 조정과 (모델의 코드 구문 및 어휘 지식을 보강하기 위해) 프로그래밍 관련 데이터에 대한 추가 미세 조정을 모두 거칩니다.

LLM의 기원은 대규모 트랜스포머 모델을 자연어 처리(NLP) 작업에 도입한 2017년 논문 "Attention is All You Need"으로 거슬러 올라가지만, Google(2021년)1과 OpenAI(2022년)2의 영향력 있는 논문이 각각 주도한 명령어 조정과 RLHF가 통합되고,—ChatGPT가 출시되면서 현재의 생성형 AI의 시대를 여는 최신 LLM이 탄생했습니다.