My IBM 로그인 구독하기

명령어 조정이란 무엇인가요?

2024년 4월 5일

작성자

Dave Bergmann

Senior Writer, AI Models

IBM

명령어 조정이란 무엇인가요?

명령어 조정은 명령어 프롬프트와 해당 아웃풋의 레이블이 지정된 데이터 세트를 기반으로 대규모 언어 모델(LLM)미세 조정하는 기술입니다. 특정 작업뿐만 아니라 일반적으로 명령어를 따를 때 모델 성능을 개선하여 사전 학습된 모델을 실제 사용에 맞게 조정하는 데 도움이 됩니다.

명령어 조정은 사전 학습된 파운데이션 모델을 다운스트림 작업에 적용하는 데 사용되는 광범위한 범주의 미세 조정 기술의 하위 집합입니다. 파운데이션 모델은 스타일 사용자 지정부터 사전 학습된 모델의 핵심 지식과 어휘 보완, 특정 사용 사례에 대한 성능 최적화에 이르기까지 다양한 목적에 맞게 미세 조정할 수 있습니다. 미세 조정은 특정 영역이나 인공 지능 모델 아키텍처에만 국한된 것은 아니지만 LLM 라이프사이클의 필수적인 부분이 되었습니다. 예를 들어 Meta의 Llama 2 모델 제품군은 기본 모델, 대화용으로 미세 조정된 변형(Llama-2-chat) 및 코딩용으로 미세 조정된 변형(Code Llama)으로 제공됩니다.(여러 크기로 제공)

명령어 조정은 다른 미세 조정 기술과 상호 배타적이지 않습니다. 예를 들어 채팅 모델은 도움말이나 정직성과 같은 추상적인 자질을 개선하기 위해 미세 조정 기법인 인간 피드백을 통한 강화 학습(RLHF)과 명령어 조정을 모두 거치는 경우가 많으며, 코딩을 위해 미세 조정된 모델은 (명령어 추종에 대한 응답을 광범위하게 최적화하기 위해) 명령어 조정과 (모델의 코드 구문 및 어휘 지식을 보강하기 위해) 프로그래밍 관련 데이터에 대한 추가 미세 조정을 모두 거칩니다.

LLM의 기원은 대규모 트랜스포머 모델자연어 처리(NLP) 작업에 도입한 2017년 논문 "Attention is All You Need"으로 거슬러 올라가지만, Google(2021년)1과 OpenAI(2022년)2의 영향력 있는 논문이 각각 주도한 명령어 조정과 RLHF가 통합되고,ChatGPT가 출시되면서 현재의 생성형 AI의 시대를 여는 최신 LLM이 탄생했습니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스 + 인사이트 


주간 Think 뉴스레터에서 AI, 클라우드 등에 대한 전문적으로 선별된 인사이트와 뉴스를 발견하세요. 

명령어 조정 LLM을 사용해야 하는 이유

대부분의 미세 조정 기술과 마찬가지로 명령어 조정의 유용성은 사전 학습된 LLM이 대화나 명령어 추종에 최적화되어 있지 않다는 사실에 있습니다. 말 그대로 LLM은 프롬프트에 답변하지 않고 텍스트를 추가할 뿐입니다. 명령어 조정은 추가된 텍스트를 더 유용하게 만드는 데 도움이 됩니다.

자동 회귀 언어 모델(Meta의 Llama 2, OpenAI의 GPT, Google의 Gemini 또는 IBM의 Granite와 같이 텍스트 생성에 사용되는 LLM)을 위한 사전 학습 프로세스는 이러한 LLM을 최적화하여 주어진 시퀀스에서 다음 단어가 완성될 때까지 간단히 예측합니다.

LLM은 방대한 서면 콘텐츠 말뭉치에 대한 자기 지도 학습을 사용하여 사전 학습됩니다. 사전 학습에서 자동 회귀 모델은 텍스트 샘플의 시작 부분을 제공받고 발췌문이 끝날 때까지 시퀀스의 다음 단어를 예측하는 작업을 반복적으로 수행합니다. 각 예측에 대해 원본 샘플 문장의 실제 다음 단어가 '근거 자료' 역할을 합니다. 신경망의 각 노드에서 발생하는 수학적 연산에 적용되는 다양한 가중치와 편향 등 모델 매개변수를 반복적으로 조정하여 모델의 예측을 원본 텍스트에 가깝게 만드는 경사 하강법과 같은 최적화 알고리즘을 통해 모델은 학습 데이터의 언어 패턴(그리고 더 나아가 이러한 언어 패턴에서 전달되는 '지식')을 '학습'하게 됩니다.

이러한 사전 학습 프로세스는 언어적으로 일관된 텍스트를 생성하는 인상적인 능력을 부여하지만, 모델 성능이 인간 사용자의 실질적인 요구에 맞춰지는 것은 아닙니다. 미세 조정 없이 없다면 기본 모델은 "빵을 어떻게 굽는지 가르쳐 주세요"라는 메시지에 "가정용 오븐에서"라고 응답할 수 있습니다. 문법적으로는 올바르지만 사용자가 원하는 응답은 아닙니다.

그렇지만 특정 목적(예: 명령어 추종)을 위해 LLM을 사전 학습시키는 것은 비현실적입니다. '대규모 언어 모델'의 ‘대규모’는 이러한 모델에 수십억 개의 매개변수가 있는 경우가 많다는 사실을 의미하며, 이러한 거대한 모델을 처음부터 학습시키려면 엄청난 양의 에너지, 시간, 계산 리소스 및 학습 데이터가 필요합니다. 반대로 이미 학습된 LLM을 미세 조정할 때는 훨씬 적은 데이터가 필요하며, 특히 부분 미세 조정이나 저순위 적응(LoRA)과 같은 매개변수 효율적인 미세 조정(PEFT) 방법을 사용할 때는계산 요구 사항의 일부만 필요합니다.

강화 학습, 준지도 학습 또는 추가적인 자기 지도 학습 등 거의 모든 머신 러닝 패러다임을 통해 미세 조정을 수행할 수 있지만, 명령어 조정에는 레이블이 지정된(입력, 아웃풋) 쌍에 대한 지도 학습이 수반됩니다. 명령어 조정이 다른 형태의 감독형 미세 조정(SFT)과 다른 점은 명령어 데이터 세트의 입력 샘플이 사용자가 프롬프트에서 요청할 수 있는 요청과 유사한 작업으로만 구성되며, 아웃풋은 이러한 요청에 대한 바람직한 응답을 보여준다는 점입니다. LLM의 아웃풋이 명령어 데이터 세트의 예시와 유사하도록 모델 가중치를 조정할 때 LLM은 빵 굽기에 대한 실제 조언이 포함된 텍스트를 추가하여 “빵 굽는 법을 가르쳐 주세요”와 같은 프롬프트에 응답하도록 '학습'합니다.

따라서 명령어 조정은 모델의 기본 목표인 다음 단어 예측과 모델이 명령어를 따라 특정 작업을 수행하도록 하는 사용자의 목표 사이의 간극을 메우는 데 도움이 됩니다. 이를 통해 모델 동작을 더 유용하고 예측 가능하게 만들 수 있습니다.

Mixture of Experts | 팟캐스트

AI 디코딩: 주간 뉴스 요약

세계적인 수준의 엔지니어, 연구원, 제품 리더 등으로 구성된 패널과 함께 불필요한 AI 잡음을 차단하고 실질적인 AI 최신 소식과 인사이트를 확인해 보세요.

명령어 조정의 작동 방식은 어떻게 되나요?

다양한 명령어 추종 작업의 레이블이 지정된 데이터 세트에서 LLM을 미세 조정하면 일반적으로 명령어를 따르는 능력이 향상되어 효과적인 프롬프트에 필요한 컨텍스트 내 정보의 양을 줄일 수 있습니다. 명령어 데이터 세트는 사람이 직접 만들거나 다른 LLM에서 생성할 수 있습니다.

Google Research의 영향력 있는 2022년 논문 “미세 조정 언어 모델은 제로샷 학습자”에 명시된 바와 같이, 명령어 조정의 목표는 LLM이 NLP 명령어에 응답하는 능력을 향상하는 것입니다. 이를 위해 명령어 조정은 '사전 학습-미세 조정과 프롬프트 패러다임의 매력적인 측면을 모두 결합'합니다. 본질적으로 프롬프트 엔지니어링의 원칙을 지도형 미세 조정에 유기적으로 통합함으로써 명령어 조정은 미세 조정된 모델에서 유용하고 정확한 응답을 도출하는 데 필요한 프롬프트 엔지니어링퓨샷 예시의 양을 줄입니다.1

명령어 데이터 세트의 각 학습 샘플은 세 가지 요소로 구성됩니다.

  • 명령어: 지정된 작업을 지정하는 자연어 텍스트 입력입니다. 예를 들어 '이 문장을 영어에서 스페인어로 번역하세요'라고 입력합니다.
  • 추가 정보: 선택 사항이며, 현재 작업과 관련된 컨텍스트를 제공하는 보충 정보입니다. 예를 들어 독해 작업에 대한 입력으로 간단한 구절이 포함될 수 있습니다(그런 다음 모델에게 이에 대한 주어진 질문에 답하도록 지시).
  • 원하는 아웃풋: 제공된 명령어와 컨텍스트에 따라 지정된 프롬프트에 대한 대상 아웃풋(응답)입니다. 이는 모델의 예측을 평가하고 최적화하기 위한 근거 자료로 사용됩니다.

Google 논문에서는 LaMDA-PT 모델의 명령어 조정 변형인 FLAN(Finetuned Language Net)이 번역, 질문-답변, 독해 및 자연어 추론( NLI )과 같이 명령어로 자연스럽게 표현되는 작업에서 가장 큰 개선을 보였다고 언급했습니다. 자연어 추론은 주어진 '가설'이 주어진 '전제'에서 논리적으로 이어지는지 판별하는 작업입니다.

이를 설명하기 위해 FLAN 논문은 Brown 등이 2020년에 오리지널 GPT-3 모델에 대해 발표한 연구 논문에서 한 관찰 결과를 언급합니다. 사전 학습된 LLM(추가 미세 조정 없음)이 NLI와 같은 작업에 어려움을 겪는 이유 중 하나는 일반적인 NLI 작업과 유사한 구절이 자체 감독 사전 학습에 사용된 레이블이 지정되지 않은 데이터 말뭉치에서 자연스럽게 발생할 가능성이 낮기 때문입니다.3 반대로, 궁극적으로 모델이 문장을 정확하게 완성해야 하는 상식적인 추론 작업과 같이 사전 학습의 간단한 언어 모델링 목표와 더 유사한 작업의 경우 명령어는 대부분 중복됩니다(따라서 명령어 조정으로 얻을 수 있는 이점이 적습니다).

이 논문에서 가장 중요한 점은 명령어 조정 데이터 세트에 추가 작업을 수행하면 명령어 데이터 세트에 나타나지 않았던 새로운 작업에서도 명령어 조정 모델의 성능이 향상된다는 사실을 입증했다는 것입니다. 여기에 명령어 조정의 근본적인 이점이 있습니다. 즉, 모델이 일반적으로 명령어를 따르는 능력의 전체적인 향상입니다.

명령어 조정과 멀티태스킹 미세 조정 비교

FLAN 논문에는 명령어 미세 조정의 명백한 이점이 명령어 자체 때문인지 아니면 단순히 여러 NLP 작업에서 모델을 미세 조정했기 때문인지를 탐구한 제거 연구도 포함되어 있습니다. 미세 조정에서 명령어의 역할을 조사하기 위해 제거 연구에서는 다음과 같은 세 가지 설정에서 기본 모델을 미세 조정했습니다.

  • 템플릿 없음: 모델에 입력만 아웃풋으로 주어졌습니다. 예를 들어 번역 작업의 입력은 '개가 달린다'이고 대상 아웃풋은 'le chien court'가 됩니다.
  • 데이터 세트 이름: 각 입력 앞에는 작업 및 데이터 세트의 이름이 붙습니다. 번역 예시에서 WMT 201424 데이터 세트 모음에서 가져온 입력은 "[번역: WMT 14를 프랑스어로] 개가 달립니다."가 됩니다.
  • FLAN 명령어: 입력은 명령어 조정 원칙을 따릅니다. 이 번역 예시의 경우 입력은 "다음 문장을 프랑스어로 번역해 주세요. '개가 달린다'"입니다.

그런 다음 제거 연구에서는 일련의 제로샷 명령어 추종 과제에서 미세 조정된 각 언어 모델의 결과를 측정했습니다. 명령어 조정 모델은 '템플릿 없음' 모델보다 18% 이상, '데이터 세트 이름' 모델보다 8% 이상 더 높은 정확도를 달성했습니다. 이는 명령어 자체에 대한 학습이 보이지 않는 작업에서 제로샷 성능을 향상하는 데 매우 중요하다는 점을 나타냅니다.

생각의 사슬(Chain-of-thought, CoT) 미세 조정

생각의 사슬(Chain-of-thought, CoT) 프롬프트는 LLM에게 질문에 대한 답변뿐만 아니라 답변에 도달한 방법에 대한 근거를 생성하도록 요청합니다. 이는 순차적 추론의 예시와 함께 퓨샷 프롬프트를 사용하거나 프롬프트 끝에 “단계별로 생각해 보세요”를 추가하는 방식으로 달성할 수 있습니다. 연구에 따르면 CoT 프롬프트는 다양한 산술, 기호 추론 및 기타 논리적 추론 작업에서 대규모 모델의 제로샷 기능을 크게 향상하는 것으로 나타났습니다.5 Wei, et al은 명령어 데이터 세트에 CoT 작업을 포함하지 않는 명령어 조정은 CoT 평가에서 모델 성능을 크게 저하시키지만 CoT 데이터 세트를 추가하면 모든 평가에서 성능이 향상된다는 사실을 발견했습니다.6

또한, 연구진은 퓨샷 예시가 있든 없든 CoT 과제에 대한 명령어 미세 조정이 제로샷 환경에서 모델의 CoT 추론 능력을 향상한다는 사실을 발견했습니다. 이러한 이점을 직관적으로 이해하면 단순히 언어적으로 일관성이 있어 보이는 답변을 찾는 것이 아니라 논리적인 단계로 문제를 해결하도록 세밀하게 조정함으로써 모델이 자신의 추론 능력을 더 잘 생성하고 적용하는 방법을 배운다는 것입니다.

명령 조정 데이터 세트

명령어 조정을 목적으로 하는 수많은 데이터 세트가 존재하며, 그 중 상당수는 오픈 소스입니다. 이러한 데이터 세트는 직접 작성(또는 수집)된 자연어(명령어, 아웃풋) 쌍으로 구성되거나, 템플릿을 사용하여 기존 주석이 달린 데이터 세트를 명령어로 변환하거나, 다른 LLM을 사용하여 예시를 생성할 수도 있습니다.

인간이 만든 데이터 세트

(명령어, 아웃풋)을 직접 작성하는 것은 간단하지만, 궁극적으로 상당한 시간과 비용이 수반되는 노동 집약적인 프로세스입니다. 일반적으로 템플릿을 적용하여 자연어 데이터 세트를 명령어로 변환하기 위해 다양한 방법이 제안되었습니다. 인간이 만든 여러 오픈 소스 데이터 세트가 공개 되면서 유기적 데이터에 대한 미세 조정 비용을 줄이는 데 도움이 되었습니다.

인간이 만든 대표적인 오픈 소스 명령어 데이터 세트는 다음과 같습니다.

  • Flan: 처음에 Google의 LaMDA-PT 모델을 미세 조정하는 데 사용되었습니다. 최초의 FLAN 모델이 탄생한 Flan 데이터 세트는 이후 여러 LLM을 미세 조정하는 데 사용되었습니다. Flan에서 미세 조정된 대표적인 모델로는 FLAN-T5, Flan-UL2 및 Flan-PaLM 540B(FLAN-T5-XXL이라고도 함)가 있습니다.
  • OpenAssistant: OpenAssistant Conversations는 어시스턴트 스타일의 대화 교환에 중점을 두고 사람이 직접 만든 다국어 대화 말뭉치입니다. 35개 언어로 된 66,497개의 대화 트리에서 추출한 91,829개의 사용자 프롬프트와 69,614개의 어시스턴트 응답으로 구성되어 있습니다.
  • Dolly: 사람이 생성한 15,000개의 대화 인스턴스로 구성된 영어 데이터 세트로, LLM이 ChatGPT와 유사한 대화 중심 패턴으로 사용자와 상호 작용할 수 있도록 설계되었습니다. 요약, 정보 추출, 브레인스토밍, 창의적 글쓰기, 분류, 질문 답변 등 다양한 작업과 인간 행동이 포함됩니다.

LLM 생성 데이터 세트

명령어와 대상 아웃풋을 수동으로 생성하는 데 필요한 막대한 비용과 노동력으로 인해 많은 명령어 데이터 세트는 대규모 LLM의 응답을 사용하여 프롬프트, 아웃풋 또는 둘 다 생성합니다. LLM 생성 데이터 세트를 사용하면 더 작은 모델이 더 큰 모델의 동작을 모방하도록 가르치는 효과가 있으며, 때로는 의도적인 교사/학습자 역학 관계에 따라 추가 효과를 얻을 수 있습니다.

  • Self-Instruct: GPT-3의 명령어 조정 버전인 InstructGPT를 사용하여 구성되었습니다. 작성자는 자연어 '시드 작업'을 제공하고 InstructGPT가 추가 예시를 생성하도록 유도하여 최종적으로 52,000개의 학습 명령어를 생성했습니다. 스탠퍼드 대학교 연구진은 수정된 Self-Instruct 방법을 사용하여 Alpaca(Llama 의 첫 번째 명령어 조정 변형)의 학습 데이터를 생성했습니다. 특히 Alpaca는 Self-Instruct 데이터 세트에서 InstructGPT의 벤치마크보다 약간 더 우수한 성과를 보였습니다.7
  • Evol-Instruct: 이름에서 알 수 있듯이 Evol-Instruct는 심층적이고 폭넓은 전략을 사용하여 명령어를 다시 작성하는 Self-Instruct 방법론의 진화를 제안합니다. 전자는 제약 조건 추가, 추론 단계 증가, 입력 복잡화 등의 방법을 통해 명령어를 발전시켜 명령어의 복잡성을 높입니다. 후자는 데이터 세트의 다양성과 주제 범위를 늘리기 위해 이전 명령어를 '변경'합니다. Evol-Instruct는 WizardLM의 연구 논문에서 소개되었으며, Evol-Instruct가 LLaMA를 미세 조정하는 데 어떻게 사용되었는지 자세히 설명합니다.8
  • ShareGPT: ShareGPT.com에는 사용자가 생성한 ChatGPT와의 교환 저장소가 포함되어 있습니다. LLaMA를 미세 조정한 Vicuna의 연구자들은 ShareGPT의 70,000개 대화 기록을 사용하고 여러 차례 대화가 이루어지는 상황에 맞게 선택 항목을 조정했습니다.9
  • OpenOrca: OpenOrca는 증강된 Flan Collection(ibm.com 외부 링크) 데이터의 모음입니다. 모방 학습을 통해 더 작은 LLM을 개선하기 위해 더 큰 모델의 사용을 최적화하는 데 명시적으로 초점을 맞춘 방법론을 탐구한 Microsoft의 Orca 학습에 사용된 데이터 세트를 복제하는 것을 목표로 합니다.10

LLM의 성능이 향상됨에 따라 LLM에서 생성된 명령어 조정 데이터 세트의 활용도도 비슷하게 증가했습니다. 2023년 발표된 논문에서는 Alpaca 미세 조정 패러다임을 재현했습니다. 이 패러다임은 InstructGPT에서 생성된 명령어에 대해 LLaMA를 미세 조정하는 동시에 GPT-4를 사용하여 명령어를 생성하는 프로세스를 병렬로 반복했습니다. 그 결과 LLaMA-GPT4라고 명명된 모델은 Alpaca의 '도움' 점수를 상당히 능가했으며 '도움', '정직' 및 '무해성' 측정에서 GPT-4 자체와 거의 일치하는 결과를 얻었습니다.11

명령어 조정의 과제와 한계

명령어 조정 기술이 LLM에서 중요한 발전을 이루었지만, 명령어 조정 데이터 세트를 다양화하고 그 이점을 완전히 규명하기 위한 작업은 여전히 남아 있습니다.

명령어 조정의 가장 큰 어려움은 미세 조정에 사용할 고품질 명령어를 생성하는 것입니다. 적절하게 큰 명령어 데이터 세트를 만드는 데 필요한 리소스는 소수의 오픈 소스 데이터 세트로 명령어를 중앙 집중화하여 모델 다양성을 감소시키는 효과를 가져올 수 있습니다. 명령어를 생성하는 데 대규모의 독점 LLM을 사용하면 비용은 절감할 수 있지만, 이는 오픈 소스 LLM 전반에 걸쳐 이러한 독점 LLM의 편향성과 단점을 강화할 수 있는 잠재적인 단점이 있습니다. 이러한 문제는 독점 모델이 인간 연구자의 내재적 편견을 피하고자 소규모 모델의 성능을 평가하기 위해 종종 사용된다는 사실로 인해 더욱 복잡해집니다.

기술적인 측면에서 일부 연구자는 더 큰 모델을 사용해 더 작은 모델을 개선하면 작은 모델이 큰 모델의 스타일을 모방하는 데 도움이 되지만 실제 기능은 향상되지 않을 수 있다는 우려를 제기했습니다. 2023년에 발표된 한 실증 연구에서는 명령어 조정을 통해 얻을 수 있는 인상적인 성능 향상 중 상당수가 논리적 추론의 진정한 개선보다는 피상적인 패턴 포착에 의한 것일 수 있음을 시사했습니다.12

마찬가지로, 다른 연구자들은 보고된 일부 개선 사항이 명령어 학습 데이터 세트의 성과와 너무 밀접하게 관련된 작업에 대한 명령어 조정 모델 성능 평가의 의존도에 어느 정도 의존할 수 있다고 가정했습니다. Gudibande 등은 이러한 방식으로 조정된 모델 명령어에 대한 더 표적화된 테스트를 통해 '오픈 소스 모델을 개선하기 위한 최고의 활용 조치는 독점 시스템을 모방하는 지름길을 택하는 대신 더 나은 기본 [언어 모델] 개발이라는 어려운 과제를 해결하는 것'이라고 결론지었습니다.13

관련 솔루션

관련 솔루션

IBM watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.

watsonx.ai 살펴보기 라이브 데모 예약하기
각주

참고: 모든 링크는 ibm.com 외부에 있습니다.
1
 'Finetuned Language Models Are Zero-Shot Learners', Google (via arXiv), 2021년 9월 3일(2022년 2월 8일 최종 수정).
2 'Aligning language models to follow instructions', OpenAI, 2022년 1월 27일.
3 'Language Models are Few-Shot Learners', arXiv, 2020년 7월 22일.
'WMT 2014', Papers With Code, 2014년 6월 27일.
5 'Language Models are Zero-Shot Reasoners', arXiv, 2022년 5월 24일(2023년 1월 29일 최종 수정).
6 'Scaling Instruction-Finetuned Language Models', Google(arXiv를 통해), 2022년 12월 6일.
7 'Alpaca: A Strong, Replicable Instruction-Following Model', Stanford Center for Research on Foundation Models, 2023년 3월 13일.
8 'WizardLM: Empowering Large Language Models to Follow Complex Instructions', arXiv, 2023년 6월 10일.
9 'Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality', LMSYS Org, 2023년 3월 30일.
10 'Orca: Progressive Learning from Complex Explanation Traces of GPT-4', Microsoft, 2023년 6월.
11 'Instruction Tuning with GPT-4', arXiv, 2023년 4월 6일.
12 'Do Models Really Learn to Follow Instructions? An Empirical Study of Instruction Tuning', arXiv, 2023년 5월 19일.
13 'The False Promise of Imitating Proprietary LLMs', arXiv, 2023년 5월 25일.