Think 뉴스레터
프롬프트 이상을 생각하고 전체 맥락 파악
Think Newsletter를 통해 업계 뉴스, AI 툴, 프롬프트 엔지니어링 관련 최신 트렌드 소식을 받아보세요. 새로운 설명서, 튜토리얼, 전문가 인사이트도 이메일로 보내드립니다. IBM 개인정보 보호정책을 참고하세요.
제로샷 프롬프트는 대규모 언어 모델(LLM)의 사전 학습을 통해 적절한 응답을 추론하는 프롬프트 엔지니어링 방법입니다. 퓨샷 프롬프트와 같은 다른 프롬프트 엔지니어링 방법과 달리, 제로샷 기법으로 프롬프팅할 때 모델에는 아웃풋 예시가 제공되지 않습니다.1
파운데이션 모델의 약속 중 하나는 추가 훈련 데이터 없이 많은 사용 사례에 적용할 수 있다는 것입니다. 제로샷 프롬프트에서 모델은 사용 사례에 대해 원하는 아웃풋의 예시를 수신하지 않고 응답을 생성하도록 프롬프트를 표시합니다. 제로샷 프롬프트는 제로샷 러닝을 응용한 것으로, 제로샷 러닝은 모델에 학습 데이터가 전혀 없는 상태에서 예측을 요청하는 머신 러닝 패턴입니다.
아래 예에서 IBMGranite 시리즈의 granite-3-8b-instruct 모델은 분류 사용 사례에서 제로샷 프롬프트를 사용하여 프롬프트됩니다.2 이 경우 모델은 IT 문제를 "높음" 클래스 또는 "낮음" 클래스에 속하는 것으로 분류하여 문제의 긴급성을 나타냅니다. 이 예에서 모델은 프롬프트에 대한 분류 레이블 '높음'(굵은 아웃풋으로 표시)을 추론하며, 이는 이 컨텍스트에서 적절한 응답입니다.
참고: 프롬프트는 “Freeform” 모드를 사용하여 IBM watsonx.ai Prompt Lab에서 실행되었습니다.
설명된 문제의 클래스 이름을 높음, 중간 또는 낮음으로 설정하세요. 마지막 이슈의 클래스 이름만 예측하세요. 해당 클래스 이름을 선택한 이유에 대한 간단한 설명을 제공하세요.
클래스 이름: 높음
설명: 비즈니스 비용이 많이 들거나, 많은 사용자에게 영향을 미치거나, 또는 둘 다에 해당하는 문제입니다.
클래스 이름: 중간
설명: 높음과 낮음 사이 어딘가에 있는 문제입니다.
클래스 이름: 낮음
설명: 소수의 사용자에게 영향을 미치거나, 비즈니스 비용이 많이 들지 않거나, 또는 둘 다에 해당하는 문제입니다.
문제: 사용자가 파일을 업로드할 수 없다고 보고합니다.
등급: 높음
설명: 이 문제는 많은 사용자에게 영향을 미치고 소요되는 비즈니스 비용이 높기 때문에 높음으로 간주됩니다. 파일을 업로드할 수 없으면 사용자가 작업을 완료하지 못하여 지연과 생산성 저하가 발생할 수 있습니다. 또한 이 문제는 여러 부서나 팀에 영향을 미쳐 비즈니스 비용을 더욱 증가시킬 수 있습니다.
제로샷 프롬프트 전략은 모델에 새로운 문제를 태스크화할 때 기본 프롬프트 엔지니어링 전략인 경우가 많습니다.1 이 예시는 모델이 응답의 명시적인 예제 없이 적절한 추론을 생성하는 방법을 보여줍니다. 제로샷 프롬프트 시나리오는 새로운 문제를 해결하기 위해 사전 지식을 적용하는 인간의 학습을 모방합니다.3
모델에는 예시 프롬프트가 제공되지 않지만 작업을 완료하는 방법에 대한 세부 정보가 제공됩니다.1
명령: 먼저 모델에 제공된 지침은 "설명된 문제에 대한 클래스 이름 설정..."입니다.
컨텍스트: 다음으로, 모델의 컨텍스트에는 클래스 이름에 대한 설명이 포함됩니다.
입력 데이터: 모델이 "문제: 사용자가 파일을 업로드할 수 없다고 보고하고 있습니다."라는 프롬프트와 함께 분류 작업을 실행하기 위한 입력 데이터를 받습니다.
아웃풋 표시기: 선택적으로 모델은 아웃풋 표시기(이 경우 "Class:" 텍스트)를 수신할 수 있으며, 이 경우 모델이 문제의 클래스 이름으로 응답하도록 신호를 보냅니다. 아웃풋 지표는 특정 유형의 응답에 대해 어떤 유형의 아웃풋을 생성해야 하는지 모델에 알려줍니다.
이 프롬프트의 맞춤 형식은 당면한 분류 문제에 대한 것입니다. 다른 사용 사례에서는 프롬프트에 다른 형식이 필요할 수 있으며 동일한 지침, 컨텍스트, 입력 데이터 및 아웃풋 표시기 구성 요소를 포함하지 않을 수 있습니다.1 모델마다 프롬프트에 필요한 형식이 다를 수 있습니다. 특정 모델의 프롬프트 형식을 지정하는 방법에 관한 지침을 따라야 합니다. 이 예시에서는 모델의 사전 학습과 설명된 구성 요소를 사용하여 잘 만들어진 프롬프트의 결과로 모델이 이 작업에 대한 적절한 아웃풋으로 응답합니다.
제로샷 프롬프트와 달리 퓨샷 프롬프트는 작업에 대해 예상되는 입력 및 아웃풋의 예를 모델에 제공합니다.1 앞의 이미지는 제로샷 프롬프트와 퓨샷 프롬프트의 차이점을 보여주며, 원샷 프롬프트도 특별한 경우로 표시되어 있습니다.
동일한 IBM granite-3-8b-instruct 모델을 사용하여 이 작업에 대한 '이슈' 및 해당 '클래스'의 예가 제공됩니다.2제공된 입력 및 아웃풋의 세 가지 예는 퓨샷 프롬프트 전략을 보여줍니다. 이 프롬프트에 대한 응답으로 모델은 "Medium" 클래스(굵게 표시된 대로)에 대한 합리적인 예측을 수행합니다.
참고: 프롬프트는 'Freeform' 모드를 사용하여 IBM watsonx.ai Prompt Lab으로 실행되었습니다.
설명된 문제의 클래스 이름을 높음, 중간 또는 낮음으로 설정하세요. 문제와 해당 클래스 이름의 몇 가지 예시를 제공했습니다. 마지막 이슈의 클래스 이름만 예측하세요. 해당 클래스 이름을 선택한 이유에 대한 간단한 설명을 제공하세요.
클래스 이름: 높음
설명: 비즈니스 비용이 많이 들거나, 많은 사용자에 영향을 미치거나, 둘 다에 해당하는 문제입니다.
클래스 이름: 중간
설명: 높음과 낮음 사이 어딘가에 있는 문제입니다.
클래스 이름: 낮음
설명: 소수의 사용자에게 영향을 미치거나, 소요되는 비즈니스 비용이 높지 않거나, 둘 다에 해당하는 문제입니다.
문제: 신규 사용자가 계정을 만들 수 없다고 보고합니다.
등급: 높음
문제: 사용자가 앱의 분석 기능에서 레이블이 겹쳐서 렌더링된다고 보고합니다.
등급: 낮음
문제: 미국 사용자가 구매를 시도할 때 앱이 충돌한다고 보고합니다.
등급: 높음
문제: 사용자가 앱에서 이미지가 로드되지 않는다고 보고합니다.
클래스: 중간
설명: 앱에서 이미지가 로드되지 않는 문제는 사용자 경험에 영향을 미치고 불만을 유발할 수 있지만, 높은 비즈니스 비용이 소요되거나 많은 사용자에게 영향을 미치지는 않습니다. 따라서 중간 수준의 문제로 분류됩니다.
퓨샷 러닝 패러다임에서 파생된 전략인 퓨샷 프롬프트는 일반적으로 작업에서 제로샷 프롬프트보다 모델의 성능을 개선하는 데 사용됩니다.1 이 예시에서 AI 모델은 제로샷 시나리오와 퓨샷 시나리오 모두에서 유용한 추론을 생성합니다. 제로샷 프롬프트를 사용할지 또는 퓨샷 프롬프트를 사용할지 결정할 때는 문제의 제약 조건과 두 전략의 성능을 고려해야 합니다. Reynolds와 McDonell(2021년)은 프롬프트 구조가 개선되면 일부 시나리오에서 제로샷 프롬프트가 퓨샷 프롬프트보다 성능이 우수할 수 있다는 사실을 발견했습니다.4 Schulhoff 등(2024년)은 여러 프롬프트 전략의 성능을 비교하여 각기 다른 결과를 발견했습니다.5
장점
제한 사항
LLM을 위한 훈련 방법의 발전으로 다양한 사용 사례에서 제로샷 프롬프트에 대한 아웃풋이 향상되었습니다.7
Think 뉴스레터
Think Newsletter를 통해 업계 뉴스, AI 툴, 프롬프트 엔지니어링 관련 최신 트렌드 소식을 받아보세요. 새로운 설명서, 튜토리얼, 전문가 인사이트도 이메일로 보내드립니다. IBM 개인정보 보호정책을 참고하세요.
제로샷 프롬프트는 요청된 프롬프트에 적응하고 적절한 응답을 제공하기 위해 파운데이션 모델의 사전 학습된 지식과 유연성을 기반으로 합니다.1
제로샷 시나리오에서 대응을 개선하는 것은 연구자들의 초점입니다.1 제로샷 프롬프트 응답 정확도는 새로운 모델 학습 방법을 테스트하면서 모델 성능을 벤치마킹하는 데 자주 사용됩니다.7 제로샷 프롬프트 성능을 개선한 두 가지 개선 사항은 명령 조정과 인간 피드백을 통한 강화 학습(RLHF)입니다.8, 9
명령어 튜닝에서 모델은 다양한 작업에 대한 지침과 이러한 작업에 대한 결과를 포함하는 데이터 세트에서 지도 학습을 사용하여 미세 조정됩니다. 데이터 세트에는 텍스트 요약, 변환 및 독해와 같은 작업이 포함됩니다. 교육용 데이터 세트를 사용하여 미세 조정하는 이러한 전략은 이러한 범주의 새로운 작업에서 더 나은 제로샷 프롬프트 성능을 가져왔습니다.8
제로샷 프롬프트 결과를 개선하기 위해 미세 조정을 사용하는 또 다른 예로는 RLHF 미세 조정이 있습니다. 이는 강화 학습이 모델을 더 나은 아웃풋으로 안내하는 정책을 학습하는 방식입니다. 이 3단계 프로세스에서 모델은 먼저 인간이 대상 응답을 제공한 데이터 세트를 사용하여 미세 조정됩니다. 그런 다음 모델은 인간이 순위를 매긴 여러 프롬프트에 아웃풋을 투사합니다. 마지막으로, 순위가 매겨진 아웃풋은 이러한 인간이 제공한 순위를 기반으로 최상의 아웃풋을 선택하는 정책을 학습하는 강화 학습 모델을 학습하는 데 사용됩니다.12
마지막 단계에서는 행동(결정 또는 취한 경로)의 결과(보상 또는 처벌)를 사용하여 올바른 결정을 내리기 위한 전략(또는 정책)을 학습하는 강화 학습의 기능을 사용합니다. 이 경우 문제 공간은 모델이 응답으로 아웃풋을 선택하는 데 사용될 수 있는 모든 잠재적 전략입니다.9
자연어 처리(NLP)를 위한 기존의 지도 머신 러닝과 비교할 때 제로샷 프롬프트에는 레이블이 지정된 훈련 데이터가 필요하지 않습니다. 인공 지능 실무자와 데이터 과학자는 제로샷 프롬프트 시나리오에서 대규모 언어 모델의 생성형 AI 기술을 다음과 같은 다양한 사용 사례에 사용할 수 있습니다.10
텍스트 분류
IBM의 granite-3-8b-instruct 모델로 IT 문제의 우선순위를 분류하는 이전 예시에서 나타났듯이, 이 모델은 서로 다른 클래스에 속하는 이전 예시 없이도 분류를 달성할 수 있습니다. 이 능력은 레이블이 지정된 학습 데이터가 제한되거나 존재하지 않는 상황에 이상적입니다. 이 제로샷 분류 튜토리얼은 이 사용 사례의 구현을 보여줍니다.
정보 추출
텍스트 본문과 질문이 주어지면 LLM은 프롬프트에 따라 요청된 정보를 추출할 수 있습니다.
질문과 답변
사용자는 모델의 사전 학습된 지식을 사용하여 질문에 대한 응답을 요청할 수 있습니다.
텍스트 요약
텍스트와 텍스트 요약에 대한 지침이 주어지면 대규모 언어 모델은 다른 텍스트의 예제 요약 없이 제로샷 프롬프트 시나리오에서 이 작업을 실행할 수 있습니다.
생성
LLM은 지정된 사용 사례에 대해 텍스트, 코드, 이미지 등의 형태로 데이터를 생성합니다.
대화
일반적으로 LLM은 채팅용으로 조정된 모델(예: 잘 알려진 chat-GPT 시리즈)을 사용하여 채팅 모드에서 사용자와 상호 작용하여 이전의 여러 사용 사례를 수행할 수 있습니다.
다단계 추론 작업과 같은 복잡한 사용 사례의 경우, 제로샷 프롬프트와 퓨샷 프롬프트 모두 모델에서 적절한 응답을 생성하지 못할 수 있습니다. 이러한 경우에는 생각의 연결고리 및 생각의 나무를 포함한 고급 프롬프트 기술이 더 효과적일 수 있습니다.
생각의 연결고리: CoT(Chain-of-thought) 프롬프트는 더 큰 작업을 해결해야 할 일련의 개별 단계로 지정하여 모델에 작업을 제시하는 전략입니다. 이러한 중간 단계의 설명은 올바른 응답을 생성하는 모델의 능력을 향상시킵니다. CoT는 또한 중간 단계의 설명으로 인해 문제 해결 프로세스에 대한 투명성을 높일 수 있습니다. 이 프롬프트 엔지니어링 기술은 고객 서비스 챗봇 성능 개선, 연구자 및 작가의 생각 정리, 수학 및 과학 교육 문제에 대한 단계별 설명 생성 등의 영역에서 성공을 거두었습니다.11
생각의 나무: 생각의 나무(ToT) 프롬프트는 잠재적인 다음 단계와 문제에 대한 가능한 솔루션의 분기 텍스트 트리를 생성합니다. 이 트리 구조를 통해 모델은 여러 경로를 탐색하고 경로가 허용 가능한 솔루션으로 이어지지 않을 때 필요한 경우 역추적할 수 있습니다. 이는 해결책을 향한 잠재적 경로를 비교할 때 인간의 추론 전략을 근사화하도록 설계되었습니다. 해결책을 탐색하기 위한 일반적인 전략은 휴리스틱 검색 및 강화 학습 접근 방식과 함께 너비 우선 검색(BFS) 및 깊이 우선 검색(DFS)입니다. 연구원들은 이 애플리케이션을 사용하여 스도쿠 및 Game of 24와 같은 퍼즐을 풀었습니다.12, 13
1. E. Saravia. "Prompt Engineering Guide." https://github.com/dair-ai/Prompt-Engineering-Guide (2024년 10월 액세스).
2. "Granite 3.0 Language Models," IBM Research, Yorktown Heights, NY, 2024년 10월. https://github.com/ibm-granite/granite-3.0-language-models/blob/main/paper.pdf
3. B. Romera-Paredes, P. Torr, "An embarrassingly simple approach to zero-shot learning," in ICML, 2015년, pp. 2152–2161, https://proceedings.mlr.press/v37/romera-paredes15.pdf.
4. L. Reynolds, K. McDonell, "Prompt Programming for Large Language Models: Beyond the Few-Shot Paradigm", 2021년 2월, https://doi.org/10.48550/arXiv.2102.07350.
5. S. Schulhoff, M. Ilie, N. Balepur, K. Kahadze, A. Liu, C. Si, Y. Li, A. Gupta, H. Han, S. Schulhoff, P. S. Dulepet, S. Vidyadhara, D. Ki, S. Agrawal, C. Pham, G. Kroiz, F. Li, H. Tao, A. Srivastava et al. "The Prompt Report: A Systematic Survey of Prompting Techniques," 2024년 12월, https://doi.org/10.48550/arXiv.2406.06608.
6. Y. Li, Yinheng, "A Practical Survey on Zero-shot Prompt Design for In-context Learning," in RANLP, 2023년 7월, pp. 641‑647, https://acl-bg.org/proceedings/2023/RANLP%202023/pdf/2023.ranlp-1.69.pdf.
7. H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozi`ere, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave and G. Lample, “LLaMA: Open and efficient foundation language models,” 2023년 2월, https://doi.org/10.48550/arXiv.2302.13971.
8. J. Wei, M. Bosma, V. Y. Zhao, K. Guu, A. W. Yu, B. Lester, N. Du, A. M. Dai and Q. V. Le, "Finetuned Language Models are Zero-Shot Learners," in ICLR, 2022년, https://doi.org/10.48550/arXiv.2109.01652.
9. L. Ouyang, J. Wu, X. Jiang, D. Almeida, C. L. Wainwright, P. Mishkin, C. Zhang, S. Agarwal, K. Slama, A. Ray, J. Schulman, J. Hilton, F. Kelton, L. Miller, M. Simens, A. Askell, P. Welinder, P. Christiano, J. Leike, and R. Lowe, “Training language models to follow instructions with human feedback,” in NeurIPS, 2022년, https://proceedings.neurips.cc/paper_files/paper/2022/file/b1efde53be364a73914f58805a001731-Paper-Conference.pdf.
10. P. Liu, W. Yuan, J. Fu, Z. Jiang, H. Hayashi, and G. Neubig, “Pre-train, prompt and predict: A systematic survey of prompting methods in Natural Language Processing,” ACM Computing Surveys, vol. 55, no. 9, pp. 1–35, 2023년 1월, https://dl.acm.org/doi/pdf/10.1145/3560815.
11. J. Wei, X. Wang, D. Schuurmans, M. Bosma, B. Ichter, F. Xia, E. Chi, Q. Le, and D. Zhou, “Chain-of-thought prompting elicits reasoning in large language models,” 2023년 1월, https://doi.org/10.48550/arXiv.2201.11903.
12. J. Long, "Large Language Model Guided Tree-of-Thought," 2023년 5월, https://doi.org/10.48550/arXiv.2305.08291.
13. S. Yao, D. Yu, J. Zhao, I. Shafran, T. L. Griffiths, Y. Cao, and K. Narasimhan, "Tree of Thoughts: Deliberate Problem Solving with Large Language Models," 2023년 12월, https://doi.org/10.48550/arXiv.2305.10601.