방향 자극 프롬프트(DSP)란 무엇인가요?

작성자

Shalini Harkar

Lead AI Advocate

방향 자극 프롬프트(DSP)란 무엇인가요?

방향 자극 프롬프트(DSP)는 새로운 자연어 처리(NLP) 프롬프트 방법론으로, 원하는 아웃풋을 생성하기 위해 모델에 지시 또는 구조화된 자극이 제공됩니다.

원샷, 제로샷 또는 퓨샷 프롬프트와 같은 표준 프롬프트와 달리 이 접근 방식은 기준을 설정하거나 지침을 제공하여 모델의 아웃풋을 직접 제어할 수 있다는 점에서 차별화됩니다. 이 접근 방식에서 가이드 자극은 특정 기준에 의해 정의된 선을 따라 모델의 생성 프로세스의 제어 메커니즘 역할을 합니다.

지시 자극 프롬프트(DSP)는 작업이 상황에 매우 민감하지만 여전히 레이블이 지정된 데이터가 없는 특정 응답 집합을 요구할 때 유용합니다.

예를 들어, 필수 정보를 유지하는 것이 중요한 요약 작업의 경우 DSP는 모델이 특정 방식으로 생성되도록 유도하는 가이드 자극을 제공합니다. 이를 통해 전반적으로 더욱 정확하고 상황에 맞는 요약이 생성됩니다.1

프롬프트 이상을 생각하고 전체 맥락 파악 

Think Newsletter를 통해 업계 뉴스, AI 툴, 프롬프트 엔지니어링 관련 최신 트렌드 소식을 받아보세요. 새로운 설명서, 튜토리얼, 전문가 인사이트도 이메일로 보내드립니다. IBM 개인정보 보호정책을 참고하세요.

감사합니다! 구독이 완료되었습니다.

방향 자극 프롬프트의 필요성

GPT-3, 4 및 PaLM과 같은 대규모 언어 모델(LLM)은 사용자가 매개변수, 조정 방법 또는 의사 결정 프로세스와 같은 내부에 액세스할 수 없기 때문에 일반적으로 "블랙 박스" 모델이라고 합니다.

이러한 상호 작용은 기본적으로 애플리케이션 프로그래밍 인터페이스(API) 호출을 주요 입력 및 출력 메커니즘으로 사용하는 텍스트 프롬프트를 통해 이루어집니다. 이러한 모델은 매우 우수하지만, 정확한 작업별 아웃풋을 생성하는 능력은 프롬프트 품질에 따라 크게 달라지는 경우가 많습니다.2, 3

따라서 모델 동작을 조정하기 위한 대상 프롬프트를 설계하기 위한 프롬프트 엔지니어링이 적합합니다. 프롬프트 엔지니어링을 위한 수동 및 자동 접근 방식 모두 주목할 만한 성공을 거두었습니다. 그러나 특히 강력한 제어나 많은 인스턴스별 아웃풋이 필요한 작업의 경우 단점이 없지 않습니다.

예를 들어, 요약이나 대화 생성과 같은 작업에서는 모델이 주요 세부 사항을 포함하거나 엄격한 추론 패턴 또는 규정된 문체 지침을 준수하는 등 대상 행동을 체계적으로 따라야 합니다. 기존의 기술은 이러한 미묘한 요구 사항을 일관되게 준수하기에 충분하지 않은 경우가 많습니다.

방향 자극 프롬프트(DSP)는 이러한 격차를 해소하기 위해 등장했습니다. DSP는 소규모 보조 정책 모델이며, LLM이 결정을 내리도록 안내하는 인스턴스별 방향 프롬프트를 생성합니다.

발행된 프롬프트는 각 인스턴스에 대한 특정 컨텍스트를 제공하며, LLM이 더욱 조율되고 바람직한 결과를 도출하도록 유도하는 것으로 간주됩니다. DSP를 프로세스에 연결함으로써 사용자는 블랙 박스 LLM의 동작을 수정하여 정밀도가 필요한 작업에서 일관성, 관련성 및 정확성을 높일 수 있는 강력한 도구를 갖게 됩니다.1

AI 아카데미

AI 전문가 되기

비즈니스 성장을 주도하는 AI 투자의 우선순위를 정할 수 있는 지식을 확보하세요. 지금 바로 무료 AI 아카데미를 시작하고 조직에서 AI의 미래를 주도하세요.

DSP의 작동 방식

감독된 미세 조정(SFT)을 통한 정책 모델 학습

정책 모델을 훈련하는 프로세스는 T5, GPT-2 또는 기타 적합한 LLM과 같은 사전 훈련된 모델에 대한 감독된 미세 조정(SFT)으로 시작됩니다. 핵심 아이디어는 LLM을 직접 수정하는 대신 방향 자극을 생성하는 학습 데이터에 대한 보다 소규모의 정책 모델을 미세 조정하는 것입니다.

이 프로세스는 더 소규모의 작업별 정책 모델을 미세 조정하면 크고 복잡한 모델을 직접 훈련하는 것과 관련된 문제와 계산 비용을 피할 수 있으므로 효율적입니다.

이 정책 모델을 학습하기 위해 레이블이 지정된 소규모 데이터 세트가 생성되며, 여기서 각 입력은 의사 자극과 쌍을 이룹니다. 이러한 의사 자극은 당면한 작업에 따라 LLM의 응답을 원하는 방향으로 안내하도록 설계되었습니다.

예를 들어, 요약 작업에서 의사 자극은 참조 요약에서 가져온 키워드 또는 구문으로 구성될 수 있습니다. 마찬가지로, 대화 생성 작업의 경우 요청, 질문 또는 진술과 같은 대화 행위를 의사 자극으로 사용할 수 있습니다.

이러한 자극은 정책 모델이 LLM의 출력을 대상 동작으로 효과적으로 유도하는 작업별 입력을 생성하는 데 사용하는 신호 역할을 합니다.

SFT에 사용되는 데이터 세트는 처음부터 대규모 LLM을 훈련하는 것이 아니라 자극을 생성하는 데 필요한 지식을 정책 언어 모델에 제공하는 데 초점을 맞추고 있기 때문에 상대적으로 작을 수 있습니다. 따라서 SFT는 작업별 요구 사항에 대한 기본 지식을 바탕으로 정책 모델을 부트스트래핑하는 리소스 효율적인 방법입니다.4

강화 학습(RL)을 통한 개선

SFT를 사용한 초기 미세 조정 후 강화 학습(RL)을 통해 정책 모델을 최적화합니다. RL을 사용하면 정책 모델이 더 높은 품질의 LLM 아웃풋으로 이어지는 자극을 생성하는 능력을 탐색하고 개선할 수 있습니다. 이 단계의 핵심 아이디어는 보상 함수를 사용하여 생성된 자극의 효과를 평가하는 것입니다.

예를 들어, 요약 작업에서 보상 함수는 참조할 비교에서 생성된 요약의 품질을 측정하는 ROUGE 또는 BLUE 점수와 같은 지표를 기반으로 할 수 있습니다. 

DSP는 LLM 대신 정책 모델을 직접 훈련하는 데 집중함으로써 블랙 박스 모델 미세 조정과 관련된 문제를 극복하여 보다 효율적이고 확장 가능한 방법을 제공합니다. 

그림 1: DSP 프레임워크의 아키텍처 

 

DAST의 장단점

방향 자극 프롬프트는 주목할 만한 장점과 몇 가지 과제가 공존하여 흥미롭지만 복잡한 기술입니다. 다음은 장점과 단점에 대해 자세히 알아보겠습니다.5

장점:

표적 어텐션 메커니즘: DSP의 표적 어텐션 메커니즘은 관련 토큰이나 정보를 강조하여 필수 구성 요소에 처리를 집중해서 정확성과 효율성을 향상시킵니다.

최적화된 리소스 사용: 방향 자극 프롬프트는 관련 자극에 집중함으로써 데이터 세트 요구 사항을 줄여 처리 시간을 단축하고 계산 비용을 낮춥니다.

향상된 정밀도: 방향 자극 프롬프트는 가장 관련성이 높은 입력 토큰을 분리하고 강조함으로써 언어 모델 응답 및 해석의 정확성을 높입니다.

적응성: 이 접근 방식은 텍스트 생성부터 감정 분석까지 다양한 언어 작업에 맞춤화할 수 있으며, 다양한 자연어 처리 응용 분야에서 고루 활용할 수 있습니다.

단점:

정확한 단서에 의존: 방향 자극 프롬프트의 성공은 정확한 자극에 크게 의존하며, 이는 복잡하거나 시끄러운 환경에서는 달성하기 어려울 수 있습니다. 상황이나 자극이 크게 변경되면 방법의 효율성이 감소하여 신뢰성이 떨어질 수 있습니다.

구성의 복잡성: 방향성 자극을 설정하려면 신중한 설계와 보정이 필요하므로 초기 구성 프로세스가 더 복잡해질 수 있습니다.

제한된 일반화: 다양한 신호 유형이나 예상치 못한 입력 변형에 걸쳐 일반화할 수 있는 능력이 제한되어 더 넓은 맥락에서의 적용 가능성이 제한됩니다.

사용 사례

지시 자극 프롬프트(DSP)는 다양한 NLP 작업에서 큰 잠재력을 보여주며 모델이 성능을 향상시키도록 효과적으로 지시합니다.

요약: DSP는 참조 요약과 더욱 일치하는 원하는 요약을 만드는 데 사용됩니다. CNN/Daily Mail 데이터 세트의 단 4,000개 샘플로 구성된 소규모 데이터 세트를 사용한 실험 결과에서 DSP는 ROUGE 및 BLEU와 같은 벤치마크 성능 또는 인간 선호도 점수를 포함한 기타 측정값을 4~13% 개선하여 일부 완전 지도 모델을 능가했습니다.6

대화 응답 생성: 작업 중심 대화 생성에서 DSP는 ChatGPT가 보다 정확하고 관련성 높은 응답을 생성할 수 있도록 지원했습니다. 예를 들어, DSP는 MultiWOZ 데이터 세트에서 단 80개의 대화만으로 대규모 데이터 세트에서 훈련된 여러 최첨단 모델(예: ChatGPT, Codex 및 InstructGPT)을 능가하여 41.4%의 성능 향상을 달성했습니다.7

생각의 연결고리 추론: DSP는 또한 인간이 설계하고 자동으로 생성된 작업별 프롬프트보다 성능이 뛰어난 인스턴스별 프롬프트를 생성하여 생각의 연결고리 추론을 향상시켜 추론 정확도를 높입니다. 이러한 예는 DSP가 어떻게 표적 지침을 제공하여 다양한 NLP 애플리케이션에서 모델 성능을 향상시킬 수 있는지 보여줍니다.8

관련 솔루션
IBM® watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai 살펴보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
인공 지능(AI) 컨설팅 및 서비스

IBM Consulting AI 서비스는 기업이 AI 활용 방식을 재구상하여 혁신을 달성하도록 지원합니다.

AI 서비스 살펴보기
다음 단계 안내

IBM Concert는 AI를 사용하여 운영에 관한 중요한 인사이트를 발견하고 개선을 위한 애플리케이션별 권장 사항을 제공합니다. Concert를 통해 비즈니스를 발전시키는 방법을 알아보세요.

Concert 살펴보기 비즈니스 프로세스 자동화 솔루션 살펴보기
각주

1 Zekun Li, Baolin Peng, Pengcheng He, Michel Galley, Xifeng Yan, jianfeng gao,(Microsoft, 2023년 2월 22일), Guiding Large Language Models via Directional Simulus Prompting, arXiv:2302.11520.
https://github.com/Leezekun/Directional-Stimulus-Prompting. 

2 Sun, T., et.al, Black-box tuning for language-model as-a-service. In International Conference on Machine Learning, pp. 20841–20855. PMLR, 2022년.

3 OpenAI. Gpt-4 기술 보고서, 2023년.

4 Wanwei He, et al., Galaxy: A generative pre-trained model for task-oriented dialog with semi-supervised learning and explicit policy injection. In Proceedings of the AAAI Conference on Artificial Intelligence, pp. 10749–10757, 2022년.

5 Fei Liu (2024년 10월 11일), A Systematic Survey on Large Language Models for Algorithm Design. arXiv: 2410.14716.

6 Goyal, T., Li, J. J., and Durrett, G. News summarization and evaluation in the era of GPT-3. arXiv preprint arXiv: 2209.12356, 2022년.

7 Khattab, O., Santhanam, K., Li, X. L., Hall, D., Liang, P., Potts, C., and Zaharia, M. Demonstrate-search-predict: Composing retrieval and language models for knowledge-intensive nlp. arXiv preprint arXiv: 2212.14024, 2022년.

8 Shi, W., Min, S., Yasunaga, M., Seo, M., James, R., Lewis, M., Zettlemoyer, L., and Yih, W.-t. Replug: Retrieval-augmented black-box language models. arXiv preprint arXiv: 2301.12652, 2023년.