보고서 요약, 쿼리 답변 또는 문서 번역과 같은 복잡한 작업에 사용할 AI 모델을 배포하는 데는 심각한 어려움이 따르곤 합니다. 이러한 모델을 사용하려면 일반적으로 주석이 달린 대규모 데이터 세트와 비용이 많이 드는 미세 조정 프로세스를 통한 광범위한 재교육이 필요합니다. 새로운 작업 각각이 복잡성을 가중시키고, 혁신을 늦추고, 비용을 증가시키고, 다양한 사용 사례에서 AI의 확장성을 제한합니다.
이제 다른 접근 방식을 상상해 봅시다. AI 모델이 재교육이나 추가 데이터 없이도 새로운 작업에 즉시 적응할 수 있다면 어떨까요? 이것이 바로 AI 모델이 프롬프트에서 예제를 제공하여 동적으로 작업을 학습할 수 있도록 하는 맥락 내 학습(ICL)의 잠재력입니다. 이는 기존 기계 학습(ML)의 병목 현상이 생기지 않고, 더 빠르면서 적응력이 뛰어나고, 비용 효율적인 솔루션입니다.
맥락 내 학습(ICL)은 GPT-3를 공개한 중요한 연구 논문 'Language Models are Few-Shot Learners'에 소개된 고급 AI 기능입니다.1 모델이 역전파를 통해 훈련을 받아 매개변수를 변경하는 지도 학습과 달리 ICL은 사전 훈련된 언어 모델에 전적으로 의존하고 매개변수를 변경하지 않습니다.
AI 모델은 프롬프트를 임시 가이드로 사용하여 작업을 추론하고 아웃풋을 생성합니다. ICL은 인풋/아웃풋 쌍이라고도 하는 프롬프트에서 예제 간의 관계를 인식하고 새 입력에 동일한 매핑을 적용하는 방식으로 작동합니다. 이는 인간의 추론 방식을 모방해, 이전 경험에서 비유를 통해 새로운 문제를 해결하는 방식입니다. 사전 훈련 중에 학습한 패턴과 지식을 활용하고 새로운 작업에 동적으로 적응하기 때문에 매우 유연하고 효율적입니다.
기본적으로 맥락 내 학습은, 보통 자연어로 작성되는 일련의 예제(인풋/아웃풋 쌍 또는 맥락 내 예제)를 인풋 시퀀스 안에 포함하는 프롬프트에서 대규모 언어 모델(LLM)을 컨디셔닝하는 방식으로 작동합니다. 이러한 예제는 데이터 세트에서 도출되곤 하며, 모델을 다시 학습시키는 데 사용되지 않고 컨텍스트 창에 직접 제공됩니다. 이 창은 LLM이 한 번에 처리할 수 있는 텍스트 양을 보여주며, 순차적 입력을 처리하는 모델의 일부로서 일관된 응답을 생성하기 위한 임시 메모리 역할을 합니다.
공식적으로, 프롬프트를 인풋/아웃풋 쌍 형태의 예제 k개로 구성한다고 가정해 봅시다.
C={(x1 ,y1 ),(x2 ,y2 ),...,(xk ,yk )}
새 인풋 x와 후보 아웃풋 공간 Y={y1,...,ym}가 주어지면 모델은 다음 프롬프트를 조건으로 나올 수 있는 아웃풋 각각의 확률을 계산합니다.
P(yj ∣ x,C)
확률이 가장 높은 옵션을 선택해서 예측을 결정합니다.
이 과정에서 모델은 가중치를 업데이트하지 않는 대신, 딥 러닝 트랜스포머 아키텍처를 활용해서 현재 프롬프트의 예제만 사용하여 패턴을 동적으로 학습합니다.
이 메서드의 실제 사용 방식을 보려면 감정 분류 작업을 생각해 보세요. 이런 프롬프트가 나올 수 있습니다.
후기: 영화가 환상적이었습니다 → 감정: 긍정적
후기: 줄거리가 마음에 들지 않았습니다 → 감정: 부정적
후기: 음악이 즐거웠습니다 → 감정:
모델은 '긍정적'을 예측하여 마지막 줄을 완성하고 이전 인풋-레이블 매핑에서 관찰된 구조를 이어갑니다. 이 예제는 모델이 작업을 추론하고 몇 가지 예제를 기반으로 적절한 응답을 생성하는 퓨샷 학습을 보여줍니다.
AI 모델의 성공은 프롬프트에서 표시되는 내용에 달려 있다는 점에서 프롬프트 엔지니어링은 ICL에서 중요한 역할을 합니다. 프롬프트 엔지니어링은 모델을 효과적으로 안내하는 유익하고 구조화된 고품질의 프롬프트를 만드는 것을 말합니다. 프롬프트는 사전 학습 데이터 노출 중에 모델이 본 것과 일치하도록 신중하게 선택된 자연어 템플릿을 사용하곤 합니다. 단어 선택, 레이블 형식, 예제 순서 및 구두점 변형은 특히 작은 모델이나 극단적 사례에서 모델 성능에 영향을 미칠 수 있습니다.
중요한 것은 프롬프트 엔지니어링이 별도의 메커니즘이 아니라, 맥락 내 학습이라는 광범위한 개념 안에 존재하는 기술이라는 점입니다. 예를 들면 다음과 같습니다.
제로샷 프롬프트: 예제를 제공하지 않고 작업 설명
원샷 프롬프트: 하나의 예시만으로 작업 설명
퓨샷 프롬프트: 여러 예시 제공
생각의 연결고리 프롬프트: 예제마다 모델의 논리를 안내하는 중간 추론 단계 제시
이러한 프롬프트 전략에 퓨샷 프롬프트 설계를 결합하고, 일반화를 테스트하는 벤치마크를 통해 평가하곤 합니다. 임의의 레이블이 있는 인풋/아웃풋 쌍도 성능을 향상시킬 수 있으며, 이를 통해 프롬프트의 형식과 분포가 레이블 자체만큼 중요하다는 것을 알 수 있습니다.
통제된 맥락 내 프롬프트를 넘어 복잡한 실제 시스템으로 넘어오면, 정적 인풋을 만드는 것이 아니라 맥락 엔지니어링을 실현하는 것이 문제가 됩니다. 이는 LLM이 실제 상황에서 안정적으로 작동하는 데 필요한 모든 인풋을 체계적으로 설계하는 데 주목하는 새로운 분야입니다.
맥락 엔지니어링은 LLM이 작업을 안정적으로 완료할 수 있도록 올바른 정보, 도구 및 지침을 올바른 형식으로 조합하고 전달하는 동적 시스템을 설계하는 작업입니다. 정적 프롬프트 엔지니어링과 달리 맥락 엔지니어링은 런타임 시 사용자 입력, 이전 상호 작용, 도구 아웃풋 및 외부 데이터와 같은 여러 소스를 바탕으로, 작업과 관련성 있는 완전한 인풋을 구성하는 데 중점을 둡니다. 이를 통해 LLM은 필요한 데이터를, 효과적으로 해석할 수 있는 구조로 수신할 수 있습니다. 이 방식은 모델 제한보다는 맥락이 누락되거나 형식이 잘못되어 오류가 발생하는 경우가 많은 복잡한 에이전트 시스템에서 매우 중요합니다. 맥락 엔지니어링은 도구, 검색 메커니즘 및 메모리를 프롬프트 구성 과정에 통합함으로써 모델의 잠재력과 실제 성능 간의 격차를 해소합니다.
초창기에는 맥락 내 학습(ICL)을 표면 수준의 패턴 반복 또는 다음 토큰 예측으로 바라보았지만, 최신 연구는 더 깊은 프로세스를 시사합니다. 한 가지 설득력 있는 설명은, ICL을 베이지안 추론의 한 형태로 보는 것입니다. 베이지안 추론은 믿음에 증거를 더해서 확률을 추정하는 방법론입니다.2 이 관점서 모델은 퓨샷 또는 원샷 예제를 살펴보고 프롬프트에서 잠재된 개념('감정 분류'와 같은 보이지 않는 작업 또는 구조)을 추론합니다. 맥락 내 예제가 늘어날수록 모델은 수행 중인 작업에 대한 확신을 가지고, 모델 매개변수를 변경하지 않고도 예측을 개선할 수 있습니다.
또 다른 설명은 ICL을 경사 하강법에 연결합니다. 이는 기계 학습 시스템 대부분이 오류를 최소화하기 위해 택하는 핵심 최적화 방법입니다. 최근 연구에 따르면 트랜스포머 모델은 특히 선형 회귀 같은 간단한 작업의 학습 과정을 내부적으로 시뮬레이션할 수 있습니다. 실제로는 매개 변수가 업데이트되지 않더라도 모델은 내부 루프의 추론을 사용하여 프롬프트에 적응하는 것처럼 동작합니다. 이 과정은 전적으로 모델의 컨텍스트 창 안에서 이루어집니다.
이러한 발견은 ICL이 제로샷 또는 퓨샷 환경에서도 추론 중에 내부 학습과 유사한 행동을 한다는 것을 시사합니다. LLM은 정적인 예측 변수가 아닌 자연어 프롬프트를 사용하여 실시간으로 작업 구조에 적응합니다. 이러한 추론과 암시적 학습의 조합은, ICL이 재교육 없이 새로운 작업을 처리하는 강력한 비결입니다.
1. 모델 규모와 매개변수 민감성
ICL의 효과는 LLM의 규모와 설계에 크게 영향을 받습니다. 대규모 모델은 ICL에서 더 강력하게 떠오르는 능력을 보여줍니다. 상대적으로 작은 모델들은 복잡한 작업을 효과적으로 모델링할 수 있는 매개변수 용량이 부족해서 맥락 내 학습 역량을 맞추는 데 어려움을 겪는 경우가 많습니다.
2. 사전 학습 데이터 품질 및 편향
맥락 내 학습의 효과는 사전 학습 데이터의 다양성과 품질에 달려 있습니다. 편협하거나 편향된 데이터 세트로 학습된 모델은 추론 과정에서 이러한 한계를 재생산해 일반화 및 공정성 문제를 일으킬 수 있습니다.
3. 도메인 이전 및 일반화
LLM은 인상적인 적응력을 보여주지만, 매우 도메인 특화적인 작업에서는 성능이 떨어질 수 있습니다. 법률이나 의학 같은 전문 분야에서는 여전히 해당 도메인에 관한 시연이나 기존의 미세 조정이 필요할 수 있습니다.
4. 윤리와 공정성
ICL은 훈련 데이터에 존재하는 사회적 편견을 의도치 않게 전수하고 강화할 수 있습니다. 프롬프트가 모델 행동에 영향을 미칠 수 있으므로 역동적인 실시간 상호 작용 과정에서 윤리적이고 공정한 아웃풋을 내놓는 것이 여전히 중요한 과제입니다.
5. 개인정보 보호 및 보안 문제
애플리케이션에서 작동하는 ICL 기반 시스템은 사전 학습 말뭉치에 해당 데이터가 있는 경우 실수로 민감한 정보를 기억하거나 재생할 수 있습니다. 이러한 가능성은 특히 의료, 법률 및 개인화된 비서 영역에서 중요한 개인 정보 보호 문제를 야기합니다.
6. 프롬프트 민감성과 안정성
ICL은 프롬프트 설계에 민감합니다. 상황에 맞는 예제의 수, 순서 또는 형식을 조금만 변경해도 아웃풋이 크게 달라져서 성능의 일관성이 떨어질 수 있습니다.
1. 모델 훈련
LLM이 본질적으로 맥락 내 학습을 더 잘 수행할 수 있도록 연구자들은 모델 훈련 중 또는 직후에 개선 사항을 모색하고 있습니다.3 한 가지 주요 방향은 구조화된 데이터를 사용한 사전 학습으로, 인풋/아웃풋 쌍 또는 작업 클러스터가 명시적으로 구성됩니다. 이 접근 방식은 모델이 광범위한 언어 분포에만 의존하기보다는 작업 패턴과 관계에 더 민감해지게 하는 데 도움이 됩니다.
또 다른 효과적인 접근 방식은 모델을 증류해서 추상화된 형태의 지식을 드러내는 메타 증류입니다. 작업의 본질을 전달하는 짧고 유익한 예제 쌍(예: '강한 플롯 → 긍정적', '약한 행동 → 부정적')을 제시합니다. 이 방법을 사용하면 모델을 최소한의 데모 오버헤드로 추론 중에 빠르게 일반화할 수 있습니다.
준비 훈련은 프롬프트 형식의 작업 정렬 예제를 사용하여 사전 훈련과 실제 추론 간에 모델을 미세 조정합니다. 예를 들어, 테스트하기 전에 몇 가지 '제목 → 카테고리' 예시를 보면 재훈련 없이 관련 콘텐츠로 일반화하는 능력이 향상됩니다.
명령어 튜닝은 자연어 명령어로 작성된 수천 개의 작업(예: '문장의 분위기 분류')을 사용하여 모델을 학습시키는 또 다른 중요한 전략입니다. 이 전략은 모델 동작을 인간의 지침에 더 밀접하게 맞춰 퓨샷 및 제로샷 일반화를 개선합니다.
2. 프롬프트 설계
추론 과정에서 프롬프트 설계는 ICL을 활용하는 데 중추적인 역할을 합니다. 가장 영향력 있는 기술 중 하나는 데모 선택입니다. 유사성 지표, 불확실성 점수 또는 훈련된 리트리버를 사용하여 올바른 예제를 선택합니다.
데모 형식을 변경하면 예제가 구성되는 방식이 수정됩니다. 일반 인풋/아웃풋 쌍 대신 추론 사슬(예: '전제 → 추론 → 결론')을 사용하여 모델의 내부 표현과 일치시키는 방식도 있습니다.
티나지 않지만 중요한 또 다른 요소는 데모 주문입니다. 루프로 진행하기 전에 기본 프로그래밍 프린트 문으로 시작하는 것과 같이, 간단한 것부터 복잡한 것까지 예제를 구성하면 모델이 점진적으로 맥락을 구축하여 이해력을 높이고 아웃풋 품질을 향상시키는 데 도움이 됩니다.
마지막으로, 명령 형식 지정과 생각의 연결고리 프롬프트는 중간 단계를 통해 모델을 명시적으로 제시하여 추론이 많은 작업을 개선합니다. 이 방식은 산술 또는 논리적 추론 같은 영역에서 특히 유용하며, '1단계: 8에서 3 빼기 → 2단계: 답은 5'와 같이 분해를 하면 직접적인 질문-답변 형식에 비해 정확도가 높아집니다.
이상 탐지: 맥락 내 학습을 사용하면, LLM에 정상 및 비정상 네트워크 활동 레이블이 몇 가지 지정된 예제를 제공할 수 있습니다. 그러면 모델은 새로운 트래픽 인스턴스를 정상 또는 의심스러운 것으로 정확하게 분류할 수 있으므로, 광범위한 재교육 없이 유연하고 효율적인 모니터링이 가능합니다. 이 방식은 사이버 보안 및 네트워크 관리 작업에 광범위하게 적용될 수 있습니다.
예를 들어, 한 연구 논문에서는 무선 환경에서 자동 네트워크 침입 탐지를 위해 LLM, 특히 GPT-4를 사용하여 맥락 내 학습을 적용하는 예를 제시했습니다.4 광범위한 레이블 데이터와 비용이 많이 들고 미세 조정이 필요한 기존 방법을 취하지 않고 설명, 휴리스틱, 상호작용이라는 세 가지 맥락 내 학습 방식을 설계했습니다. 이 방법들은 GPT-4가 프롬프트에 레이블이 지정된 예제를 몇 가지 제공하고 특정 도메인에 대한 질문을 통합합니다. 이를 통해 정확도를 높여 공격 유형을 식별하도록 안내합니다. 9개의 분산 서비스 거부(DDoS) 공격 유형이 포함된 실제 데이터 세트에서 테스트한 결과, 성능이 개선된 것으로 나타났습니다. 정확도와 F1 점수가 약 90% 증가한 것으로 나타났으며, GPT-4는 단 10개의 예로 95% 이상에 도달했습니다. 이 예를 보면, LLM이 맥락 내 학습을 통해 최소한의 훈련 데이터로 실제 사이버 보안 시나리오에 빠르게 적응하고 효과적으로 작업을 수행할 수 있음이 확인됩니다.
특정 도메인용 자연어 처리(NLP): ICL을 사용하면 LLM은 프롬프트 안에서 관련성 있는 예시를 사용하여 특수 작업을 잘 수행할 수 있습니다. 이 방식은 레이블이 지정된 데이터가 부족하거나 미세 조정이 어려운 특정 도메인용 자연어 처리(NLP) 작업의 문제를 해결합니다. 이 경로를 통해 모델은 추론 중에 제공된 맥락 관련 단서만을 기반으로 정확한 결과를 조정하고 생성할 수 있습니다.
한 연구에 따르면 LLM은 ICL을 통해 항공 안전 보고서를 효과적으로 분석하여 의미론적 희소성 및 계산 비용이 많이 드는 미세 조정의 필요성과 같은 문제를 해결할 수 있습니다.5 이 연구에서는 BM25(검색어와의 관련성을 기준으로 문서의 순위를 매기는 데 사용되는 정보 검색 알고리즘)를 사용하여 프롬프트에 가장 관련성이 높은 예를 선택했습니다. 이 모델은 8개의 예를 통해 최대 80.24%의 정확도와 84.15%의 F1 점수를 달성하여 분류 정확도를 크게 향상시켰습니다. 프롬프트 내에서 고품질의 관련 예제를 제공함으로써 모델은 이해를 일반화하여 보이지 않는 보고서를 정확하게 분류합니다. 엄선된 예제를 늘리면 일반적으로 모델이 더 많은 맥락을 얻어서 데이터의 기본 패턴을 더 잘 포착해 성능이 향상됩니다. 이 방식은 전략적 예제 선택이 포함된 ICL을 통해 LLM이 전문 항공 데이터를 효과적으로 이해하고 분류할 수 있어, 특정 도메인용 NLP 작업에 대한 실질적인 솔루션이 된다는 것을 보여줍니다.
감정 분석: LLM은 ICL을 사용해서 레이블이 지정된 몇 가지 텍스트 샘플(예: '훌륭한 서비스→ 긍정적', '끔찍한 제품 → 부정적')을 제공하여 감정을 분석할 수 있습니다. 레이블이 지정되지 않은 새로운 문장이 주어졌을 때 모델은 높은 정확도로 감정을 추론할 수 있습니다. 이 방식은 고객 경험 분석, 오피니언 마이닝 및 브랜드 모니터링 작업을 간소화합니다.
맥락 내 학습은 우리가 대규모 언어 모델과 상호 작용하고 지능을 추출하는 방식의 근본적인 변화를 나타냅니다. 이를 통해 모델은 작업 설명과 몇 가지 예를 사용하여 새로운 작업에 동적으로 적응하며, ICL은 AI 시스템에 유연성, 효율성 및 접근성을 제공합니다. 이는 사전 훈련된 정적인 모델과 동적인 실제 요구 사항 사이의 격차를 해소하여, 단일 모델이 몇 가지 예제를 관찰하는 것만으로 광범위한 작업을 수행할 수 있도록 합니다. 학습 알고리즘, 사전 학습 전략, 프롬프트 설계 및 데모 최적화 전반에 걸쳐 연구가 발전함에 따라 ICL은 범용 AI의 초석이 되어 산업 전반에 걸쳐 보다 적응력 있고 해석 가능하며 확장 가능한 시스템을 위한 기반을 마련할 준비가 되어 있습니다.
1. Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020년). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901.
2. Xie, S. M., & Min, S. (2022년). How does in-context learning work? A framework for understanding the differences from traditional supervised learning. A framework for understanding the differences from traditional supervised learning.
3. Dong, Q., Li, L., Dai, D., Zheng, C., Ma, J., Li, R., ... & Sui, Z. (2022년). A survey on in-context learning. arXiv preprint arXiv:2301.00234.
4. Zhang, H., Sediq, A. B., Afana, A., & Erol-Kantarci, M. (2024년). Large language models in wireless application design: In-context learning-enhanced automatic network intrusion detection. arXiv preprint arXiv:2405.11002.
5. Yang, Y., Shi, D., Zurada, J., & Guan, J. (2024년 9월). Application of Large Language Model and In-Context Learning for Aviation Safety Prediction. In 2024 17th International Conference on Advanced Computer Theory and Engineering (ICACTE) (pp. 361-365). IEEE.