LLM 사용자 지정이란 무엇인가요?

작성자

Ivan Belcic

Staff writer

Cole Stryker

Staff Editor, AI Models

IBM Think

LLM 사용자 지정이란 무엇인가요?

LLM 사용자 지정 또는 대규모 언어 모델 사용자 지정은 사전 학습된 LLM을 특정 작업에 맞게 조정하는 프로세스입니다. LLM 사용자 지정 프로세스에는 파운데이션 모델이라고도 하는 사전 학습된 모델을 선택하고 의도한 사용 사례에 맞게 모델을 조정하는 작업이 포함됩니다.

LLM 사용자 지정 워크플로

사용자 지정 LLM을 만드는 프로세스는 일반화된 모델을 보다 구체적인 컨텍스트에 적용하도록 설계되었습니다. 다양한 LLM 사용자 지정 방법을 사용할 수 있지만 일반적인 프로세스는 유사한 일련의 단계를 따르는 경향이 있습니다.

  1. 데이터 준비: 최적의 모델 성능은 강력한 학습 데이터에 달려 있습니다. 모델 생성자와 데이터 과학자는 모델의 의도된 목적과 관련된 도메인별 학습 데이터 세트를 수집하고 조합해야 합니다. 고품질 데이터의 지식 기반이 있으면 모델의 응답이 정확하고 유용할 가능성이 더 높습니다.
     

  2. 모델 선택: LLM 목록은 그 다양성만큼이나 가짓수가 많습니다. AI 모델는 크기, 효율성, 컴퓨팅 리소스 사용, 아키텍처가 다양하며, 이 모든 요소는 성능에 영향을 미칩니다. 적절한 모델을 선택하려면 머신 러닝 프로젝트의 목표와 한계를 모두 이해해야 합니다.
     

  3. 모델 사용자 지정: 여기에서 머신 러닝 전문가가 파운데이션 모델을 전문화된 도구로 변환합니다. 모델의 아웃풋은 특정 다운스트림 작업에 맞게 조정됩니다. 개발자는 파운데이션 모델의 작동 방식과 선택한 사용자 지정 방법을 이해해야 모델의 동작을 성공적으로 최적화할 수 있습니다.
     

  4. 반복: ML 알고리즘은 대규모 조정이 아닌 단계별 프로세스를 통해 학습할 때 가장 좋은 성능을 발휘합니다. 개발자는 각 단계에서 사용자 지정 기법의 효과를 측정하고 이러한 결과를 사용하여 다음 반복 작업에 정보를 제공할 수 있습니다.
     

  5. 테스트: 학습이 완료된 후 실제 사용 전에 모델이 안정적인 성능을 보여주는지 테스트합니다. 개발자는 자신의 조정이 효과적인지, 모델이 새로 얻은 특정 지식을 치명적인 망각 없이 적용하는지 확인합니다.
     

  6. 모델 배포: 사용자 지정 모델은 AI 기반 소프트웨어 애플리케이션 또는 API와 같은 프로덕션 환경에 배포되며 실제 환경에서 특정 사용 사례에 사용할 수 있게 됩니다.

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

감사합니다! 구독이 완료되었습니다.

구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.

LLM 사용자 지정 기술

개발자와 머신 러닝 전문가는 사용 사례와 원하는 아웃풋에 따라 다양한 LLM 사용자 지정 방법 중에서 선택합니다. 모든 유형의 LLM 사용자 지정은 특정 다운스트림 작업에 대한 생성형 AI(GenAI) 모델의 성능을 조정할 수 있습니다.

LLM 사용자 지정 기술에는 다음과 같은 것들이 있습니다.

검색 증강 생성(RAG)

검색 증강 생성(RAG)은 LLM을 외부 데이터 소스와 연결하여 지식 기반을 확장합니다. 사용자가 쿼리를 제출하면 RAG 시스템은 쌍을 이루는 데이터베이스에서 관련 정보를 검색한 다음 이를 쿼리와 결합하여 응답을 생성할 때 LLM에 더 많은 컨텍스트를 제공합니다.

RAG는 임베딩을 사용하여 검색 가능한 벡터 데이터베이스에서 데이터베이스, 소스 코드 또는 기타 정보를 변환합니다. 임베딩은 3차원 벡터 공간에 각 데이터 포인트를 수학적으로 표시합니다. RAG 시스템의 정보 검색 모델은 관련 데이터를 찾기 위해 사용자 쿼리를 임베딩으로 변환하고 벡터 데이터베이스에서 유사한 임베딩을 찾습니다.

RAG 시스템은 일반적으로 다음과 같은 동일한 표준 시퀀스를 따릅니다.

  1. 프롬프트: 사용자는 AI 기반 챗봇과 같은 사용자 인터페이스에 프롬프트를 제출합니다.
     

  2. 쿼리: 정보 검색 모델은 프롬프트를 임베딩으로 변환하고 데이터베이스에서 유사한 데이터를 쿼리합니다.
     

  3. 검색: 검색 모델은 데이터베이스에서 관련 데이터를 검색합니다.
     

  4. 생성: RAG 시스템은 검색된 데이터를 사용자의 쿼리와 결합하고 LLM에 제출하여 응답을 생성합니다.
     

  5. 전달: RAG 시스템은 생성된 응답을 사용자에게 반환합니다.

RAG는 RAG 시스템이 관련 데이터를 검색하고 이를 사용하여 LLM에서 생성한 응답을 보강하는 방식 때문에 붙여진 이름입니다. 더 복잡한 RAG 시스템은 프로세스를 개선하고 응답 품질을 더욱 향상시키기 위해 추가 구성 요소를 도입합니다.

RAG의 이점

LLM에 도메인별 지식에 대한 액세스 권한을 부여하면 해당 데이터를 응답 생성 프로세스에 통합할 수 있습니다. 특히 외부 데이터를 이미 사용할 수 있고 머신 러닝에 사용할 준비가 된 경우 이를 통해 큰 비용 투자 없이 AI 솔루션의 정확성과 신뢰성을 높일 수 있습니다.

예를 들어 질문-답변용으로 설계된 RAG 모델은 연결된 기술 기반에서 정답을 찾을 수 있을 때 더 나은 답변을 제공할 수 있습니다.

더 작은 모델에 RAG를 사용하면 더 높은 수준의 성능을 발휘하는 데 도움이 될 수 있습니다. 소규모 언어 모델(SLM)은 계산 요구 사항이 적고, 학습 시간이 빠르며, 추론 지연 시간이 짧습니다. SLM을 중심으로 RAG 시스템을 구축하면 이러한 이점을 유지하면서, RAG가 제공하는 뛰어난 컨텍스트별 정확성을 활용할 수 있습니다.

AI 아카데미

파운데이션 모델이 AI 패러다임의 전환을 가져오는 이유

새로운 수익을 창출하고 비용을 절감하며 생산성을 높일 수 있는, 유연하고 재사용 가능한 새로운 AI 모델을 살펴봅니다. 그다음, 가이드북을 통해 보다 심층적으로 알아봅니다.

미세 조정

LLM을 미세 조정하려면 동작을 안내하는 내부 설정을 반복적으로 조정해야 합니다. 이러한 설정은 모델 매개변수 또는 가중치라고 하며, 모델이 데이터를 처리하고 평가하는 방식을 제어합니다.

모델의 학습 알고리즘은 학습 동안 최적의 성능에 도달할 때까지 매개변수를 조정합니다. 이 시점에서 학습 프로세스는 성공적으로 완료된 것으로 판단됩니다.

고급 LLM, 특히 OpenAI의 GPT와 Meta의 Llama 2와 같은 트랜스포머는 수십억 개의 매개변수를 가질 수 있습니다. 이러한 모델은 너무 크기 때문에 전체 미세 조정은 종종 엄청나게 비싸고 시간이 많이 걸립니다.

보다 미묘한 미세 조정 방법은 성능을 유지하면서 특정 작업에 대한 숙련도를 높이는 것을 목표로 모델의 일부 매개변수를 조정하거나 새로운 매개변수를 추가합니다.

주목할 만한 미세 조정 방법은 다음과 같습니다.

매개변수 효율적 미세 조정(PEFT)

PEFT는 사전 학습된 모델의 매개변수 대부분을 고정하고 새 작업과 가장 관련성이 높은 매개변수를 조정하는 데 중점을 둡니다. 이를 통해 전체 미세 조정보다 컴퓨팅 리소스를 더 적게 소비합니다. PEFT는 다양한 구현이 가능한 광범위한 분야입니다.

전이 학습

전이 학습은 사전 학습된 모델의 지식을 새로운 작업에 활용하여 이미 알고 있는 내용을 새로운 맥락에 적용합니다. 이 방법은 새로운 작업이 원래 작업과 관련이 있을 때 가장 효과적입니다. 예를 들어 분류기를 사용하여 새로운 카테고리나 객체 유형을 인식하고 분류하는 경우입니다.

이 예에서 적용되는 전이 학습 유형은 멀티태스킹 학습으로, 한 번에 여러 작업을 통해 모델을 미세 조정하는 방식입니다. 여기에서 새로운 작업은 객체 인식 및 분류입니다.

저순위 적응(LoRA)

저순위 적응(LoRA)은 미세 조정에 대한 모듈식 접근 방식으로, 사전 학습된 모델에 추가 매개변수를 추가하는 방식입니다. LoRA는 사전 학습된 모델의 매개변수를 고정하고 특정 사용 사례 또는 작업의 요구 사항에 맞게 모델의 응답을 조정하는 보완 기능(저순위 행렬로 알려짐)을 추가합니다.

LoRA를 착용자가 관련 기술을 수행할 수 있게 해주는 마법의 모자 세트로 상상해 보세요. 마법의 요리사 모자를 쓰면 별 다섯 개짜리 요리를 만들 수 있고, 마법의 안전모를 쓰면 집을 지을 수 있으며, 마법의 오토바이 헬멧을 쓰면 맨 섬 TT에서 우승할 수 있고, 마법의 야구 모자를 쓰면 결승타점을 만들 수 있게 되는 것과 유사합니다.

인간 피드백을 통한 강화 학습(RLHF)

인간 피드백을 통한 강화 학습(RLHF)은 복잡하고 주관적인 작업에 대해 사전 학습된 모델을 파트너 보상 모델을 사용하여 미세 조정합니다. ML 모델은 글이 연상적인지 여부를 판단할 수 없지만 인간은 판단할 수 있으며, 인간은 모델이 자신의 선호도를 모방하도록 가르칠 수 있습니다.

인간은 RLHF를 통해 새로운 작업에 대한 보상 모델을 학습시킵니다. 보상 모델의 역할은 인간이 주어진 입력에 어떻게 반응할지 성공적으로 예측하는 것입니다. 표준 모델 훈련은 오류에 페널티를 부여하는 반면, 보상 훈련은 좋은 성능에 인센티브를 부여합니다.

그런 다음 보상 모델은 인간 트레이너의 선호도에 따라 파운데이션 모델에 행동 방법을 학습시킵니다. 보상 모델이 학습되면 휴먼 인 더 루프(HITL) 없이 파운데이션 모델을 학습시킬 수 있습니다.

모든 유형의 머신 러닝과 마찬가지로, 이 모델은 비판적으로 생각하지 않거나 심지어는 전혀 생각하지 않습니다. 오히려 인간 트레이너의 선호도와 가장 일치할 가능성이 가장 높은 결과를 수학적으로 선택하는 것입니다.

지속적인 미세 조정(CFT)

지속적 미세 조정(CFT)은 모델을 새로운 작업에 순차적으로 적용하는 일종의 지속적 학습입니다. 레이블이 지정된 지침 입력과 관련 아웃풋 쌍을 사용하여 모델을 학습시키는 명령 조정을 사용하면 해당 모델이 다운스트림 작업을 위한 더 광범위한 데이터 세트에 맞게 조정됩니다. CFT는 종종 모델이 서로 다른 데이터 분포에서 동일한 작업을 수행하도록 학습시킵니다.

모든 유형의 지속적인 학습에서 한 가지 위험은 모델이 새로운 작업에 적응한 후 이전 작업을 수행할 수 있는 능력을 상실하는 치명적인 망각입니다. 다행스럽게도 ML 연구원들은 개발자가 지속적인 학습을 추구하면서 치명적인 망각을 피하는 데 도움이 되는 몇 가지 완화 기술을 개발했습니다.

미세 조정의 이점

미세 조정은 모델을 새로운 사용 사례에 맞게 조정하는 동시에 새로운 모델을 개발하는 데 드는 비용합니다. 많은 유형의 미세 조정은 소수의 매개변수만 조정하여 효율성을 더욱 높입니다. 미세 조정은 모델을 처음부터 학습하기에 충분한 데이터가 없는 상황에서도 빛을 발합니다.

프롬프트 엔지니어링

컨텍스트 내 학습 또는 프롬프트 기반 학습이라고도 하는 프롬프트 엔지니어링은 LLM이 더 나은 응답을 생성하는 데 도움이 되는 관련 정보를 프롬프트에 포함시킵니다. 추론하는 동안(모델이 사용자 프롬프트를 입력할 때) 사용자는 일반적으로 따라야 할 명시적인 지침과 예제를 제공합니다.

예를 들어, 텍스트 요약을 수행하라는 요청을 받은 모델에게 요약의 형식을 지정하는 방법을 표시하는 프롬프트(예: 글머리 기호로 목록 작성)가 있으면 도움이 될 수 있습니다. 보다 포괄적인 프롬프트는 모델이 사용자가 받기를 기대하는 응답 유형을 반환하는 데 도움이 됩니다.

딥 러닝 연구원들은 다양한 유형의 프롬프트 엔지니어링 기법을 개발했습니다. 몇 가지 획기적인 개발 기술은 다음과 같습니다.

  • 퓨샷 프롬프트: 모델에 몇 가지 예시 아웃풋(이라고 함)이 제공되며, 그 후 응답을 모델링합니다. 모델은 예제를 따르고 사용자가 프롬프트에 제공하는 샷을 바탕으로 응답할 수 있습니다.
     

  • 생각의 연결고리(CoT) 프롬프트: 이 프롬프트에는 모델이 따라야 할 단계별 추론 방법이 포함되어 있습니다. 이 모델은 사용자가 제공한 CoT에 따라 응답 생성을 구조화합니다. CoT 프롬프트는 LLM이 응답을 생성하는 방식에 대한 연습이 필요한 고급 기술입니다.

프롬프트 엔지니어링의 이점

다른 많은 LLM 사용자 지정 기술과 달리 프롬프트 엔지니어링은 추가 코딩이나 개발이 필요하지 않습니다. 대신 프롬프트 엔지니어는 효과적이고 정보에 입각한 프롬프트를 작성할 수 있도록 LLM이 배포될 상황에 잘 알고 있어야 합니다.

프롬프트 엔지니어링을 올바르게 구현하면 누구나, 특히 인공 지능(AI) 초보자도 LLM을 사용자 지정할 수 있는 유용한 자연어 처리(NLP) 기술입니다. 프롬프트 엔지니어링은 오픈 소스 LLM오픈 소스 AI 도구의 광범위한 가용성과 함께, 머신 러닝에 접근하기 쉬운 관문이며 실험, 호기심, 끈기에 대한 보상을 제공합니다.

관련 솔루션
파운데이션 모델

watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

IBM watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.

watsonx.ai 살펴보기 AI 솔루션 살펴보기