대규모 언어 모델(LLM)이란 무엇인가요?

작성자

Staff Editor, AI Models

IBM Think

LLM이란 무엇인가요?

대규모 언어 모델(LLM)은 방대한 양의 데이터를 학습하여 자연어 및 기타 유형의 콘텐츠를 이해하고 생성하여 광범위한 작업을 수행할 수 있는 딥 러닝의 카테고리입니다. LLM은 단어 시퀀스를 처리하고 텍스트의 패턴을 포착하는 데 탁월한 신경망 아키텍처의 일종(트랜스포머라고 함)을 기반으로 구축됩니다.

LLM은 시퀀스의 다음 단어를 반복적으로 예측하는 거대한 통계 예측 기계로 작동하며, 텍스트의 패턴을 학습하고 그 패턴을 따르는 언어를 생성합니다.

LLM은 구조화되지 않은 인간 언어를 대규모로 처리하여 기계와의 자연스러운 의사소통을 가능하게 하는 최초의 AI 시스템이므로 인간이 기술과 상호 작용하는 방식의 크나큰 도약을 대변합니다. 기존 검색 엔진 및 기타 프로그래밍된 시스템은 알고리즘을 사용하여 키워드를 일치시키는 반면, LLM은 더 깊은 맥락, 뉘앙스 및 추론을 포착합니다. LLM은 일단 학습하면 기사 요약, 코드 디버깅 또는 법률 조항 초안 작성과 같이 텍스트 해석과 관련된 많은 애플리케이션에 적응할 수 있습니다. 에이전트 능력이 주어지면 LLM은 다양한 수준의 자율성으로 인간이 수행하는 다양한 작업을 수행할 수 있게 됩니다.

LLM은 수십 년 동안 자연어 처리(NLP) 및 머신 러닝 연구의 발전의 정점이며, LLM의 개발은 2010년대 후반과 2020년대에 걸친 인공 지능의 폭발적인 발전에 크게 기여했습니다. 자주 사용되는 LLM은 유명세를 얻어 생성형 AI를 대중적 관심의 최전선으로 끌어올렸습니다. LLM은 기업에서도 널리 사용되며, 조직은 다양한 비즈니스 기능과 사용 사례에 걸쳐 막대한 투자를 하고 있습니다.

대중은 Anthropic의 Claude, Open AI의 ChatGPT, Microsoft의 Copilot, Meta의 Llama 모델, Google의 Gemini 어시스턴트, BERT 및 PaLM 모델과 같은 인터페이스를 통해 LLM에 간편하게 액세스할 수 있습니다. IBM은 watsonx.ai에서 Granite 모델 시리즈를 유지 관리합니다. 이는 watsonx Assistant 및 watsonx Orchestrate와 같은 다른 IBM 제품의 생성형 AI 백본이 되었습니다.

대규모 언어 모델 사전 학습시키기

학습은 책, 기사, 웹사이트, 코드 및 기타 텍스트 소스에서 수십억 또는 수조 개의 단어와 같은 방대한 양의 데이터로 시작됩니다. 데이터 과학자는 오류, 중복 및 바람직하지 않은 콘텐츠를 제거하기 위해 데이터를 정리하고 전처리를 감독합니다.

이 텍스트는 '토큰화' 과정에서 '토큰'이라고 하는 더 작고 기계가 읽을 수 있는 단위로 나뉩니다. 토큰은 단어, 하위 단어 또는 문자와 같은 더 작은 단위입니다. 이렇게 하면 언어가 표준화되어 희귀하고 새로운 단어를 일관되게 처리할 수 있습니다.

LLM은 처음에 지도 학습을 위해 레이블이 지정되지 않은 데이터를 사용하는 머신 러닝 기법인 자기 지도 학습으로 학습됩니다. 자기 지도 학습은 레이블이 지정된 데이터 세트가 필요하지 않지만, '기준 데이터'에 대한 성능을 최적화한다는 점에서 지도 학습과 밀접한 관련이 있습니다. 자기 지도 학습에서 작업은 레이블이 지정되지 않은 데이터에서 '기준값'을 추론할 수 있도록 설계됩니다. 지도 학습에서와 같이 각 입력에 대한 '올바른 아웃풋'이 무엇인지 지시하는 대신 모델은 자체적으로 데이터에서 패턴, 구조 또는 관계를 찾으려고 시도합니다.

셀프 어텐션

이 모델은 트랜스포머 네트워크를 통해 토큰을 전달합니다. 2017년에 도입된 트랜스포머 모델은 서로 다른 순간에 서로 다른 토큰에 주의를 기울일 수 있는 셀프 어텐션 메커니즘으로 인해 유용합니다. 이 기법은 트랜스포머의 핵심이자 주요 혁신입니다. 셀프 어텐션은 AI 모델이 토큰 간의 관계와 종속성을 계산할 수 있게 해주기 때문에 유용합니다. 특히 텍스트에서 서로 떨어져 있는 토큰 간의 관계와 종속성을 계산할 수 있습니다. 또한 트랜스포머 아키텍처는 병렬화를 허용하므로 이전 방법보다 프로세스가 훨씬 더 효율적입니다. 이러한 특성을 통해 LLM은 전례 없이 큰 데이터 세트를 처리할 수 있었습니다.

텍스트가 토큰으로 분할되면 각 토큰은 임베딩이라고 하는 숫자 벡터에 매핑됩니다. 신경망은 인공 뉴런 레이어로 구성되며, 각 뉴런은 수학적 연산을 수행합니다. 트랜스포머는 이러한 레이어 여러 개로 구성되며, 각 레이어에서 임베딩이 약간 조정되어 레이어마다 더 풍부한 컨텍스트 표현이 됩니다.

이 프로세스의 목표는 모델이 단어 간의 의미론적 연관성을 학습하여 에세이에서 '짖다'와 '개'와 같은 단어가 에세이의 주변 개 관련 단어를 기반으로 개에 대한 에세이의 벡터 공간에서 '짖다'와 '나무'보다 더 가깝게 나타나도록 하는 것입니다. 트랜스포머는 또한 각 토큰에 시퀀스 내 위치에 대한 정보를 제공하는 위치 인코딩을 추가합니다.

어텐션을 계산하기 위해 각 임베딩은 학습된 가중치 행렬을 사용하여 쿼리, 키 및 값의 세 가지 개별 벡터로 투영됩니다. 쿼리는 주어진 토큰이 '찾고 있는 것'을 나타내고, 키는 각 토큰에 포함된 정보를 나타내며, 값은 각 키 벡터의 정보를 각 어텐션 가중치에 따라 조정하여 '반환'합니다.

그런 다음 정렬 점수는 쿼리와 키 간의 유사성으로 계산됩니다. 이러한 점수는 일단 어텐션 가중치로 정규화되면 각 값 벡터가 현재 토큰의 표현으로 얼마나 많이 흐르는지를 결정합니다. 이 프로세스를 통해 모델은 덜 중요한 토큰(예: '나무')을 무시하면서 관련 컨텍스트에 유연하게 집중할 수 있습니다.

따라서 셀프 어텐션은 이전 아키텍처보다 더 효율적으로 모든 토큰 간 '가중치' 연결을 생성합니다. 이 모델은 토큰 간의 각 관계에 가중치를 할당합니다. LLM은 데이터를 처리하고 예측하는 방법을 제어하는 머신 러닝 모델의 내부 구성 변수인 LLM 매개변수의 한 유형인 수십억 또는 수조 개의 가중치를 가질 수 있습니다. 매개변수 개수는 모델에 존재하는 이러한 변수의 개수를 나타내며, 일부 LLM에는 수십억 개의 매개변수가 포함되어 있습니다. 소위 소규모 언어 모델은 규모와 범위가 더 작고 매개변수가 상대적으로 적기 때문에 더 작은 장치나 리소스가 제한된 환경에 배포하기에 적합합니다.

학습 중 모델은 학습 데이터에서 추출한 수백만 개의 예시를 기반으로 예측을 수행하며, 손실 함수는 각 예측의 오차를 정량화합니다. 예측을 수행한 다음 역전파(Backpropagation) 및 그래디언트 하강으로 모델 가중치를 업데이트하는 반복 주기를 통해 모델은 쿼리, 키 및 값 벡터를 생성하는 레이어의 가중치를 '학습'합니다.

가중치는 충분히 최적화되면 모든 토큰의 원래 임베딩을 가져와 이에 대한 쿼리, 키 및 값 벡터를 생성할 수 있습니다. 그러면 다른 모든 토큰에 대해 생성된 벡터와 상호 작용할 때 정렬 점수가 '더 나은' 정렬 점수가 산출되어 결과적으로 모델이 더 나은 아웃풋을 생성하는 데 도움이 되는 어텐션 가중치가 생성됩니다. 결과적으로 모델이 문법, 사실, 추론 구조, 글쓰기 스타일 등의 패턴을 학습하게 됩니다.

대규모 언어 모델 미세 조정

훈련 후(또는 추가 훈련 상황에서 '사전 훈련') LLM을 미세 조정하여 특정 상황에서 더 유용하게 사용할 수 있습니다. 예를 들어 일반 지식에 대한 데이터 세트를 기반으로 학습된 기초 모델을 법률 Q&A 말뭉치를 맞춤 설정하면 법률 분야의 챗봇을 만들 수 있습니다.

다음은 가장 일반적인 형태의 미세 조정입니다. 의사는 환자 치료에 있어 한 가지 방법을 사용할 수도 있고 여러 가지를 조합하여 사용할 수도 있습니다.

감독된 미세 조정

미세 조정은 훨씬 더 작고 레이블이 지정된 데이터 세트가 있는 지도 컨텍스트에서 가장 자주 일어납니다. 모델은 새로운 실측 정보(이 경우 레이블이 지정된 데이터)와 더 잘 일치하도록 가중치를 업데이트합니다.

사전 학습은 모델에 광범위한 일반 지식을 제공하기 위한 것이지만, 미세 조정은 범용 모델을 요약, 분류 또는 고객 지원과 같은 특정 작업에 맞게 조정합니다. 이러한 기능적 적응은 새로운 유형의 작업을 나타냅니다. 지도 미세 조정은 인간이 제공한 예제에 더 가까운 아웃풋을 생성하므로 처음부터 학습시키는 것보다 훨씬 적은 리소스가 소요됩니다.

지도 미세 조정은 모델이 의료 관련 질문에 답할 수 있도록 의료 문서를 훈련시키는 등 도메인별 맞춤 설정을 할 때에도 유용합니다.

인간 피드백을 통한 강화 학습

모델 미세 조정에는, 인간이 모델의 아웃풋에 순위를 매긴 다음 이에 따라 높은 순위의 아웃풋을 모델이 선호하도록 훈련시키는 인간 피드백을 통한 강화 학습(RLHF)이 자주 사용됩니다. RLHF는 LLM 아웃풋을 유용하고 안전하며 인간이 추구하는 가치에 부합하게 만드는 정렬 프로세스에 자주 사용됩니다.

RLHF는 LLM을 보다 캐주얼하고 유머러스하거나 브랜드에 어울리는 방식으로 응답하도록 조정할 수 있는 스타일 정렬에도 특히 유용합니다. 스타일 정렬은 동일한 유형의 작업에 대한 학습을 포함하되 특정한 스타일의 아웃풋을 생성합니다.

추론 모델

순지도 미세 조정은 모델이 예제를 모방하도록 가르치지만, 추상적이고 다단계 프로세스를 포함하는 더 나은 추론을 반드시 장려하는 것은 아닙니다. 이러한 작업에 항상 풍부한 레이블 데이터가 있는 것은 아니므로, 강화 학습 은 최종 아웃풋을 생성하기 전에 복잡한 문제를 종종 '추론 추적'이라고 하는 더 작은 단계로 나누도록 미세 조정된 LLM인 추론 모델을만드는 데 자주 사용됩니다. 점점 더 정교해지는 모델 학습 수단은 사고 연쇄 추론 및 기타 다단계 의사 결정 전략을 제공합니다.

명령 조정

LLM 사용자 정의의 또 다른 형태는 인간의 지시를 따르는 모델의 능력을 향상시키기 위해 특별히 설계된 프로세스인 명령 조정입니다. 데이터 세트의 입력 샘플은 사용자가 프롬프트에서 할 수 있는 요청과 유사한 작업으로만 구성됩니다. 아웃풋은 이러한 요청에 대한 바람직한 응답을 보여줍니다. 사전 학습된 LLM은 본질적으로 지침이나 대화 목표를 따르는 데 최적화되어 있지 않으므로, 사용자 의도에 맞게 모델을 더 잘 맞추기 위해 명령 조정이 사용됩니다.

대규모 언어 모델 사용

학습이 완료되면 대규모 언어 모델은 프롬프트에 응답하여 프롬프트를 토큰으로 나누고, 임베딩으로 변환하고, 트랜스포머를 사용하여 한 번에 하나의 토큰을 텍스트로 생성하고, 모든 잠재적인 다음 토큰에 대한 확률을 계산하여 가장 가능성이 높은 토큰을 출력합니다. 추론이라고 하는 이 프로세스는 아웃풋이 완료될 때까지 반복됩니다. 모델은 최종 답을 미리 '알지' 못하며, 학습 과정에서 배운 모든 통계적 관계를 사용하여 한 번에 하나의 토큰을 예측하고 모든 단계에서 최선의 추측을 합니다.

일반 LLM에서 도메인별 지식을 얻는 가장 쉽고 빠른 방법은 추가적인 학습이 필요하지 않은 프롬프트 엔지니어링을 통해서입니다. 사용자는 모든 종류의 방법으로 프롬프트를 수정할 수 있습니다. 예를 들어, '숙련된 의료 전문가의 목소리로 답변'과 같은 프롬프트를 사용하면 더 관련성 높은 결과를 얻을 수 있습니다(단, 의학적 조언을 얻기 위해 LLM을 사용하지 않는 것이 좋습니다!).

LLM은 아웃풋을 제어할 수 있는 다른 전략을 사용합니다. 예를 들어 추론 중에 LLM에서 생성되는 텍스트의 무작위성을 제어하는 LLM 온도 또는 가장 가능성이 높은 것으로 간주되는 토큰 세트를 제한하여 창의성과 일관성을 유지하는 top-k/top-p 샘플링 등이 있습니다.

컨텍스트 창은 모델이 텍스트를 생성할 때 한 번에 '보고' 사용할 수 있는 최대 토큰 수입니다. 초기 LLM은 창이 짧았지만, 최신 LLM은 컨텍스트 창에 수십만 개의 토큰이 있어 전체 연구 논문 요약, 대규모 코드베이스에서 코드 지원 수행, 사용자와의 장시간 연속 대화 수행과 같은 사용 사례가 가능합니다.

검색 증강 생성(RAG)은 사전 학습된 모델을 외부 지식베이스와 연결하여 더 높은 수준의 정확도로 더욱 관련성 높은 응답을 제공할 수 있도록 하는 방법입니다. 검색된 정보는 모델의 컨텍스트 창으로 전달되므로 모델은 재학습을 할 필요 없이 응답을 생성할 때 이를 사용할 수 있습니다. 예를 들어, LLM을 동적 날씨 서비스 데이터베이스에 연결하면 LLM은 사용자를 위해 당일 일기 예보에 관한 정보를 검색할 수 있습니다.

AI 아카데미

파운데이션 모델이 AI 패러다임의 전환을 가져오는 이유

새로운 수익을 창출하고 비용을 절감하며 생산성을 높일 수 있는, 유연하고 재사용 가능한 새로운 AI 모델을 살펴봅니다. 그다음, 가이드북을 통해 보다 심층적으로 알아봅니다.

에피소드로 이동

LLM 배포

LLM을 처음부터 구축하는 것은 복잡하고 리소스 집약적인 프로세스입니다. 가장 인기 있는 LLM은 엄청난 양의 데이터, GPU, 에너지 및 인간의 전문 지식의 결과이며, 이것이 바로 대부분이 방대한 리소스를 보유한 기술 대기업에서 구축하고 유지 관리하는 이유입니다.

그러나 이러한 모델 중 상당수는 모든 개발자가 API를 통해 이용할 수 있습니다. 개발자는 사전 학습된 모델을 사용하여 챗봇, 지식 검색 시스템, 자동화 도구 등을 구축할 수 있습니다. 데이터 및 사용자 정의를 더 잘 제어하기 위해 많은 오픈 소스 모델을 로컬 또는 클라우드에 배포할 수 있습니다. Github, Hugging Face, Kaggle 및 기타 플랫폼을 통해 모든 사람이 AI 개발에 접근할 수 있습니다.

개발자는 LLM을 모든 종류의 AI 애플리케이션의 기본으로 사용할 수 있습니다. AI의 가장 흥미로운 발전 중 하나는 에이전틱 시스템입니다. AI 에이전트는 단순히 생각하기만 하는 것이 아니라 행동합니다. LLM은 컨텍스트를 기반으로 자체적으로 텍스트를 생성하지만 메모리, API, 의사 결정 로직 및 기타 외부 시스템과 통합하여 항공편 예약 또는 자율 주행 차량 조종과 같은 특정 작업을 수행할 수 있습니다.

대규모 언어 모델 사용 사례

LLM은 비즈니스 프로세스를 재정의하고 있으며 많은 산업 분야의 수많은 사용 사례에서 다양하게 활용할 수 있음이 입증되었습니다.

텍스트 생성: LLM은 프롬프트에 따라 이메일, 블로그 게시물 또는 법적 문서 초안을 작성하는 등 모든 종류의 콘텐츠 생성 작업을 수행할 수 있습니다.

텍스트 요약: LLM은 긴 기사, 뉴스 기사, 연구 보고서, 기업 문서 및 고객 기록가지 원하는 출력 형식과 스타일 및 길이에 꼭 맞는 텍스트로 요약할 수 있습니다.

AI 어시스턴트: 대화형 AI로 구동되는 챗봇은 통합된 실시간 고객 관리 솔루션의 일부로 질문에 답변하고 자세한 정보를 제공할 수 있습니다.

코드 생성: 코드 지원 플랫폼은 개발자가 애플리케이션을 구축하고, 코드의 오류를 찾고, 여러 프로그래밍 언어로 된 보안 문제를 발견하고, 이러한 프로그래밍 언어들을 번역하는 데에도 도움을 줍니다.

감정 분석: 대규모로 고객 피드백을 더 잘 이해하기 위해 고객의 어조를 분석합니다.

언어 번역: 자동화된 번역은 우수한 번역과 다국어 기능을 통해 조직이 여러 언어와 지역에 걸쳐 더 광범위하게 서비스를 제공할 수 있도록 지원합니다.
추론: LLM은 수학 문제를 풀고, 다단계 프로세스를 계획하고, 복잡한 개념을 더 간단한 용어로 설명할 수 있습니다.

LLM 평가

LLM은 강력한 도구이지만, 몇 가지 제한 사항이 있습니다. 한 가지 중요한 우려는 정확성입니다. 할루시네이션 중에 모델은 그럴듯하게 들리면서도 거짓이거나 오해의 소지가 있는 정보를 생성합니다. LLM은 또한 학습 데이터에 존재하는 편향을 반영하고 증폭시켜 불공정하거나 공격적인 아웃풋을 생성할 수 있습니다. 또한 LLM을 학습시키고 실행하려면 다량의 컴퓨팅 성능과 에너지가 필요하므로, 비용과 환경 문제가 모두 증가합니다.

실무자는 AI 시스템과 도구가 안전하고 윤리적인지 확인하는 데 도움이 되는 포괄적인 AI 거버넌스, 프로세스, 표준 및 보호 장치를 통해 LLM의 이러한 부정적인 측면을 완화할 수 있습니다. 거버넌스의 핵심 부분에는 모델을 벤치마크와 비교하여 평가하는 일이 포함됩니다. 벤치마크는 정량적 점수를 제공하므로 모델을 더 쉽게 비교할 수 있습니다. LLM은 다양한 작업을 수행할 수 있는 범용 시스템이므로, 평가에는 단일 벤치마크가 아닌 여러 차원이 필요합니다. 연구원과 실무자는 정확성, 효율성, 안전성, 공정성 및 견고성과 같은 품질을 살펴보고 모델의 성능을 결정합니다.

LLM은 또한 평가자가 의도적으로 모델이 약점을 드러내기 위해 안전하지 않거나 편향된 응답을 생성하도록 시도하는 레드팀과 같은 기술을 사용하여 정렬 및 안전성을 기반으로 평가됩니다. 공정성 및 편향 평가는 실무자가 LLM이 유해한 고정관념이나 허위 정보를 재현하는 것을 방지하는 데 도움이 될 수 있습니다.

LLM은 일반적으로 효율성을 기준으로 평가됩니다. 속도, 에너지 소비, 토큰 처리량, 메모리 풋프린트, 긴 컨텍스트 창을 처리하는 능력은 LLM이 얼마나 효율적으로 아웃풋에 도달하는지 평가하기 위한 일반적인 지표입니다.

LLM의 간략한 역사

LLM의 역사는 연구자들이 규칙 기반 시스템과 통계적 방법을 사용하여 텍스트를 모델링했던 컴퓨팅 및 자연어 처리 초기로 거슬러 올라갑니다. 이러한 초기 접근 방식은 지역 단어 패턴을 포착할 수 있었지만, 장거리 종속성이나 보다 심층적인 의미론을 이해하지 못했습니다.

2010년대에는 신경망이 등장하면서 큰 변화가 일어났습니다. Word2Vec 및 GloVe와 같은 단어 임베딩은 연속 공간에서 단어를 벡터로 표현하여 모델이 의미 관계를 학습할 수 있도록 했습니다. 순환 신경망 및 장단기 기억 네트워크와 같은 시퀀스 모델이 순차적 데이터를 더 잘 처리하기 위해 등장했습니다.

2017년 Vaswani 외는 획기적인 논문인 'Attention Is All You Need'에서 인코더-디코더 트랜스포머 아키텍처를 소개했습니다.[1] 트랜스포머를 통해 대규모 데이터 세트에서 모델을 학습할 수 있게 되었으며, 이는 현대 LLM 시대의 시작을 알렸습니다. 인코더 전용 트랜스포머인 Google의 BERT(2018)는 언어 이해를 위한 트랜스포머의 힘을 입증했으며, 디코더 전용 변형을 기반으로 하는 OpenAI의 GPT(Generative Pretrained Transformer) 시리즈는 인터넷 규모의 텍스트에 대한 생성 사전 학습이 어떻게 놀랍도록 유창한 언어를 생성할 수 있는지 보여주었습니다. 비슷한 시기에 Google의 T5 및 Facebook의 BART와 같은 인코더-디코더 모델은 번역과 요약과 같은 작업을 위한 전체 시퀀스 간 설계의 강점을 보여주었습니다. GPT-2(2019)는 일관된 단락을 생성하는 능력으로 주목을 받았고, 1,750억 개의 매개변수를 갖춘 GPT-3(2020)은 LLM을 AI의 변혁으로 자리매김했습니다.

새로운 아키텍처는 LLM에서 트랜스포머의 인기에 도전하고 있기도 합니다. 맘바 모델은 상태 공간 모델을 사용하고 과거의 정보를 효율적으로 필터링하고 결합하는 선택적 업데이트를 함께 활용해서 장거리 종속성을 포착합니다. 확산형 LLM은 무작위 노이즈에서 출발해 일관된 텍스트가 나타날 때까지, 학습된 모델을 따라가며 단계적으로 노이즈를 제거합니다. 두 아키텍처 모두 트랜스포머보다 훨씬 효율적일 수 있습니다.