소규모 언어 모델이란?

작성자

Rina Diane Caballar

Staff Writer

IBM Think

소규모 언어 모델이란?

소규모 언어 모델(SLM)은 자연어 콘텐츠를 처리, 이해 및 생성할 수 있는 AI 모델입니다. 이름에서 알 수 있듯이 SLM은 대규모 언어 모델(LLM)보다 규모와 범위가 작습니다.

크기 측면에서 SLM 매개변수는 수백만 개에서 수십억 개에 이르는 반면, LLM은 수천억 또는 수조 개의 매개변수가 있습니다. 매개변수는 모델이 학습 중에 배우는 가중치 및 편향과 같은 내부 변수입니다. 이러한 매개 변수는 머신 러닝 모델의 동작 및 수행 방식에 영향을 줍니다.

소규모 언어 모델은 대규모 모델보다 더 컴팩트하고 효율적입니다. 따라서 SLM은 필요한 메모리와 계산 능력이 더 적으므로 엣지 장치 및 모바일 앱과 같은 리소스가 제한된 환경이나, 모델이 사용자 쿼리에 대한 응답을 생성할 때 AI 추론을 데이터 네트워크 없이 오프라인에서 수행해야 하는 시나리오에 이상적입니다.

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

감사합니다! 구독이 완료되었습니다.

구독은 영어로 제공됩니다. 모든 뉴스레터에는 구독 취소 링크가 있습니다. 여기에서 구독을 관리하거나 취소할 수 있습니다. 자세한 정보는 IBM 개인정보 보호정책을 참조하세요.

소규모 언어 모델의 작동 방식

LLM은 SLM의 기반 역할을 합니다. 대규모 언어 모델과 마찬가지로 소규모 언어 모델은 트랜스포머 모델로 알려진 신경망 기반 아키텍처를 사용합니다. 트랜스포머는 자연어 처리(NLP)의 기본이 되었으며 GPT(Generative Pre-trained Transformer)와 같은 모델의 빌딩 블록 역할을 합니다.

다음은 트랜스포머 아키텍처에 대한 간략한 개요입니다.

  • 인코더는 인풋 시퀀스를 임베딩이라는 숫자 표현으로 변환하며 이는 인풋 시퀀스에서 토큰의 의미와 위치를 캡처합니다.

  • 셀프 어텐션 메커니즘을 통해 트랜스포머는 위치에 관계 없이 인풋 시퀀스에서 가장 중요한 토큰에 '주의를 집중'할 수 있습니다.

  • 디코더는 이 셀프 어텐션 메커니즘과 인코더의 임베딩을 사용하여 통계적으로 가장 확률이 높은 아웃풋 시퀀스를 생성합니다.

모델 압축

모델 압축 기술은 더 큰 모델에서 더 간결한 모델을 구축하기 위해 적용됩니다. 모델을 압축하려면 정확도를 최대한 유지하면서 크기를 줄여야 합니다. 다음은 몇 가지 일반적인 모델 압축 방법입니다.

  • 가지치기

  • 양자화

  • 저차원 분해

  • 지식 증류

가지치기

가지치기는 신경망에서 중요도가 더 낮거나 중복되거나 불필요한 매개변수를 제거합니다. 일반적으로 가지치기되는 매개변수에는 뉴런 간의 연결에 해당하는 숫자 가중치(이 경우 가중치는 0으로 설정됨), 뉴런 자체 또는 신경망의 계층이 포함됩니다.

가지치기된 모델은 정확도 손실을 만회하기 위해 가지치기 후 미세 조정해야 하는 경우가 많습니다. 또한 과도한 가지치기는 모델의 성능을 저하할 수 있으므로 충분한 매개변수가 제거된 시점을 파악하는 것이 중요합니다.

정량화

양자화는 고정밀 데이터를 저정밀 데이터로 변환합니다. 예를 들어, 모델 가중치와 활성화 값(신경망의 뉴런에 할당된 0과 1 사이의 숫자)을 32비트 부동 소수점 숫자 대신 8비트 정수로 표현할 수 있습니다. 양자화는 계산 부하를 줄이고 추론 속도를 높일 수 있습니다.

양자화는 모델 학습에 통합하거나(양자화 인식 학습, 즉 QAT라고 함) 학습 후에 수행할 수 있습니다(사후 양자화, 즉 PTQ라고 함). PTQ는 QAT만큼 많은 계산 능력과 학습 데이터가 필요하지 않지만, QAT가 더 정확한 모델을 생성할 수 있습니다.

저차원 분해

저차원 분해는 큰 가중치 행렬을 더 작은 저차원 행렬로 분해합니다. 이처럼 더 간결한 근사치를 사용하면 매개변수 수가 줄어들고 계산 횟수가 줄어들며 복잡한 행렬 연산을 단순화할 수 있습니다.

그러나 저차원 분해는 계산 집약적이며 구현하기가 더 어려울 수 있습니다. 가지치기와 마찬가지로, 분해된 신경망은 정확도 손실을 복구하기 위해 미세 조정이 필요합니다.

지식 증류

지식 증류는 사전 학습된 "교사 모델"의 학습 내용을 "학생 모델"로 이전하는 것입니다. 학생 모델은 교사 모델의 예측과 일치시키고 기본 추론 과정을 모방하도록 학습합니다. 이처럼 더 큰 모델의 지식이 더 작은 모델로 기본적으로 '증류'됩니다.

지식 증류는 많은 SLM에서 널리 사용되는 접근 방식입니다. 일반적으로 오프라인 증류 방식이 사용됩니다. 이 방식에서는 교사 모델의 가중치가 고정되며 증류 과정에서 변경할 수 없습니다.

AI 아카데미

사용 사례에 적합한 AI 모델 선택

AI 모델은 크다고 항상 좋은 것은 아닙니다. 비즈니스 요구 사항에 맞는 적합한 솔루션을 찾는 방법을 알아보세요. 그런 다음 가이드북을 통해 솔루션을 도입하는 데 도움을 받으세요.

소규모 언어 모델의 예

많은 기업에서 여전히 대규모 모델을 선택하지만, 소규모 모델은 빠르게 자리를 잡아가고 있습니다. 다음은 인기 있는 SLM의 몇 가지 예입니다.

  • DistilBERT

  • Gemma

  • GPT-4o mini

  • Granite

  • Llama

  • Ministral

  • Phi

DistilBERT

DistilBERT는 Google의 선구적인 BERT 파운데이션 모델을 경량화한 버전입니다. 지식 증류를 사용하여 이전 모델보다 40% 더 작고 60% 더 빠르면서도 BERT의 자연어 이해 능력을 97% 그대로 유지합니다.1

BERT의 다른 축소 버전에는 440만 개의 매개변수를 사용하는 tiny, 1,130만 개의 매개변수를 사용하는 mini, 2,910만 개의 매개변수를 사용하는 small, 4,170만 개의 매개변수를 사용하는 medium이 있습니다.2 MobileBERT는 모바일 장치에 맞게 설계되었습니다.3

Gemma

Gemma는 Google의 Gemini LLM과 동일한 기술로 제작 및 증류되었으며 20억, 70억, 90억 개 매개변수 크기로 제공됩니다.4 Gemma는 Google AI Studio와 Kaggle 및 Hugging Face 플랫폼을 통해 사용할 수 있습니다.

Gemini는 또한 모바일 장치에서 작동하도록 설계된 Gemini 1.5 Flash-8B 및 Gemini 1.0 Nano 형태의 더 가벼운 변형을 가지고 있습니다.5

GPT-4o mini

GPT-4o mini는 ChatGPT 생성형 AI 챗봇을 구동하는 OpenAI의 GPT-4 AI 모델 제품군에 속합니다. GPT-4o mini는 GPT-4o의 더 작고 비용 효율적인 변형 제품입니다. 멀티모달 기능이 있어 텍스트와 이미지 인풋을 모두 받고 텍스트 아웃풋을 생성합니다.

ChatGPT Free, Plus, Team 및 Enterprise 사용자는 GPT-3.5를 대체하는 GPT-4o mini에 액세스할 수 있습니다. 개발자는 다양한 애플리케이션 프로그래밍 인터페이스(API)를 통해 GPT-4o mini에 액세스할 수 있습니다.

Granite

GraniteTM는 IBM의 주력 LLM 파운데이션 모델 시리즈입니다. Granite 3.0 컬렉션에는 20억 및 80억 개의 매개변수가 있는 기본 사전 학습 및 명령 조정 모델이 포함되어 있습니다. 또한 Granite 3.0에는 지연시간을 최소화하기 위한 전문가 조합(MoE) SLM과 모델 추론 속도를 가속화하기 위한 최적화된 변형이 포함되어 있습니다.

이러한 오픈 소스 모델은 언어별 작업에서 뛰어날 뿐 아니라, 툴 또는 함수 호출을 사용하여 작업을 자율적으로 수행하는 AI 에이전트로서 사이버 보안과 같은 엔터프라이즈 도메인에서도 뛰어납니다. 또한 외부 지식 기반에서 정보를 검색하여 가장 정확한 최신 정보를 모델의 기반으로 삼는 검색 증강 생성(RAG) 작업에서도 탁월합니다.

Granite 3.0 모델은 IBM watsonx 포트폴리오의 제품과 Google Vertex AI, Hugging Face, NVIDIA(NIM 마이크로서비스), Ollama 및 Replicate를 통해 상업적으로 사용할 수 있습니다.

Llama

Llama는 Meta의 오픈 소스 언어 모델 라인입니다. Llama 3.2는 10억 및 30억 개의 매개변수 크기로 제공되며,6 이는 이전의 70억 개 매개변수 버전인 Llama 2보다 훨씬 작습니다.7

이러한 다국어 텍스트 전용 모델의 양자화 버전은 크기가 절반 이상으로 줄어들었고 속도는 2~3배 더 빨라졌습니다.6 이러한 SLM은 Meta, Hugging Face 및 Kaggle을 통해 액세스할 수 있습니다.

Ministral

Les Ministraux는 Mistral AI의 SLM 그룹입니다. Ministral 3B는 이 회사의 가장 작은 모델로 30억 개의 매개변수를 가졌으며, 80억 개의 매개변수를 가진 Ministral 8B는 Mistral AI가 출시한 최초의 AI 모델 중 하나인 Mistral 7B의 후속 모델입니다. 두 모델 모두 Mistral을 통해 액세스할 수 있습니다.8

Ministral 8B는 지식, 상식, 다국어 기술을 평가하는 벤치마크에서 Mistral 7B를 능가했습니다. 신속한 추론을 위해 Ministral 8B는 인풋 시퀀스의 특정 고정 크기 '윈도우'에 초점을 맞추는 동적 메커니즘인 슬라이딩 윈도우 어텐션을 사용하므로, 모델이 한 번에 소수의 단어에만 집중할 수 있습니다.8

Phi

Phi는 Microsoft의 소규모 언어 모델 제품군입니다. Phi-2에는 27억 개의 매개변수가 있는 반면 Phi-3-mini에는 38억 개의 매개변수가 있습니다.9

Phi-3-mini는 모델이 고려할 수 있는 최대 텍스트 양을 의미하는 컨텍스트 윈도우가 길어서 대규모 텍스트 콘텐츠를 분석하고 추론할 수 있습니다. Microsoft에 따르면 70억 개 매개변수를 가진 SLM인 Phi-3-small이 향후 출시될 예정입니다. Phi-3-mini는 Microsoft Azure AI Studio, Hugging Face 및 Ollama에서 액세스할 수 있습니다.9

LLM과 SLM 결합

AI 개발의 발전으로 LLM과 SLM의 공동 역량을 극대화하는 최적화 접근 방식이 생겨났습니다.

하이브리드 AI 패턴: 하이브리드 AI 모델은 프롬프트에 응답하기 위해 대량의 데이터 코퍼스가 필요한 경우 온프레미스에서 더 작은 모델을 실행하고 퍼블릭 클라우드에서 LLM에 액세스할 수 있습니다.

지능형 라우팅: 지능형 라우팅을 적용하여 AI 워크로드를 보다 효율적으로 분산할 수 있습니다. 라우팅 모듈을 생성하여 쿼리를 수락하고, 쿼리를 평가하고, 쿼리를 전달할 가장 적합한 모델을 선택할 수 있습니다. 소규모 언어 모델은 기본적인 요청을 처리할 수 있고, 대규모 언어 모델은 더 복잡한 요청을 처리할 수 있습니다.

소규모 언어 모델의 이점

더 큰 것이 항상 더 좋은 것은 아니며 SLM에서 부족한 크기는 다음과 같은 이점을 통해 보완됩니다.

접근성: 연구원, AI 개발자 및 기타 개인이 여러 대의 GPU(그래픽 처리 장치) 또는 기타 특수 장비에 투자하지 않고도 언어 모델을 탐색하고 실험할 수 있습니다.

효율성: SLM의 간결함 덕분에 리소스 집약도가 낮아 신속한 학습 및 배포가 가능합니다.

효과적인 성능: 이러한 효율성을 유지하면서도 성능이 저하되지 않습니다. 소규모 모델은 대규모 모델과 비슷하거나 더 나은 성능을 가질 수 있습니다. 예를 들어, GPT-4o mini는 언어 이해, 질문 답변, 추론, 수학적 추론 및 코드 생성 LLM 벤치마크에서 GPT-3.5 Turbo를 능가했습니다.10 GPT-4o mini의 성능도 더 큰 GPT-4o 모델과 비슷합니다.10

개인 정보 보호 및 보안 제어 강화: SLM은 크기가 작기 때문에 프라이빗 클라우드 컴퓨팅 환경이나 온프레미스에 배포할 수 있으므로, 데이터 보호를 개선하고 사이버 보안 위협을 더 효과적으로 관리 및 완화할 수 있습니다. 이는 개인 정보 보호와 보안이 모두 중요한 금융 또는 의료와 같은 부문에서 특히 유용할 수 있습니다.

지연시간 감소: 매개 변수가 적을수록 처리 시간이 단축되므로 SLM은 빠르게 응답할 수 있습니다. 예를 들어, Granite 3.0 1B-A400M 및 Granite 3.0 3B-A800M의 총 매개변수 수는 각각 10억 개 및 30억 개이며, 추론 시 활성 매개변수 수는 1B 모델의 경우 4억 개, 3B 모델의 경우 8억 개입니다. 이를 통해 두 SLM 모두 지연시간을 최소화하는 동시에 높은 성능을 제공할 수 있습니다.

더 뛰어난 환경적 지속 가능성: 소규모 언어 모델에 필요한 컴퓨팅 리소스가 더 적기 때문에 에너지 소비가 적어 탄소 발자국을 줄일 수 있습니다.

비용 절감: 조직은 방대한 양의 고품질 학습 데이터를 확보하고 고급 하드웨어를 사용하는 등 대규모 모델을 실행하는 데 필요한 개발, 인프라 및 운영 비용을 절감할 수 있습니다.

소규모 언어 모델의 한계

LLM과 마찬가지로 SLM은 AI의 위험에 대처해야 합니다. 이는 소규모 언어 모델을 내부 워크플로에 통합하거나 특정 애플리케이션에 대해 상업적으로 구현하려는 기업에서 고려해야 할 사항입니다.

편향: 더 작은 모델은 더 큰 모델에 존재하는 편향으로부터 학습할 수 있으며, 이로 인한 파급 효과가 아웃풋에 반영될 수 있습니다.

복잡한 작업에서의 성능 저하: SLM은 일반적으로 특정 작업에 대해 미세 조정되기 때문에 포괄적인 주제에 대한 지식이 필요한 복잡한 작업에서는 능숙도가 떨어질 수 있습니다. 예를 들어, Microsoft는 "Phi-3 모델은 모델 크기가 더 작아 정보를 보유하는 용량이 작기 때문에 정보 기반 지식 벤치마크에서 성능이 낮다"고 설명했습니다.9

제한된 일반화: 소규모 언어 모델은 대규모 언어 모델에 비해 광범위한 지식 기반이 부족하므로 특정 언어 작업에 더 적합할 수 있습니다.

할루시네이션: SLM이 생성한 결과가 실제로 정확한지 확인하기 위해 SLM의 결과를 검증하는 것이 매우 중요합니다.

소규모 언어 모델 사용 사례

기업은 도메인별 데이터 세트를 기반으로 SLM을 미세 조정하여 특정 요구 사항에 맞게 맞춤화할 수 있습니다. 이러한 적응성 덕분에 소규모 언어 모델을 다양한 실제 애플리케이션에 사용할 수 있습니다.

챗봇: 대화형 AI 기능을 제공하므로 고객 서비스 챗봇이 쿼리에 실시간으로 빠르게 응답하도록 지원할 수 있습니다. 또한 응답을 제공하는 데 그치지 않고 사용자를 대신하여 작업을 완료하는 에이전틱 AI 챗봇의 중추 역할도 할 수 있습니다.

콘텐츠 요약: 예를 들어 Llama 3.2 1B 및 3B 모델을 사용하여 스마트폰에서 토론을 요약하고 캘린더 이벤트와 같은 작업 항목을 만들 수 있습니다.6 마찬가지로 Gemini Nano는 오디오 녹음 및 대화 대본을 요약할 수 있습니다.11

생성형 AI: 텍스트와 소프트웨어 코드를 완성하고 생성하기 위해 컴팩트 모델을 구현할 수 있습니다. 예를 들어, granite-3b-code-instruct 및 granite-8b-code-instruct 모델을 사용하여 자연어 프롬프트에서 코드를 생성, 설명 및 번역할 수 있습니다.

언어 번역: 많은 소규모 언어 모델은 다국어를 지원하며 영어 이외의 언어로 학습했기 때문에 언어를 빠르게 번역할 수 있습니다. 컨텍스트를 이해할 수 있으므로 원문의 뉘앙스와 의미를 유지하는 거의 정확한 번역을 할 수 있습니다.

예측적 유지 관리: 린 모델은 센서 또는 사물인터넷(IoT) 장치와 같은 로컬 엣지 장치에 직접 배포할 수 있을 만큼 작습니다. 따라서 제조업체는 기계 및 장비에 설치된 센서에서 데이터를 수집하고 해당 데이터를 실시간으로 분석하여 유지 관리 필요성을 예측하는 툴로 SLM을 활용할 수 있습니다.

감정 분석: SLM은 언어를 처리하고 이해하는 것 외에도 방대한 양의 텍스트를 객관적인 방식으로 정렬하고 분류하는 데에도 능숙합니다. 따라서 텍스트를 분석하고 그 이면의 감정을 측정하는 데 적합하여 고객 피드백을 파악하는 데 도움이 됩니다.

차량 내비게이션 지원: SLM과 같은 빠르고 컴팩트한 모델은 차량의 온보드 컴퓨터에서 실행할 수 있습니다. 소규모 언어 모델은 멀티모달 능력을 통해 음성 명령과 이미지 분류를 결합하여 차량 주변의 장애물을 식별할 수 있습니다. 또한 RAG 기능을 통해 고속도로 코드 또는 도로 규칙에서 세부 정보를 검색하여 운전자가 보다 안전하고 정보에 입각한 운전 결정을 내리도록 지원할 수 있습니다.

관련 솔루션
파운데이션 모델

watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 컨설팅 및 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

IBM watsonx 포트폴리오의 IBM 파운데이션 모델 라이브러리에 대해 자세히 알아보고 비즈니스를 위한 생성형 AI를 자신 있게 확장하세요.

watsonx.ai에 대해 알아보기 IBM Granite AI 모델 살펴보기
각주

모든 링크는 ibm.com 외부에 있습니다.

1 DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter, arXiv, 2020년 3월 1일

2 Well-Read Students Learn Better: On the Importance of Pre-training Compact Models, arXiv, 2019년 9월 25일

3 MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices, arXiv, 2020년 4월 14일

4 Gemma explained: An overview of Gemma model family architectures, Google for Developers, 2024년 8월 15일

5 Gemini Models, Google DeepMind, 2024년 10월 17일 액세스

6 Introducing Llama 3.2, Meta, 2024년 10월 17일 액세스

7 Meta and Microsoft Introduce the Next Generation of Llama, Meta, 2023년 7월 18일

8 Un Ministral, des Ministraux, Mistral AI, 2024년 10월 16일

9 Introducing Phi-3: Redefining what’s possible with SLMs, Microsoft, 2024년 4월 23일

10 GPT-4o mini: advancing cost-efficient intelligence, OpenAI, 2024년 7월 18일

11 Gemini Nano, Google DeepMind, 2024년 10월 21일 액세스