대규모 언어 모델 목록

작성자

Staff Writer

IBM Think

Staff Editor, AI Models

IBM Think

대규모 언어 모델 목록

생성형 AI(gen AI) 붐이 일면서 그 원동력인 대규모 언어 모델(LLM)이 주목받고 있습니다. 이미 수십 개의 LLM이 존재하지만, 기술이 빠르게 발전함에 따라 이러한 인공 지능(AI) 모델은 계속해서 더 많이 생겨나고 있습니다.

자동차 산업의 관점에서 생각해 보십시오. 전 세계 수백 개의 자동차 제조업체가 다양한 소비자 요구를 충족하는 자체 모델을 보유하고 있습니다. 가스 구동 자동차에서 스마트 기능이 많은 전기 자동차에 이르기까지 자동차도 시간이 지남에 따라 변화해 왔습니다.

LLM의 경우에도 마찬가지입니다. 이러한 AI 시스템은 방대한 데이터 세트에서 학습된 여러 신경망 계층으로 구성된 파운데이션 모델에서 시작되었습니다.

이러한 시스템은 딥 러닝 기술을 사용하여 자연어 처리(NLP) 및 자연어 이해(NLU) 작업을 수행합니다. 그러나 이러한 시스템의 능력은 에이전틱 AI 기능과 추론을 포함하도록 개선되었습니다.

이처럼 빠른 속도로 진화한다는 것은 LLM 환경이 끊임없이 변화하고 있음을 의미합니다. AI 개발자는 빠른 발전 속도를 따라잡기 위해 지속적으로 모델을 업데이트하거나 새로운 모델을 구축해야 합니다.

콘텐츠 요약, 기계 번역, 감정 분석, 텍스트 생성과 같은 NLP 및 NLU 작업이 계속해서 주류를 이루고 있지만, AI 개발자들은 특정 사용 사례에 맞게 모델을 조정하고 있습니다.

예를 들어, 일부 LLM은 코드 생성을 위해 특별히 제작된 반면, 다른 LLM은 비전 언어 작업을 처리하도록 만들어졌습니다.

모든 LLM을 언급하는 것은 불가능하지만, 조직이 선택의 폭을 좁히고 어떤 모델이 필요를 충족하는지 고려할 수 있도록 가장 최신의 인기 있는 대형 언어 모델 목록을 소개합니다.

Claude

개발자: Anthropic

출시일: 2025년 2월(Claude 3.7 Sonnet)

매개 변수 개수: 공개되지 않음

컨텍스트 창: 토큰 200,000개

라이선스: 독점

액세스: Anthropic API, Amazon Bedrock, Google Cloud Vertex AI

인풋: 멀티모달(이미지, 텍스트)

아웃풋: 텍스

Claude는 트랜스포머 아키텍처를 기반으로 하는 LLM 제품군입니다. 같은 이름의 대화형 AI 비서 뒤에 있는 큰 모델입니다. Claude의 설계는 AI 편향과 같은 유해한 행동을 줄이기 위해 AI 안전에 중점을 둔 헌법적인 AI 원칙에 따라 진행됩니다.

Claude 제품군은 3가지 AI 모델로 구성됩니다.

● Claude Haiku

● Claude Sonnet

● Claude Opus

Claude Haiku

Claude 3.5 Haiku는 가장 빠른 모델입니다. 고객 서비스 챗봇이나 코드 완성과 같이 지연 시간이 짧은 사용 사례에 적합하여 소프트웨어 개발 워크플로 속도를 높여줍니다.

Claude Sonnet

Claude 3.7 Sonnet는 Anthropic이 "지금까지 가장 지능적인 모델"이라고 설명하는 모델입니다. 이 추론 모델에는 "확장 사고" 모드가 있어 응답하기 전에 자기 성찰이 가능합니다. 또한 Anthropic API 사용자는 모델이 얼마나 오래 생각할지를 지정할 수 있습니다.

Claude 3.7 Sonnet는 코드 생성, 컴퓨터 사용(LLM이 인간이 사용하는 방식대로 컴퓨터를 사용할 수 있도록 함), 시각적 데이터에서 정보 추출 및 질문 답변과 같은 보다 구체적인 작업을 위해 구현할 수 있습니다.

Claude Opus

Claude 3 Opus는 세 가지 모델 중 가장 강력한 모델입니다. 심층 분석과 여러 단계로 더 길고 복잡한 작업을 처리할 수 있습니다.

Command

개발자: Cohere

출시일: 2024년 4월(Command R+), 2024년 12월(Command R7B)

매개변수 개수: 최대 1,040억 개

컨텍스트 창: 토큰 128,000개

라이선스: 독점

액세스: Cohere API, Amazon Bedrock, Microsoft Azure AI Studio, Oracle Cloud Infrastructure Generative AI

인풋: 텍스트

아웃풋: 텍스

Command는 Cohere의 주력 언어 모델입니다. 이 엔터프라이즈 중심의 LLM 제품군에는 다음과 같은 모델이 포함됩니다.

● Command R

● Command R+

● Command R7B

Command R

Command R은 320억 개의 매개 변수가 있는 다국어 텍스트 생성 모델입니다.¹ 응답에 인용을 제공하여 검색 증강 생성(RAG) 기능을 기반으로 하도록 학습되었습니다. Command R은 대화형 도구 사용 기능도 제공합니다.

Command R+

Command R+는 1,040억 개의 매개변수가 있는 더 강력한 버전입니다.² 복잡한 RAG 기능과 다단계 도구 사용을 처리할 수 있으므로 AI 에이전트가 최신 정보를 수집하고 지식 기반을 업데이트할 수 있습니다.

Command R7B

Command R7B는 70억 개의 매개변수를 가진 가장 작고 빠른 모델입니다. CPU 기반 배포, 저가형 GPU 및 기타 엣지 장치에 이상적이며 온디바이스 추론을 위해 구현할 수 있습니다.

DeepSeek-R1

개발자: DeepSeek

출시일: 2025년 1월

매개변수 개수: 6,710억 개

컨텍스트 창: 토큰 128,000개

라이선스: 오픈 소스(MIT 라이선스)

액세스: DeepSeek API, Hugging Face

인풋: 텍스

아웃풋: 텍스트

DeepSeek-R1은 중국 AI 스타트업 DeepSeek의 오픈 소스 추론 모델입니다. 이 모델은 Mixture of Experts (MOE) 기계 학습 아키텍처를 기반으로 하며, 추론 기능을 정제하기 위해 대규모 강화 학습을 사용하여 훈련을 받았습니다.

DeepSeek-R1의 성능은 특정 LLM 벤치마크에서 OpenAI의 o1 시리즈 추론 모델과 유사하거나 더 우수합니다. DeepSeek-R1은 또한 지식 증류를 사용하여 훨씬 더 큰 DeepSeek-R1 LLM에서 생성된 추론 데이터를 사용하여 여러 작은 Llama 및 Qwen 모델을 미세 조정했습니다

결과적으로 도출된 증류 모델은 원래 모델의 추론 능력을 향상시켰으며, 심지어 다른 대형 모델보다 성능이 향상되었습니다. ³

Falcon

개발자: Technology Innovation Institute

출시일: Falcon 3의 경우, 2024년 12월

매개변수 개수: 최대 1,800억 개

컨텍스트 창: 최대 토큰 32,000개

라이선스: 오픈 소스

액세스: Hugging Face

인풋: 텍스트

아웃풋: 텍스

Falcon은 UAE TII(Technology Innovation Institute)의 연구원들이 개발한 오픈 소스 모델 그룹입니다. 이 모델은 필터링된 영어 웹 데이터가 포함된 거대한 데이터 세트인 TII의 자체 RefinedWeb에서 훈련되었습니다.

Falcon은 다음과 같은 LLM으로 구성됩니다.

● Falcon 2

● Falcon 3

● Falcon Mamba 7B

이전 버전과 이후 Falcon 버전으로는 400억 개의 매개변수를 가진 Falcon 40B와 1,800억 개의 매개변수를 가진 Falcon 180B가 있습니다.

Falcon 2

Falcon 2 11B는 인과관계 디코더 전용 모델로 11억 개의 매개변수를 가지고 있습니다. 이 모델은 다국어 지원을 제공하며 곧 비전-언어 기능을 제공할 예정입니다.

Falcon 3

Falcon 3는 디코더 전용 설계를 도입했으며 1, 3, 7 및 10억 개의 경량 매개변수 크기로 제공됩니다. 이전 버전보다 개선되어 기능이 향상됩니다.

Falcon Mamba 7B

Falcon Mamba 7B는 일반적인 LLM 트랜스포머 아키텍처에서 벗어난 SSLM(상태 공간 언어 모델)입니다. 트랜스포머 모델은 어텐션 메커니즘을 사용하여 입력 시퀀스에서 가장 중요한 토큰에 "주의를 집중"합니다. 그러나 컨텍스트 창이 커짐에 따라 트랜스포머는 더 많은 메모리와 컴퓨팅 성능을 필요로 합니다.

SSLM은 처리 중에 "상태"를 지속적으로 업데이트하고 선택 알고리즘을 사용하여 입력에 따라 매개변수를 동적으로 조정합니다. 이를 통해 Falcon Mamba 7B는 추가 메모리 없이 긴 텍스트 시퀀스를 처리하고 컨텍스트 길이와 관계없이 동일한 시간에 새 토큰을 생성할 수 있습니다.

Gemini

개발자: Google DeepMind

출시일: 2024년 12월

매개변수 개수: 공개되지 않음

컨텍스트 창:토큰 100만 개

라이선스: 독점

액세스: Gemini API, Google AI 스튜디오, Google Cloud Vertex AI

입력: 멀티모달(오디오, 이미지, 텍스트, 비디오)

아웃풋: 텍스

Gemini는 Google의 멀티모달 모델 컬렉션입니다. 또한, 동명의 생성형 AI 챗봇(이전 명칭: Bard)을 구동합니다.

Gemini는 Google에서 자체 개발한 신경망 아키텍처인 트랜스포머 모델을 사용하며, BERT(트랜스포머의 양방향 인코더 표현) 및 PaLM 2(패스웨이 언어 모델)를 비롯한 회사의 이전 기본 언어 모델을 기반으로 합니다.

Google에 따르면 최신 버전인 Gemini 2.0은 "에이전트 시대를 위해 만들어졌다"고 합니다. Gemini 2.0은 다양한 버전으로 제공됩니다.

● Gemini 2.0 Flash

● Gemini 2.0 Flash-Lite

● Gemini 2.0 Pro

Gemini 2.0 Flash

Gemini 2.0 Flash는 도구 사용을 지원하는 경량 모델입니다. 곧 제공될 기능에는 이미지 생성 및 Text to Speech가 포함됩니다.

Gemini 2.0 Flash-Lite

Gemini 2.0 Flash-Lite는 이전의 가볍고 비용 효율적인 1.5 Flash의 개선된 버전입니다. 품질을 높이고 동일한 속도와 비용을 유지합니다.

Gemini 2.0 Pro

Gemini 2.0 Pro는 Google이 코딩 및 복잡한 프롬프트를 처리하는 데 가장 강력한 모델이라고 부르는 도구 활용 능력과 토큰 200만 개로 확장된 컨텍스트 창을 제공합니다. 아직 실험 단계입니다.

GPT

개발자: OpenAI

출시일: GPT-4o의 경우 2024년 5월, GPT-4o mini의 경우 2024년 7월

매개변수 개수: 공개되지 않음

컨텍스트 창: 토큰 128,000개

라이선스: 독점

액세스: .NET, JavaScript, Python, TypeScript를 사용하는 OpenAI API

입력: 멀티모달(오디오, 이미지, 텍스트, 비디오)

아웃풋: 멀티모달(오디오, 이미지, 텍스트)

GPT(생성형 사전 학습 트랜스포머)는 OpenAI에서 개발한 대규모 언어 모델 라인입니다. GPT에는 다음과 같은 LLM이 포함됩니다.

● GPT-4o

● GPT-4o mini

GPT-4o

GPT-4o는 다국어 다중 모드 모델입니다. 가장 진보된 LLM 중 하나인 GPT-4o는 오디오, 텍스트 및 시각적 입력을 처리하고 오디오, 이미지 및 텍스트 아웃풋을 자유롭게 혼합하여 생성할 수 있습니다.

이전 버전의 GPT-4 Turbo 및 GPT-4에 비해 성능이 향상되었습니다. GPT-4o는 현재 OpenAI의 ChatGPT 생성 ai 챗봇을 구동하는 LLM입니다.

GPT-4o mini

GPT-4o mini는 이미지와 텍스트 입력을 받고 텍스트 아웃풋을 생성하는 더 작고 저렴한 모델입니다. 성능 면에서 GPT-3.5 Turbo를 능가했습니다.

Granite

개발자: IBM

출시일: 2025년 2월

매개변수 개수: 최대 340억 개

컨텍스트 창: 토큰 128,000개

라이선스: 오픈 소스(Apache 2.0)

액세스: IBM watsonx.ai, Hugging Face, LM Studio, Ollama, Replicate

인풋: 멀티모달(이미지, 텍스트)

아웃풋: 텍스

IBM Granite 기업에 적합한 오픈 소스 LLM 시리즈입니다. 여기에는 다음 모델이 포함됩니다.

● Granite 3.2

● Granite Vision

Granite 3.2

Granite 3.2는 RAG 작업을 위한 향상된 추론 기능과 고급 기능을 통합합니다. 20억 개와 80억 개의 매개변수 크기로 제공됩니다.

Granite 3.2의 학습 데이터로는 퍼미시브 라이선스가 적용된 오픈 소스 데이터 세트와 긴 컨텍스트의 문제를 해결하도록 맞춤화된 고품질 합성 데이터 세트가 혼용되었습니다.

Granite Vision

Granite Vision은 시각적 문서의 이해를 위해 조정된 20억 개 매개변수로 구성된 비전 언어 모델입니다. 차트, 다이어그램 및 표에서 콘텐츠를 효율적으로 추출할 수 있도록 설계되어 정형적 데이터 분석에 적합합니다.

Granite 시리즈의 다른 LLM은 이러한 특수 모델로 구성됩니다.

● Granite 코드

● Granite Guardian

● Granite Embedding

Granite Code

이러한 디코더 전용 모델은 코드 편집, 코드 설명 및 코드 생성을 포함한 코드 생성 작업용으로 설계되었습니다. Granite Code 모델은 116개의 프로그래밍 언어로 작성된 코드로 학습되었으며, 제공되는 매개변수 개수는 30억 개, 80억 개, 200억 개 또는 340억 개입니다.

Granite Guardian

Granite Guardian 모델은 프롬프트와 대응에서 위험을 감지하도록 설계된 LLM 기반 가드레일입니다. Granite Guardian은 20억, 3, 5, 80억 개의 매개변수 크기로 제공됩니다.

Granite Embedding

Granite 임베딩 모델은 시맨틱 검색 및 RAG와 같은 검색 기반 애플리케이션을 위해 특별히 제작된 문장 변환기 모델입니다.

Grok

개발자: xAI

출시일: 2025년 2월: Grok 3

매개변수 개수: 3,140억 개

컨텍스트 창: 토큰 128,000개

라이선스: 독점

액세스: xAI API

인풋: 멀티모달(이미지, 텍스트)

아웃풋: 텍스

Grok은 xAI의 언어 모델입니다. 1세대 LLM인 Grok-1은 314억 개의 매개변수를 가진 MoE 모델입니다. 그 크기가 크기 때문에 Grok-1의 모델 가중치 중 주어진 입력 토큰에서 활성화되는 비율은 25%에 불과합니다.

2024년 3월, xAI는 128,000개의 토큰으로 구성된 컨텍스트 창과 향상된 문제 해결 능력을 갖춘 Grok-1.5를 출시했습니다. 5개월 후, xAI는 Grok-2의 베타 버전과 더 작은 버전인 Grok-2 mini를 출시했습니다. Grok-2는 채팅, 코딩 및 추론 능력이 훨씬 더 향상되었으며 시각 기반 작업에 대한 지원이 추가되었습니다.

최신 릴리스인 Grok 3 및 Grok 3 mini에는 고급 추론 및 AI 에이전트 기능이 탑재되어 있습니다.

Llama

개발자: Meta

출시일: 2024년 12월(Llama 3.3)

매개변수 개수: 최대 4,050억 개

컨텍스트 창: 토큰 128,000개

라이선스: 오픈 소스

액세스: Meta, Hugging Face, Kaggle

인풋: 멀티모달(이미지, 텍스트)

아웃풋: 텍스트

Llama는 Meta AI의 LLM 컬렉션입니다. 이러한 자기회귀 모델은 트랜스포머 아키텍처를 구현하며, 인간 피드백을 기반으로 한 지도 미세 조정 및 강화 학습(RLHF)을 적용하는 조정된 버전을 제공합니다.⁵

Llama 3 컬렉션은 Llama 2 LLM을 계승하며 다음과 같은 모델을 제공합니다.

● Llama 3.1

● Llama 3.2

● Llama 3.3

Llama 3.1

Llama 3.1은 80억 개의 매개변수 모델과 4050억 개의 매개변수 플래그십 파운데이션 모델을 보유하고 있습니다. 두 모델 모두 다국어 텍스트 전용 모델입니다.

Llama 3.2

Llama 3.2는 모바일 및 엣지용으로는 충분한 컴팩트한 10억 개 또는 30억 개 매개변수 크기로 제공됩니다. 110억 개 및 900억 개 매개변수 크기는 이미지, 캡션, 이미지 추론 및 Visual Recognition에 관한 일반적인 질문에 답하는 데 최적화된 멀티모달 LLM입니다.⁶

Llama 3.3

Llama 3.3은 700억 개의 매개변수를 가진 다국어 텍스트 전용 모델입니다. Llama 3.1 405B와 비슷하거나 심지어 성능이 향상되었지만 비용 효율성이 더 높습니다.

Mistral

개발자: Mistral AI

출시일: 2024년 7월(Mistral Large 2)

매개변수 개수: 최대 1,240억 개

컨텍스트 창: 최대 토큰 256,000개

라이선스: Mistral Research License, Mistral Commercial License, Apache 2.0

액세스: La Plateforme, Amazon Bedrock, Microsoft Azure AI Studio, Google Cloud Vertex AI, IBM watsonx.ai

인풋: 멀티모달(이미지, 텍스트)

아웃풋: 텍스트

프랑스에 본사를 둔 회사인 Mistral AI는 다음과 같은 모델을 포함하는 LLM 제품군을 보유하고 있습니다.

● Mistral Large

● Mistral Small

● Codestral

● Pixtral Large

Mistral Large

Mistral Large 2는 Mistral AI의 플래그십 모델입니다. 1,230억 개의 매개변수와 128,000개의 토큰으로 구성된 컨텍스트 창을 제공합니다. 코드 생성, 수학 및 추론에서 우수한 성능을 발휘합니다. Mistral Large 2는 다국어 지원 및 능력을 제공합니다.

Mistral Small

Mistral Small 3 240억 개의 매개변수로 구성된 더 컴팩트한 버전입니다. 이 모델은 빠른 응답 대화형 AI, 대기 시간이 짧은 함수 호출 및 리소스가 제한된 시스템에서 로컬로 추론을 처리하는 데 적합합니다. Mistral Small 3은 오픈 소스이며 Apache 2.0 라이선스에 따라 출시됩니다.

Codestral

Codestral 25.01는 Mistral AI의 최신 코딩 모델입니다. 256,000개의 토큰으로 구성된 컨텍스트 길이를 특징으로 하며 코드 완성, 코드 수정, 코드 생성 및 테스트 생성과 같은 작업을 지원합니다.

Pixtral Large

Pixtral Large는 1,240억 개의 매개변수를 가진 멀티모달 모델입니다. Mistral Large 2를 기반으로 구축되었으며 이미지 이해를 포함하도록 능력을 확장했습니다.

o1

개발자: OpenAI

출시일: o1의 경우 2024년 9월, o3-mini의 경우 2025년 1월

매개 변수 개수: 공개되지 않음

컨텍스트 창: 최대 토큰 200,000개

라이선스: 독점

액세스: OpenAI API

인풋: 멀티모달(이미지, 텍스트)

아웃풋: 텍스

o1 시리즈 AI 모델에는 o1 및 o1-mini가 포함됩니다. OpenAI의 GPT 모델에 비해 o1 LLM은 더 고급스러운 추론 기능을 갖추고 있습니다. o1과 o1 미니 모두 대규모 강화 학습으로 학습되어 응답하기 전에 '생각'할 수 있었습니다. 응답하기 전에 긴 생각의 연결고리를 생성할 수 있습니다.

o1 LLM은 이미지와 텍스트 입력을 모두 허용하는 반면 o1-mini는 텍스트 입력만 처리할 수 있습니다.⁷ o1에 비해 o1-mini는 더 작고 빠르며 비용 효율적입니다. 또한 STEM 추론 및 코딩에 탁월합니다.

한편, o3-mini는 최신 추론 모델입니다. o1-mini와 마찬가지로 코딩, 수학, 과학에 강점이 있습니다. 함수 호출을 지원하며, 더 많은 추론 노력이 필요한 복잡한 문제나 빠른 응답이 필요하고 추론을 덜 사용할 수 있는 더 간단한 문제 등 다양한 시나리오에 최적화할 수 있는 3가지 추론 노력 옵션(낮음, 중간음, 높음)을 제공합니다.

AI 아카데미

파운데이션 모델이 AI 패러다임의 전환을 가져오는 이유

새로운 수익을 창출하고 비용을 절감하며 생산성을 높일 수 있는, 유연하고 재사용 가능한 새로운 AI 모델을 살펴봅니다. 그다음, 가이드북을 통해 보다 심층적으로 알아봅니다.

에피소드로 이동

Qwen

개발자: Alibaba Cloud

출시일: Qwen 2.5의 경우 2024년 9월, Qwen2.5-Max의 경우 2025년 1월

매개변수 개수: 최대 720억 개

컨텍스트 창: 최대 100만 개의 토큰

라이선스: 오픈 소스(Apache 2.0), 더 큰 모델용 독점

액세스: Alibaba Cloud, Hugging Face

입력: 멀티모달(오디오, 이미지, 텍스트, 비디오)

아웃풋: 텍스트

Qwen은 중국 클라우드 컴퓨팅 회사인 Alibaba Cloud의 LLM 시리즈입니다. Qwen에는 오디오, 코딩, 수학 및 시각 작업에 최적화된 언어 모델 및 변형이 포함되어 있습니다.

Qwen은 다음과 같은 모델을 제공합니다.

● Qwen 2.5

● Qwen Audio

● Qwen Coder

● Qwen Math

● Qwen VL

Qwen 2.5

Qwen2.5 모델은 다국어 언어 처리 작업을 위한 디코더 전용 모델입니다. 0.5, 3, 7, 14, 32 및 720억 개의 매개변수 크기로 제공됩니다. 720억 개 변형과 같은 더 큰 모델은 Alibaba의 독점 클라우드 플랫폼에서 API 액세스를 통해서만 사용할 수 있습니다.

Qwen2.5-Turbo는 토큰 100만 개의 더 긴 컨텍스트 길이와 더 빠른 추론 속도를 특징으로 합니다. 한편, Qwen2.5-Max는 최신 대규모 MoE 모델입니다.

Qwen Audio

Qwen 2 Audio는 오디오 기반 작업을 위해 특별히 제작되었습니다. 이 70억 개의 매개변수 모델은 소리를 기록, 감지 및 분류하고, 음성 명령을 처리하고, 음악적 요소를 파악하는 데 사용할 수 있습니다.

Qwen Coder

Qwen2.5 Coder 는 코드별 LLM입니다. 1.5, 7, 14 및 320억 개의 매개변수 크기로 사용할 수 있습니다.

Qwen Math

Qwen 2 Math는 수학에 최적화된 LLM 컬렉션입니다. 이러한 모델은 고급 수학적 추론 및 복잡한 수학 문제를 해결하는 데 적합합니다. Qwen 2 Math는 1.5, 7 및 720억 개의 매개변수 크기로 제공됩니다.

Qwen VL

Qwen 2 VL은 시각적 처리와 자연어 이해가 결합된 비전 언어 모델입니다. 사용 사례의 예로는 시각적 데이터에서 정보를 추출하고 이미지 및 비디오에 대한 캡션 및 요약을 생성하는 것 등이 있습니다. Qwen 2 VL은 20억 개, 70억 개 및 720억 개의 매개변수 크기로 제공됩니다.

안정적인 LM

개발자: Stability AI

출시일: Stable LM 2 12B의 경우, 2024년 4월

매개변수 개수: 최대 120억 개

컨텍스트 창: 토큰 4,096개

라이선스: Stability AI 커뮤니티 라이선스 또는 기업 라이선스

액세스: Stability AI, Hugging Face

인풋: 텍스트

아웃풋: 텍스

Stable LM은 텍스트-이미지 모델 Stable Diffusion의 제작자인 Stability AI의 오픈 액세스 언어 모델 그룹입니다. Stable LM 2 12B에는 12억 개의 매개변수가 있고 Stable LM 2 1.6B에는 1.6억 개의 매개변수가 있습니다. 이들은 다국어 데이터 및 코드 데이터 세트에 대해 학습된 디코더 전용 LLM입니다. 두 모델 모두 함수 호출과 도구 사용을 통합합니다.

Stable Code 3B 또한 코드 관련 데이터 세트에 맞춰 미세 조정된 LLM입니다. 30억 개의 매개변수가 포함된 경량 모델인 Stable Code 3B는 GPU가 없는 장치에서도 실시간으로 실행할 수 있습니다.

각주

모든 링크는 ibm.com 외부에 있습니다.

¹ C4AI Command R 08-2024용 모델 카드, Hugging Face, 2025년 2월 14일 액세스.

² C4AI Command R 08-2024용 모델 카드, Hugging Face, 2025년 2월 14일 액세스.

³ DeepSeek-R1: 강화 학습을 통한 LLM의 기능에 대한 인센티브 제공, GitHub, 2025년 1월 23일.

⁴ Gemini 앱에서 최신 2.0 실험 모델에 액세스하세요, Google, 2025년 2월 5일.

⁵ 모델 정보, GitHub, 2024년 9월 30일.

⁶ 모델 정보, GitHub, 2024년 9월 30일.

⁷ o1 및 o1-mini, OpenAI, 2025년 2월 14일 액세스.

적절한 파운데이션 모델을 선택하는 방법

데이터 세트를 준비하고 파운데이션 모델을 사용할 때 올바른 접근 방식을 선택하는 방법을 살펴보세요.

대규모 언어 모델 목록

작성자

대규모 언어 모델 목록

Claude

Claude Haiku

Claude Sonnet

Claude Opus

Command

Command R

Command R+

Command R7B

DeepSeek-R1

Falcon

Falcon 2

Falcon 3

Falcon Mamba 7B

Gemini

Gemini 2.0 Flash

Gemini 2.0 Flash-Lite

Gemini 2.0 Pro

GPT

GPT-4o

GPT-4o mini

최신 AI 뉴스+인사이트

Granite

Granite 3.2

Granite Vision

Granite Code

Granite Guardian

Granite Embedding

Grok

Llama

Llama 3.1

Llama 3.2

Llama 3.3

Mistral

Mistral Large

Mistral Small

Codestral

Pixtral Large

o1

파운데이션 모델이 AI 패러다임의 전환을 가져오는 이유

Qwen

Qwen 2.5

Qwen Audio

Qwen Coder

Qwen Math

Qwen VL

안정적인 LM

각주

리소스

최신 AI 뉴스+인사이트