Granite | IBM

벤치마크	지표	granite-4.1-3b	Granite-4.1-8b	Granite-4.1-30b
MMLU	5-shot	67.02	73.84	80.16
IFEval 평균		82.3	87.06	89.65
ArenaHard		37.8	68.98	71.02
GSM8K	8-shot	86.88	92.49	94.16
HumanEval	pass@1	79.27	87.2	89.63
BFCL v3		60.8	68.27	73.68
MMMLU	5-shot	57.61	64.84	73.71
AttaQ		81.88	81.19	85.76

액세스 및 구축

Hugging Face

Hugging Face로 이동

Ollama

LM Studio

watsonx.ai

OpenRouter

Replicate

Weights & Biases

Unsloth

AnythingLLM

성능 및 효율성

Granite 4.1은 긴 사고의 사슬에 의존하지 않으면서도 경쟁력 있는 지시 수행 및 툴 호출 성능을 제공하며 예측 가능한 지연 시간, 안정적인 토큰 사용량 및 낮은 운영 비용을 지원합니다. 이로 인해 Granite 4.1은 효율성과 안정성이 중요한 엔터프라이즈 워크로드에 적합한 강력한 운영 환경용 선택지가 됩니다.

도구 호출
명령 준수
유해성 탐지
전사 정확도
테이블 및 차트 추출

Granite 4.1 언어 모델은 툴 기반 지시를 이해하고 실행해 다양한 소프트웨어 툴 및 API와의 원활한 통합을 지원합니다. 이를 통해 엔터프라이즈는 복잡한 작업을 자동화하면서 강력한 AI 기반 워크플로를 구축할 수 있습니다.

BFCL V3 벤치마크 점수(높을수록 우수)를 기반으로 한 "Granite 4.1 언어 모델은 뛰어난 툴 호출 기능을 제공합니다"라는 제목의 가로 막대 차트. Granite-4.1-30B 73.7점으로 가장 높은 순위를 기록했으며, 그 뒤를 Gemma-4-31B-it 72.7점, Granite-4.1-8B 68.3점이 이었습니다. 나머지 모델은 약 61.7점에서 67.8점 사이의 점수를 기록했으며, 여기에는 Gemma-4-26B-A4B-it(67.8점), Qwen3-30B-A3B-Instruct-2507(65.1점), Granite-4.0-H-Small (64.7점), Qwen3.5-35B-A3B (64.2점), Gemma-4-E4B-it(63.2점), Qwen3-4B-Instruct-2507 (61.9) 및 Qwen3.5-9B (61.7점)이 포함됩니다. Granite 4.1 모델은 파란색으로 강조 표시되어 있으며 다른 모델보다 우수한 성능을 보입니다.

Granite 4.1 언어 모델은 사용자 지시를 이해하고 준수해 신뢰할 수 있고 정확한 작업 수행을 보장합니다. 이 기능은 프로세스를 자동화하고 일관되며 높은 품질의 결과를 제공하려는 엔터프라이즈에 특히 유용합니다.

IFEval 결과를 기반으로 한 "Granite 4.1 언어 모델은 경쟁력 있는 지시 수행 능력을 제공합니다"라는 제목의 가로 막대 차트. Gemma-4-31B-it가 94.1로 가장 높은 점수를 기록했으며, 그 뒤를 Gemma-4-26B-A4B-it가 91.3으로 잇고 있습니다. Granite-4.1-30B는 89.7점을 기록하며 Qwen3.5-35B-A3B(89.1)보다 소폭 높은 성능을 보였고, Gemma-4-E4B-it(87.8), Granite-4.0-H-Small (87.5), Qwen3.5-9B (87.2) 및 Granite-4.1-8B (87.1)를 포함한 85~88점대 모델들보다 앞선 성능을 나타냈습니다. 낮은 점수로는 Granite-4.1-3B는 82.1점, Qwen3.5-2B는 70.6점을 기록했습니다. Granite 4.1 모델은 파란색으로 강조 표시되어 있으며, Gemma 모델과 비교해 최고 수준은 아니지만 경쟁력 있는 성능을 보여줍니다.

Granite Guardian 4.1은 IBM® AI Risk Atlas에 정의된 주요 위험 차원을 탐지합니다. 사람의 주석 데이터와 내부 레드팀 활동에서 생성된 합성 데이터로 학습된 Guardian은 표준 벤치마크에서 유사 모델보다 뛰어난 성능을 보이며, 여기에는 탈옥 시도, 비속어 및 에이전트 기반 시스템에서의 툴 호출 및 검색 증강 생성과 관련된 할루시네이션 현상이 포함되지만 이에 국한되지는 않습니다.

Granite-Guardian-4.1-8B, OffsetBias-8B, Skywork-Reward-8B, Skywork-Reward-27B, SFR-Judge-70B 및 Oracle 기준 모델의 평가 데이터 세트별 성능을 비교한 표. 강조 표시된 Granite-Guardian-4.1-8B는 GSM8k(93.71), MATH(50.79), HumanEval+(80.08), MBPP+(70.63), BigCodeBench(43.70) 및 IFEval(82.81)을 포함한 모든 데이터 세트에서 우수한 성능을 기록했으며, 전체 점수는 70.29입니다. 대부분의 평가 항목에서 다른 모델보다 소폭 높은 성능을 보였지만, Oracle은 GSM8k 97.46점 및 전체 점수 81.54점을 기록하며 전반적으로 가장 높은 성능을 유지했습니다.

Granite Speech 4.1은 다양한 실제 오디오 환경에서 높은 정확도의 엔터프라이즈용 음성 인식을 제공하며 대화형 음성, 회의, 프레젠테이션 및 실적 발표 통화 벤치마크에서 낮은 단어 오류율을 달성합니다.

"Granite Speech 4.1은 전사 정확도에서 경쟁 모델보다 우수한 성능을 제공합니다"라는 제목의 그룹형 막대 차트로, 9개 데이터 세트에서의 영어 ASR 단어 오류율(낮을수록 우수)을 보여줍니다. GigaSpeech, LScln, LSoth, SPGI, AMI_IHM, AMI_SDM, VoxPopuli, TED-LIUM 및 Earnings-22. Whisper-large-v3, Gemini 2.0 Flash, phi-4-mm, Qwen ASR, Canary 및 Granite Speech 변형 모델(연한 파란색)을 포함한 여러 모델이 비교됩니다. Granite Speech 모델은 대부분의 데이터 세트에서 지속적으로 가장 낮은 수준의 오류율을 기록했습니다. 오류율은 LScln에서 약 1~2, LSoth 및 SPGI에서 3~5, AMI_IHM에서 약 9~16이며, AMI_SDM에서 가장 높은 수준(약 22~41)을 기록했습니다. 이 차트는 Granite Speech 4.1이 경쟁 모델 대비 전반적으로 가장 뛰어난 전사 정확도를 제공함을 강조합니다.

Granite Vision 4.1은 시각 콘텐츠에서 구조화된 정보를 추출하는 데 업계 최고 수준의 성능을 제공하며 차트 추출, 테이블 추출 및 키-값 쌍(KVP) 추출을 포함한 7개 벤치마크에서 가장 높은 평균 점수를 기록했습니다.

"Granite Vision 4.1은 테이블 추출에서 Claude Opus 4.6을 능가합니다"라는 제목의 가로 막대 차트로, 7개 추출 벤치마크 전반의 평균 점수(높을수록 우수)를 보여줍니다. Granite-Vision-4.1-4B는 86.5점으로 가장 높은 순위를 기록했으며, 그 뒤를 Claude-Opus-4.6이 83.8점으로 이었습니다. 다른 모델들의 점수는 더 낮았습니다. Gemma4-E4B(72.4점), Qwen3.5-4B (71.7점), Ministral-3-8B(68.2점) 및 InternVL3.5-4B (66.4점). Granite Vision은 파란색, Claude는 보라색, 나머지 모델은 회색으로 표시되어 Granite Vision이 최고 성능 모델임을 강조합니다.

전 산업 분야 기업이 신뢰

US 오픈

US Open은 끊임없이 진화하는 디지털 경험을 통해 전 세계 팬과 소통하고자 했습니다. IBM은 방대한 경기 데이터를 AI 기반 인사이트와 대화형 기능으로 전환해 팬들이 모든 순간에 몰입하고 연결될 수 있는 역동적인 앱 및 웹사이트 경험을 제공했습니다.

1,400만 명

전 세계 수백만 팬이 세계적 수준의 디지털 경험에 참여

700만

대회 기간 동안 수집 및 분석된 데이터 포인트

사례 연구 읽기

Scuderia Ferrari HP

Scuderia Ferrari는 글로벌 팬층과 더 깊이 소통하기 위해 디지털 경험을 발전시키고자 했습니다. IBM은 방대한 레이싱 데이터를 AI 기반 인사이트와 개인화된 콘텐츠로 전환해 대화형 기능과 몰입형 스토리텔링을 통해 팬들이 경기에 더 가까이 다가갈 수 있는 새롭게 재구성된 앱 경험을 제공했습니다.

사례 연구 읽기

Blue Pearl

Blue Pearl은 채용 프로세스를 더 빠르고 효율적으로 개선하고자 했습니다. IBM은 AI 기반 직무 매칭과 자동화된 콘텐츠 생성을 통해 HR 워크플로를 혁신해 구직자와 고용주를 더 높은 정확성과 속도로 연결할 수 있도록 지원했습니다.

85%

평균 채용 소요 시간 감소

97%

지원자 선별 시간 감소

사례 연구 읽기

Food Ladder

Food Ladder는 원격 지역 사회를 지원하면서 식량 불안 문제 해결 활동을 확장할 필요가 있었습니다. IBM은 AI 기반 자동화와 디지털 툴을 도입해 활동 범위를 확대하고 지속 가능한 식량 생산과 전 세계 맞춤형 학습 경험을 지원하는 더 스마트한 플랫폼을 제공했습니다.

85,000

단일 창고에서 보충 제공된 식사 수

2,500만

2024년 132,480끼에서 확대된 2030년 수백만 끼 식사 제공 목표

사례 연구 읽기

개발자를 위한 Granite

레시피: 문서 요약

IBM Granite로 문서 요약기를 구축하여 컨텍스트 창 제한을 넘어 문서를 처리하세요.

RAG 및 LangChain

Granite로 RAG 파이프라인을 구축하여 외부 지식 베이스를 사용하여 쿼리에 응답하세요.

레시피: 멀티모달 RAG

Granite 및 Docling으로 멀티모달 RAG 파이프라인을 구축하여 텍스트, 테이블 및 이미지를 쿼리하세요.

가이드: 오픈 소스 모델

오픈 소스 LLM이 자율성을 지원하고, 비용을 절감하고, 개발자의 평가, 조정 및 배포를 지원하는 방법을 알아보세요.

튜토리얼: 시계열 예측

Granite 시계열 모델을 사용하여 제로샷 및 미세 조정된 시계열 예측을 수행하세요.

Granite Agent Cookbook

에이전틱 작업을 위한 Granite 레시피.

튜토리얼: 로컬 AI 코파일럿

IBM® Granite Code, Ollama, Continu를 사용하여 로컬 AI 코파일럿을 구축하세요.

Granite Cookbook

전체 Granite Cookbook 보기

Granite로 구축하기

Granite 모델은 많은 IBM 제품 및 서비스의 기반이 되는 AI를 구동합니다. 코드 생성, 애플리케이션 개발, 모델 테스트를 위한 즉시 사용 가능한 솔루션을 찾아보세요. 모두 IBM Granite에 의해 구동됩니다.

AI 코딩 에이전트

Granite 모델을 활용한 AI 및 자동화를 통해 코딩 속도를 높이고 개발을 간소화하세요.

AI Coding Agent 살펴보기

watsonx.ai

Granite 모델을 사용하거나 다양한 타사 모델 중에서 선택하여 AI 애플리케이션을 구축 및 배포할 수 있습니다.

watsonx.ai 살펴보기

watsonx Orchestrate

Granite로 구동되는 AI 에이전트를 개발 및 관리하고 사전 구축된 에이전트 카탈로그를 살펴보세요.

watsonx Orchestrate 살펴보기

Red Hat Enterprise Linux AI

Granite를 포함한 LLM을 개발, 테스트 및 실행하세요.

Red Hat Enterprise Linux AI 살펴보기

분석가 및 리더보드

IBM, 데이터 과학 및 머신 러닝 부문 리더로 선정

보고서를 읽고 IBM이 데이터 과학자와 머신 러닝 엔지니어가 기업 전반에서 영향력 있는 AI 애플리케이션을 구축하고 배포하고 관리할 수 있도록 지원하는 방법을 알아보세요.

가드레일 모델을 위한 GuardBench 리더보드

Granite Guardian 모델이 유해하거나 악의적인 프롬프트 및 LLM 생성 응답 식별 분야에서 뛰어난 성능을 보이며 GuardBench 리더보드 상위 10개 중 6개를 차지한 이유를 확인해 보세요.

음성 인식 오픈 ASR 리더보드

IBM이 낮은 단어 오류율을 기반으로 최고의 음성 모델로 선정된 리더보드를 살펴보세요.

스탠포드 투명성 지수

Granite가 데이터 소스, 데이터 세트, 유해 콘텐츠 필터링 및 기타 주요 투명성 요소에 대한 개방성을 평가하는 스포퍼드 파운데이션 모델 투명성 지수에서 최고 등급을 받은 이유를 알아보세요.

다음 단계

IBM은 엔터프라이즈 전반을 책임감 있게 혁신하는 AI 모델 생성, 배포 및 활용이 가능하다고 믿습니다. IBM watsonx AI와 데이터 플랫폼은 파운데이션 모델과 생성형 AI를 구축하고 테스트하기 위한 엔드투엔드 프로세스를 갖추었습니다. IBM에서 개발한 모델의 경우, 모델 학습 전에 중복을 찾아 제거하고 URL 차단 목록, 유해한 콘텐츠 배제 및 문서 품질 관리를 위한 필터, 문장 분할, 토큰화 기법을 모두 적용합니다.

데이터 학습 과정에서는 모델 아웃풋의 오정렬을 방지하고 감독형 미세 조정을 활용하여 더 면밀한 지침 준수를 가능하게 함으로써 프롬프트 엔지니어링을 통해 엔터프라이즈 작업을 완료하는 데 모델을 사용할 수 있도록 합니다. 기타 모달 기능(Modality), 산업별 콘텐츠, 학습용 데이터 주석 추가 등 다양한 방향으로 Granite 모델의 개발을 이어 나가고 있으며, 동시에 IBM이 개발한 모델에 대해 정기적이고 지속적인 보호장치를 배포하고 있습니다.

생성형 AI 기술 환경이 급속히 변화하는 만큼 엔드투엔드 프로세스 또한 지속적으로 진화하고 개선되어야 합니다. IBM은 IBM 하드웨어 및 소프트웨어 제품에 제공하는 것과 유사하게 IBM에서 개발한 모델에 표준 계약 지적 재산권 배상을 제공합니다. 이는 IBM이 파운데이션 모델의 개발과 테스트에 투입하는 막대한 노력의 증명입니다.

더 나아가 IBM은 일부 대형 언어 모델 제공자와 달리 고객이 IBM에서 개발한 모델을 사용할 때 IBM에 배상하도록 요구하지 않습니다. 이는 IBM의 배상에 관한 표준 접근법에 부합하는 것입니다. 또한 IBM은 자사의 배상 의무에 대한 접근법에 부합하도록 IBM에서 개발한 모델의 배상 책임에 한도를 적용하지 않습니다.

현재 이러한 보호가 적용되는 watsonx 모델은 다음과 같습니다.

(1) Slate 인코더 전용 모델 제품군

(2) Granite 디코더 전용 모델 제품군

Granite 모델 라이선싱에 대해 자세히 알아보기

¹2026년 4월 29일 기준, 공개된 Granite 언어, 비전, 음성, 임베딩 및 guardian 모델에는 암호학적 서명이 적용되고 있습니다.

²ISO 인증은 Granite 언어 모델용 Granite AI Management System(AIMS)에 대한 것입니다. 인증서는 https://www.schellman.com/certificate-directory에서 확인할 수 있습니다. 인증서 번호: 1102257-1.