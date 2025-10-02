주요 정보를 한눈에 살펴보세요.
Granite 4.0의 출시는 새로운 아키텍처 발전을 활용하여 비용과 지연 시간을 줄이면서 경쟁력 있는 성능을 제공하는 작고 효율적인 언어 모델을 두 배로 늘림으로써 IBM의 엔터프라이즈용 대규모 언어 모델 제품군에 새로운 시대를 열었습니다. Granite 4.0 모델은 독립형 배포로서 그리고 대규모 추론 모델 외 복잡한 시스템의 비용 효율적인 구성 요소로서 워크플로의 필수적인 작업에 특히 중점을 두고 개발되었습니다.
Granite 4.0 컬렉션은 다음과 같은 다양한 하드웨어 제약 조건에서 최적의 프로덕션을 제공하기 위해 다양한 모델 크기와 아키텍처 스타일로 구성되어 있습니다.
Granite 4.0-H Small은 멀티 툴 에이전트 및 고객 지원 자동화와 같은 엔터프라이즈 워크플로에서 강력하고 비용 효율적인 성능을 제공하는 핵심 모델입니다. Tiny 및 Micro 모델은 짧은 지연 시간의 엣지 및 로컬 애플리케이션용으로 설계되었으며, 대규모 에이전트 워크플로 내에서 함수 호출과 같은 주요 작업을 빠르게 실행하기 위한 빌딩 블록 역할을 할 수도 있습니다.
Granite 4.0 벤치마크 성능은 이전 세대에 비해 크게 개선되었습니다. 작은 Granite 4.0 모델조차 규모가 절반 미만임에도 불구하고 가장 Granite 3.3 8B를 크게 능가합니다. 하지만 가장 눈에 띄는 강점은 추론 효율성이 크게 향상되었다는 것입니다. 하이브리드 Granite 4.0 모델은 기존 LLM에 비해 실행에 훨씬 적은 RAM이 필요하며, 특히 컨텍스트가 긴 작업(예: 대규모 코드베이스 또는 광범위한 문서 수집)과 동시에 여러 세션이 필요한 작업(예: 사용자 문의를 동시)에서는 더욱 그렇습니다.
가장 중요한 것은 Granite 4.0의 메모리 요구 사항이 이렇게 극적으로 감소하면 높은 추론 속도로 무거운 워크로드를 실행하는 데 필요한 하드웨어 비용도 크게 절감된다는 것입니다. 당사의 목표는 기업과 오픈 소스 개발자 모두에게 경쟁이 치열한 LLM에 대해 비용 효율적인 액세스를 제공하여 진입 장벽을 낮추는 것입니다.
IBM이 모든 하드웨어에서 실질적인 추론 효율성을 우선시하는 것은 모델 에코시스템의 안전, 보안 및 투명성을 강조하는 당사의 입장에 부합합니다. IBM의 AI 개발 프로세스에 대한 광범위한 외부 감사를 수개월에 걸쳐 실시한 결과, IBM Granite는 최근 AI 관리 시스템(AIMS) 의 책임성, 설명성, 데이터 프라이버시 및 신뢰성에 관한 세계 최초의 국제 표준을 충족하는 ISO 42001 인증을 획득한 유일한 개방형 언어 모델 제품군이 되었습니다. 이러한 기본적인 신뢰성은 Granite 버그 바운티 프로그램에 관해 최근 HackerOne과 맺은 파트너십 및 Hugging Face에서 사용할 수 있는 모든 4.0 모델 체크포인트에 대한 암호화 서명(개발자와 기업이 모델의 출처와 신뢰성을 보장할 수 있도록 함)이라는 새로운 관행을 통해 더욱 강화되었습니다.
EY와 Lockheed Martin을 포함한 일부 기업 파트너에게는 주요 사용 사례에서 Granite 4.0의 능력을 대규모로 테스트할 수 있는 조기 액세스 권한이 부여되었습니다. 이러한 초기 릴리스 파트너의 피드백은 오픈 소스 커뮤니티의 피드백과 함께 향후 업데이트를 위해 모델을 개선하고 최적화하는 데 사용됩니다.
이번 릴리스에는 Micro, Tiny 및 Small의 Base 및 Instruct 버전이 모두 포함되어 있습니다. 이외 더 작거나 더 큰 모델 규모와 명시적 추론을 지원하는 버전은 2025년 말에 출시될 예정입니다.
LLM의 GPU 메모리 요구 사항은 모델 가중치를 로드하는 데 필요한 RAM의 양으로 보고되는 경우가 많습니다. 그러나 많은 엔터프라이즈 사용 사례, 특히 대규모 배포, 복잡한 환경의 에이전트 AI 또는 RAG 시스템과 관련된 사용 사례에는 긴 컨텍스트, 한 번에 여러 동시 모델 인스턴스의 일괄 추론 또는 이 두 가지가 모두 수반됩니다. 엔터프라이즈 실용성에 중점을 둔 IBM에 맞춰 당사는 긴 컨텍스트 및 동시 세션을 염두에 두고 Granite 4를 평가하고 최적화했습니다.
Granite 4.0-H는 기존 트랜스포머 기반 모델에 비해 긴 입력과 여러 동시 배치를 처리하는 데 필요한 RAM을 70% 이상 줄일 수 있습니다.
하이브리드 Granite 4.0 모델은 AMD Instinct MI-300X GPU와 호환되므로 메모리 풋프린트를 더욱 줄일 수 있습니다.
기존 LLM은 컨텍스트 길이 또는 배치 크기가 증가함에 따라 처리량을 유지하는 데 어려움을 겪습니다. 당사의 하이브리드 모델은 대부분의 모델이 크롤링 속도가 느리거나 하드웨어 용량을 완전히 초과하는 워크로드에서도 아웃풋을 계속 가속화합니다. 더 많이 사용할수록 장점도 더 명백해집니다.
IBM은 Qualcomm Technologies, Inc. 및 Nexa AI와의 협력 하에 Granite 4.0 모델이 Hexagon NPU1와 호환되도록 보장하여 스마트폰과 PC 장치에 배포하기 위한 추론 속도를 더욱 최적화했습니다.
물론 이러한 효율성 이점의 실제 유용성은 Granite 4.0 모델의 출력 품질이 해당 무게 등급 이상에 해당하는 모델의 출력 품질과 경쟁력이 있다는 사실에 기인합니다. 특히 명령 추적 및 함수 호출과 같은 주요 에이전트 AI 작업의 성능을 평가하는 벤치마크에서는 더욱 그렇습니다.
모든 Granite 4.0 모델은 이전 세대의 Granite 모델에 비해 전반적으로 크게 개선된 Granite 성능을 제공합니다. 새로운 Granite 하이브리드 아키텍처는 모델 학습의 효율성과 효과에 기여하지만, 모델 정확도는 대부분 훈련(및 훈련 후) 방법론의 발전과 Granite 교육 데이터 말뭉치의 지속적인 확장 및 개선에서 비롯됩니다. 이것이 바로 이전 Granite 모델과 유사한 기존 트랜스포머 아키텍처를 기반으로 구축된 Granite 4.0-Micro가 Granite 3.3 8B보다 훨씬 뛰어난 성능을 발휘하는 비결 및 이유입니다.
이러한 모델은 특히 기업 사용 사례와 에이전틱 AI 워크플로에 필수적인 작업에 뛰어납니다. Stanford HELM에의 평가에 따르면, Granite-4.0-H-Small은 명시적인 지침을 따르는 모델의 능력을 평가하는 데 널리 사용되는 벤치마크인 IFEval에서 규모가 12배 이상인 4,020억 개의 매개변수가 포함된 모델 Llama 4 Maverick을 제외한 모든 개방형 가중치 모델을 능가합니다.
많은 워크플로에서는 지침을 안정적으로 따르는 것 뿐 아니라 효과적인 도구 호출을 통해 정확하게 변환하는 것도 중요합니다. 이를 위해 Granite-4.0-H-Small은 BFCLv3(Berkeley Function Calling Leaderboard v3 벤치마크)에서 규모가 훨씬 더 큰 개방형 및 폐쇄형 모델과 비슷한 수준을 보이며, 경쟁 제품들보다 훨씬 저렴한 가격대로 이러한 성능을 제공합니다.
또한 Granite 4.0은 여러 번 반복되는 복잡한 검색 증강 생성(RAG) 작업의 성능 및 신뢰성을 측정하는 벤치마크인 MTRAG에서도 탁월한 성능을 발휘합니다. 이 벤치마크에는 답할 수 없는 질문, 비독립형 질문 및 여러 영역에 걸친 정보가 포함됩니다.
더 많은 지표는 Granite 4.0의 Hugging Face 모델 카드에서 확인할 수 있습니다.
모든 Granite 모델은 보안, 안전 및 책임 있는 거버넌스를 줌심으로 구축되었습니다.
이달 초 IBM Granite는 ISO/IEC 42001:2023 인증을 받은 최초의 개방형 언어 모델 제품군이 되었습니다. 이로써 Granite가 국제적으로 인정받은 안전하고 책임감 있는 AI 모범 사례에 부합하며, IBM의 AI 관리 시스템(AIMS)이 가장 높은 수준의 정밀 조사 기준을 충족함이 인증되었습니다. 조직은 규제가 엄격한 산업 및 미션 크리티컬 배포 환경과 같이 위험도가 높은 상황에서도 Granite 4.0 모델을 사용하여 자신 있게 구축할 수 있습니다.
모든 Granite 모델과 마찬가지로 Granite 4.0 모델은 전적으로 신중하게 선별되고, 윤리적으로 확보되고 기업에서 승인한 데이터를 기반으로 학습되었습니다. IBM은 모델의 신뢰성에 대한 확고한 확신을 바탕으로, Granite 모델에 의해 생성된 콘텐츠를 IBM watsonx.ai에서 사용하는 경우 이러한 콘텐츠에 대해 제3자 지적 재산권 청구에 대한 무제한 면책을 제공합니다.
IBM은 광범위한 내부 테스트 및 레드 팀 구성 외에도 최근 HackerOne과 협력하여 Granite 버그 바운티 프로그램을 시작했습니다. 이 프로그램은 탈옥 및 기타 적대적 공격에 대한 예상치 못한 결함, 장애 모드 또는 취약점을 식별한 경우 최대 100,000달러를 지급합니다. 버그 바운티 프로그램에 참여하는 연구원들이 발견한 귀중한 정보는 특히 모델 정렬 개선을 위한 합성 데이터 생성을 통해 지속적인 모델 보안 강화 및 업데이트에 도움이 될 것입니다.
IBM은 모델 자체뿐만 아니라 모델 배포 체인의 안전과 보안에도 중점을 두고 있습니다. 이를 위해 IBM은 출시 전에 모든 Granite 모델 체크포인트에 암호화 방식으로 서명하는 새로운 관행을 시작했습니다. 이제 모든 Granite 모델 체크포인트가 model.sig 파일과 함께 제공되므로 Granite 모델의 출처를 쉽게 공개적으로 검증하여 무결성과 신뢰성을 보장할 수 있습니다.
많은 장점에도 불구하고 트랜스포머 모델에는 중요한 단점이 있습니다. 바로 시퀀스 길이에 따라 연산 요구량이 제곱 단위로 증가한다는 점입니다. 컨텍스트 길이가 두 배로 늘어나면 트랜스포머 모델이 수행하고 메모리에 저장해야 하는 연산 수가 4배로 증가합니다. 이 "제곱 병목 현상"은 컨텍스트 길이가 늘어날수록 필연적으로 속도를 감소시키고 비용을 증가시킵니다. 컨텍스트 길이가 길면 고급 소비자 GPU의 RAM 용량조차 빠르게 소진될 수 있습니다.
트랜스포머가 셀프 어텐션에 의존하는 반면, Mamba는 뚜렷하게 구별되며 본질적으로 더 효율적인 선별성 메커니즘을 사용합니다. Mamba의 연산 요구 사항은 시퀀스 길이에 따라 선형적으로 증가하며, 컨텍스트가 두 배가 되면 Mamba는 네 배가 아닌 두 배의 연산만 수행합니다. 더 좋은 점은 Mamba의 메모리 요구 사항이 시퀀스 길이에 관계없이 일정하게 유지된다는 것입니다.Mamba 모델에 더 많은 작업을 할당할수록 트랜스포머에 비해 이점이 커집니다.
그럼에도 불구하고 트랜스포머와 셀프 어텐션은 Mamba와 Mamba-2에 비해 여전히 몇 가지 이점을 지닙니다. 특히 상황에 맞는 학습(예: 퓨샷 프롬프트)이 수반된 작업 수행에서는 더욱 그렇습니다. 다행히도 이 두 가지를 하이브리드 모델로 결합하면 양쪽의 장점을 모두 누릴 수 있습니다. 더 자세히 알아보려면 Granite-4.0-Tiny-Preview의 미리 보기를 다시 살펴보세요.
Granite 4.0-H-Micro, Granite 4.0-H-Tiny 및 Granite 4.0-H-Small을 지원하는 아키텍처는 Mamba-2 레이어와 기존 트랜스포머 블록을 9:1 비율로 순차 결합합니다. 기본적으로 Mamba-2 블록은 전역 컨텍스트를 효율적으로 처리하고 해당 컨텍스트 정보를 트랜스포머 블록에 전달합니다. 이 트랜스포머 블록은 로컬 컨텍스트의 보다 섬세한 구문 분석을 셀프 어텐션을 통해 전달한 다음, 이를 다음 Mamba-2 레이어 그룹에 전달합니다.
전 세계의 LLM 서비스 인프라는 대부분 이전부터 트랜스포머 전용 모델에 맞춰 조정되었다는 점에 주목할 필요가 있습니다. IBM은 올해 초 Granite 4.0-Tiny-Preview의 실험적인 출시에 이어 에코시스템 파트너와의 폭넓은 협력을 통해 vLLM, llama.cpp, NexaML 및 MLX 등의 추론 프레임워크에서 Granite 4 하이브리드 아키텍처 지원을 확정하고 이번에 릴리스합니다.
Granite-4.0-H-Tiny와 Granite-4.0-H-Small은 Mamba-2 및 트랜스포머 블록의 아웃풋을 세분화된 Mixture of Experts(MoE) 블록(Granite 4.0-Tiny-Preview 이후 사양이 약간 변경됨)으로 전달합니다. 세분화된 MoE는 2024년 Granite 3.0 출시 이후 IBM이 적극적으로 연구하는 영역이었지만, Tiny와 Small은 항상 활성화 상태인 공유 expert를 활용하여 매개변수 효율성을 개선하고 다른 'expert'가 명확하게 전문화된 지식을 더 잘 개발할 수 있도록 지원하는 최초의 MoE입니다
Granite 4.0-H-Micro는 MoE 블록 대신 기존의 고밀도 피드포워드 레이어를 활용하지만, 그 외에는 Tiny 및 Small이 공유하는 아키텍처를 미러링합니다.
Mamba와 같은 상태 공간 모델(SSM)기반 언어 모델의 가장 매력적인 측면 중 하나는 무한히 긴 시퀀스를 처리할 수 있는 이론적 잠재력입니다. 모든 Granite 4.0 모델은 컨텍스트 길이가 최대 512,000개 토큰인 데이터 샘플로 훈련되었습니다. 최대 컨텍스트 길이가 최대 128,000개 토큰인 작업에서 성능이 검증되었지만, 이론적으로는 더 긴 컨텍스트 길이도 가능합니다.
표준 트랜스포머 모델에서 최대 컨텍스트 창 은 근본적으로 위치 인코딩의 한계에 의해 제한됩니다. 트랜스포머의 주의 메커니즘은 모든 토큰을 동시에 처리하므로 토큰 순서 에 대한 정보를 보존하지 않습니다. 위치 인코딩(PE)은 해당 정보를 다시 추가합니다. 일부 연구에 따르면 RoPE(Rotary Positional Encoding)와 같은 일반적인 PE 기술을 사용하는 모델은 훈련에서 본 것보다 더 긴 시퀀스에서 어려움을 겪고 있습니다.2
Granite 4.0-H 아키텍처는 비위치 인코딩(NoPE)을 사용합니다. 간단히 말하면, 위치 인코딩이 필요하지 않습니다. Mamba는 토큰을 순차적으로 "읽으므로", 토큰 순서에 관한 정보를 본질적으로 보존합니다.
다양한 아키텍처 구현에서 모든 Granite 4.0 모델은 신중하게 컴파일된 같은 엔터프라이즈 중심 학습 데이터 22T-토큰 말뭉치에서 추출한 샘플과 개선된 훈련 전 방법론, 훈련 후 방법 및 채팅 템플릿을 사용하여 훈련됩니다.
Granite 4.0은 DataComp-LM(DCLM), GneissWeb, TxT360 하위 집합, Wikipedia 및 기타 엔터프라이즈 관련 소스에서 선별된 광범위한 샘플을 사용하여 사전 훈련되었습니다. 또한 언어, 코드, 수학 및 추론, 다국어, 안전, 도구 호출, RAG 및 사이버 보안을 포함한 도메인 전반에 걸쳐 합성 및 개방형 데이터 세트를 모두 활용하여 엔터프라이즈 작업을 탁월하게 수행할 수 있도록 사후 훈련되었습니다. 모든 학습 데이터 세트는 오픈 소스 Data Prep Kit 프레임워크를 사용하여 준비되었습니다.
이전 세대의 Granite 모델과의 뚜렷한 차이점은 사후 훈련된 Granite 4.0 모델을 명령 조정 버전(오늘 출시)과 추론 버전(올 가을 출시 예정)으로 분리하기로 결정했다는 것입니다. 최근 업계 연구 결과대로, 당사는 훈련 과정에서 두 버전을 분할하면 Instruct 모델의 명령 따르기 성능이 향상되고 Thinking 모델의 복잡한 추론 성능이 더 좋아진다는 점을 확인했습니다. 이렇게 하면 두 가지 버전 모두의 채팅 템플릿을 간소화할 수 있다는 추가적인 이점도 있습니다.
올 가을에는 Granite 4.0 모델의 Base 및 Instruct 버전에 'Thinking' 모델이 추가될 예정입니다. 이 모델은 복잡한 로직 기반 작업에 대한 성능 향상을 위해 사후 훈련을 받는 중입니다.
연말까지 Granite 4.0 Medium뿐만 아니라 엣지 장치의 추론을 위해 설계된 훨씬 더 작은 모델인 Granite 4.0 Nano를 포함한 더욱 다양한 규모의 모델도 출시할 예정입니다.
Granite 4.0 모델은 이제 광범위한 플랫폼 제공업체 및 추론 프레임워크에서 빠르고 효율적인 독립형 주력 모델로서 제공되며, 동시에 주요 대규모 프론티어 모델과 함께 앙상블 워크플로의 주요 구성 요소로도 제공됩니다. Granite Playground Granite 4.0 모델을 체험해 보세요.
새로운 Granite 하이브리드 아키텍처는 vLLM 0.10.2 및 Hugging Face 트랜스포머에서 완벽하고 최적화된 지원을 제공합니다. Granite 하이브리드 아키텍처는 llama.cpp 및 MLX에서도 지원되며, 이러한 런타임에서 처리량을 완전히 최적화하기 위한 작업은 여전히 진행 중입니다. 당사는 에코시스템 파트너들의 협력에 감사드리며, 당사의 작업이 더욱 다양한 하이브리드 모델 실험을 촉진하는 데 도움이 되기를 바랍니다.
Granite 4.0 Instruct 모델은 현재 AI 개발과 배포를 간편하고 확장 가능하게 만들어 주는 통합 AI 개발 스튜디오인 IBM watsonx.ai에서 사용할 수 있습니다. Granite 4.0 Instruct 모델은 Dell Technologies(Dell Pro AI Studio 및 Dell Enterprise Hub에서), Docker Hub, Hugging Face, Kaggle, LM Studio, NVIDIA NIM, Ollama, OPAQUE 및 Replicate 등의 플랫폼 파트너를 통해서도 사용할 수 있습니다(알파벳 순으로 기재). Granite 4.0 Base 모델은 Hugging Face를 통해 사용할 수 있습니다.
Granite 4.0 모델은 빠르고 메모리 효율적인 미세 조정을 위해 Unsloth에서도 지원되며, Continue에서 맞춤형 AI 코딩 어시스턴트를 강화하는 데 활용할 수 있습니다.
다음과 같은 유용한 튜토리얼을 포함한 Granite Docs의 가이드 및 레시피는 시작할 때 도움이 됩니다.
1. Qualcomm 브랜드 제품은 Qualcomm Technologies, Inc. 및/또는 그 자회사의 제품입니다. Qualcomm Hexagon은 Qualcomm Incorporated의 상표 또는 등록 상표입니다.
2. “The Impact of Positional Encoding on Length Generalization in Transformers,” arXiv, 2023년 11월 6일