강력한 성능, 더 긴 컨텍스트, 새로운 임베딩 모델을 제공하는 IBM Granite 3.1

2024년 12월 18일

 

 

작가

Kate Soule

Director, Technical Product Management, Granite, IBM

Dave Bergmann

Senior Writer, AI Models, IBM

주요 정보를 한눈에 살펴보세요.
 

  •  
  • Granite 3.1 8B Instruct는 Granite 3.0 8B Instruct에 비해 성능이 크게 향상되었습니다. 이 제품은 Hugging Face OpenLLM 리더보드 벤치마크에서 동급 오픈 소스 모델 중 가장 높은 평균 점수를 기록했습니다.
  • 전체 Granite 3 언어 모델 제품군의 컨텍스트 창이 확장되었습니다. 최신 고밀도 모델(Granite 3.1 8B, Granite 3.1 2B), MoE 모델(Granite 3.1 3B-A800M, Granite 3.1 1B-A400M), 가드레일 모델(Granite Guardian 3.1 8B, Granite Guardian 3.1 2B)은 모두 128K 토큰 컨텍스트 길이를 사용합니다.
  • IBM은 완전히 새로운 임베딩 모델 제품군을 출시합니다. 검색에 최적화된 새로운 Granite Embedding 모델은 30M–278M 매개변수 범위의 네 가지 크기로 제공됩니다. 생성형 모델과 마찬가지로 12개 언어에 대한 다국어 지원(영어, 독일어, 스페인어, 프랑스어, 일본어, 포르투갈어, 아랍어, 체코어, 이탈리아어, 한국어, 네덜란드어, 중국어)을 제공합니다.
  •  
  • Granite Guardian 3.1 8B 및 2B에는 할루시네이션 탐지를 호출하는 함수 기능이 새롭게 추가되어, 툴 호출을 수행하는 에이전트의 제어 및 관측성이 향상되었습니다.
  • Granite 3.1, Granite Guardian 3.1, Granite Embedding 모델은 모두 Apache 2.0 라이선스가 적용된 오픈 소스입니다.
  • 이 최신 Granite 시리즈 제품은 IBM이 최근에 출시한 Docling(RAG 및 기타 생성형 AI 애플리케이션을 위한 문서 준비용 오픈 소스 프레임워크)과 Bee(에이전트형 AI를 위한 모델에 구애받지 않는 오픈 소스 프레임워크)
  • 에 이어 출시되었습니다.
  • 이제 IBM의 고성능 컴팩트 시계열 모델인 Granite TTM(TinyTimeMixers)를 watsonx.ai 시계열 예측 API 및 SDK의 베타 릴리스를 통해 watsonx.ai에서 사용할 수 있습니다.
  • Granite 3.1 모델은 현재 IBM watsonx.ai뿐만 아니라 Docker, Hugging Face, LM Studio, Ollama, Replicate(알파벳 순서)를 비롯한 플랫폼 파트너를 통해서도 사용할 수 있습니다.
  • 또한 Granite 3.1은 기업 파트너가 내부적으로도 활용할 수 있습니다. 예를 들어 삼성은 일부 Granite 모델을 SDS 플랫폼에 통합하고, Lockheed Martin은 10,000명 이상의 개발자와 엔지니어가 사용하는 AI Factory 툴에 해당 모델을 통합하고 있습니다.
 


오늘 IBM Granite 3.1이 출시되었습니다. 이는 고성능의 개방형 엔터프라이즈 최적화 언어 모델인 Granite 시리즈의 최신 업데이트입니다. 이 모델에 포함된 다양한 개선 및 추가 사항과 새로운 기능은 주로 툴 사용, 검색 증강 생성(RAG), 확장가능한 에이전트형 AI 워크플로와 같은 필수 기업 사용 사례에서 성능, 정확성, 책임성을 강화하는 데 중점을 둡니다.

Granite 3.1은 최근 출시된 Granite 3.0 컬렉션의 모멘텀을 기반으로 합니다. IBM은 향후 몇 달 내에 Granite 3 시리즈의 업데이트된 모델과 기능을 지속적으로 출시할 예정이며, 새로운 멀티모달 기능은 2025년 1분기에 선보일 예정입니다.

이 새로운 Granite 모델은 최근 IBM이 오픈 소스 LLM 에코시스템에 기여한 주목할 만한 유일한 사례는 아닙니다. 오늘 출시는 AI 에이전트 개발을 위한 유연한 프레임워크부터 PDF, 슬라이드 덱 및 기타 모델에서 소화하기 어려운 파일 형식에 숨겨진 필수 정보를 활용하는 직관적인 툴킷에 이르기까지 최근의 혁신적인 오픈 소스 출시를 마무리하는 것입니다. 이러한 툴과 프레임워크를 Granite 3.1 모델과 함께 사용하면 개발자에게 RAG, AI 에이전트, 기타 LLM 기반 워크플로를 위한 향상된 기능을 제공할 수 있습니다.

언제나 그랬듯이, 오픈 소스에 대한 IBM의 오랜 노력은 이 글에서 설명하는 모든 제품의 허용적인 표준 오픈 소스 라이선스에 반영되어 있습니다.

경량 엔터프라이즈 모델의 새로운 기준을 제시하는 Granite 3.1 8B Instruct

IBM의 지속적인 최적화 노력의 일환인 Granite 시리즈는 플래그십 8B 고밀도 모델의 성장에서 가장 잘 드러납니다. IBM Granite 3.1 Granite 모델 시리즈는 에이전트형 AI를 포함한 기업 사용 사례에서 우수성과 효율성을 우선시하는 방향으로 계속 진화해 왔습니다. 이러한 발전은 모델의 상세 명령어를 따르는 능력을 테스트하는 작업을 제공하는 데이터 세트인 IFEval과 긴 텍스트에 대한 추론과 이해를 측정하는 작업을 제공하는 다단계 소프트 추론(MuSR)에서 최신 8B 모델의 성능이 크게 개선된 것에서 가장 잘 드러납니다.

확장된 컨텍스트 길이

Granite 3.0에서 Granite 3.1로의 성능 도약에는 모든 모델의 컨텍스트 창 확장이 포함됩니다. Granite 3.1의 128K 토큰 컨텍스트 길이는 Llama 3.1–3.3 및 Qwen2.5를 비롯한 다른 주요 오픈 소스 모델 시리즈와 동등한 수준입니다.

대규모 언어 모델(LLM)의 컨텍스트 창(또는 컨텍스트 길이)은 LLM이 한 번에 고려할 수 있는 텍스트의 양을 토큰 단위로 나타낸 것입니다. 컨텍스트 창이 클수록 모델은 더 큰 입력을 처리하고 더 긴 연속 교환을 수행하며 각 아웃풋에 더 많은 정보를 통합할 수 있습니다. 토큰화에는 토큰과 단어 간의 고정된 '교환 비율'을 수반하지는 않지만, 단어당 1.5 토큰이 적절한 추정치입니다. 128K 토큰은 대략 300페이지 분량의 책 한 권에 해당합니다.

약 100K 토큰 임계값을 넘어서면 다중 문서 질문 답변, 리포지토리 수준의 코드 이해, 자체 반영 및 LLM 기반 자율 에이전트를 비롯한 새롭고 놀라운 가능성이 열립니다.1 Granite 3.1의 확장된 컨텍스트 길이 덕분에 코드 베이스와 긴 법률 문서 전체를 처리하는 작업부터 수천 개의 금융 트랜잭션을 동시에 검토하는 작업에 이르기까지 훨씬 광범위한 기업 사용 사례에 활용할 수 있게 되었습니다.

에이전트형 워크플로에서 할루시네이션을 탐지하는 Granite Guardian 3.1
.

이제 Granite Guardian 3.1 8BGranite Guardian 3.1 2B는 에이전트형 워크플로에서 발생할 수 있는 할루시네이션을 탐지하여, 이미 RAG에 제공하는 것과 동일한 책임감과 신뢰감을 함수 호출에 부여할 수 있습니다.

AI 에이전트에 전송된 초기 요청과 에이전트가 최종적으로 사용자에게 반환하는 아웃풋 사이의 공간에는 많은 단계와 하위 프로세스가 발생합니다. 이 모든 과정을 감독하기 위해 Granite Guardian 3.1 모델은 모든 함수 호출을 모니터링하여 구문 및 의미론적 할루시네이션을 확인합니다.

예를 들어 AI 에이전트가 외부 정보 소스를 쿼리하는 것으로 추정되는 경우 Granite Guardian 3.1은 조작된 정보 흐름이 있는지 모니터링합니다. 에이전트형 워크플로에 은행 기록에서 검색된 수치를 사용하는 중간 계산이 수반되는 경우 Granite Guardian 3.1은 에이전트가 적절한 숫자와 함께 올바른 함수 호출을 가져왔는지 확인합니다.

오늘 출시는 LLM 기반 엔터프라이즈 워크플로의 모든 구성 요소에 대한 책임감과 신뢰성을 위한 또 다른 진전입니다. 새로운 Granite Guardian 3.1 모델은 Hugging Face에서 사용할 수 있습니다. 또한 이달 말에는 Ollama에서 제공되고, 2025년 1월에는 IBM watsonx.ai에서 제공될 예정입니다.

Granite Embedding 모델

임베딩은 LLM 에코시스템의 필수적인 요소입니다. 단어, 쿼리, 문서를 숫자 형태로 표현하는 정확하고 효율적인 수단은 시맨틱 검색, 벡터 검색, RAG 등 다양한 엔터프라이즈 작업과 효과적인 벡터 데이터베이스 유지에 필수적입니다. 효과적인 임베딩 모델은 사용자 의도에 대한 시스템의 이해를 크게 개선하고 쿼리 응답에서 정보 및 소스의 관련도를 높일 수 있습니다.

지난 2년 동안 경쟁이 점점 더 치열해지는 오픈 소스 자기회귀 LLM(텍스트 생성 및 요약과 같은 작업에 사용됨)이 확산되었지만, 주요 제공업체의 오픈 소스 임베딩 모델의 출시는 상대적으로 드뭅니다.

새로운 Granite Embedding 모델은 인코더 전용 RoBERTA 기반 언어 모델인 Slate 제품군을 더욱 발전시킨 것입니다. 다른 Granite 시리즈와 마찬가지로 편견, 혐오, 학대, 욕설('HAP')을 필터링하기 위해 세심하게 학습된 Granite Embedding은 네 가지 모델 크기로 제공되며, 이 중 두 모델은 12개 자연어에 대한 다국어 임베딩을 지원합니다.

  •  
  • Granite-Embedding-30M-English
  • Granite-Embedding-125M-English
  • Granite-Embedding-107M-Multilingual
  • Granite-Embedding-278M-Multilingual
 

Hugging Face MTEB 리더보드에 있는 대부분의 오픈 소스 임베딩 모델은 MS-MARCO와 같이 연구 목적으로만 라이선스가 부여된 학습 데이터 세트에 의존하지만, IBM은 Granite Embedding의 학습에 사용된 모든 데이터 소스의 상업적 적격성을 검증했습니다. 기업 사용을 지원하기 위해 세심한 주의를 기울이는 IBM은 다른 IBM 개발 모델의 사용에 대해 제공되는 서드파티 IP 청구에 대한 동일한 무제한 면책을 통해 Granite Embedding을 지원합니다.

IBM은 학습 데이터 큐레이팅 및 필터링에 많은 노력을 기울였으며, 그 덕분에 English Granite Embedding 모델은 BEIR 평가 프레임워크를 사용하여 실시한 내부 성능 평가에서 비슷한 크기의 유명한 오픈 소스 임베딩 모델과 동등한 수준에 도달할 수 있었습니다.

또한 IBM 테스트에서 새로운 임베딩 모델 중 두 가지(Granite-Embedding-30M-English, Granite-Embedding-107M-Multilingual)가 추론 속도 측면에서 경쟁사 제품을 훨씬 능가하는 것으로 나타났습니다.

이번 출시는 오픈 소스 Granite Embedding 모델 제품군을 통해 지속적인 혁신을 이루기 위한 IBM Research의 야심 찬 로드맵의 시작점입니다. 2025년에 계획된 업데이트 및 업그레이드에는 컨텍스트 확장, RAG 최적화, 멀티모달 검색 기능이 포함되어 있습니다.

문서 해독 및 Agentic AI

Granite 시리즈의 지속적인 발전과 더불어, IBM은 LLM으로 구축하기 위한 새롭고 혁신적인 툴과 프레임워크의 최신 개발 및 오픈 소스 공개를 통해 오픈 소스 AI에 대한 확고한 노력을 이어가고 있습니다. Granite 모델에 최적화되어 있지만 본질적으로 개방적이고 모델에 구애받지 않는 이 IBM 구축 리소스는 개발자가 파이프라인 미세 조정부터 RAG 소스 정규화, 자율 AI 에이전트 조립에 이르기까지 LLM의 잠재력을 최대한으로 활용할 수 있도록 지원합니다.

Docling: RAG를 위한 문서 준비, 사전 학습 및 미세 조정 기능을 제공
.

창의적인 글쓰기부터 RAG에 이르기까지, 생성형 AI는 궁극적으로 데이터를 기반으로 작동하는 엔진입니다. 일부 데이터가 모델이 인식할 수 없는 형식에 갇혀 있다면 대규모 언어 모델의 진정한 잠재력을 실현할 수 없습니다. 10년 전 한 Washington Post 헤드라인에서 "우리의 모든 문제에 대한 해결책이 아무도 읽지 않는 PDF에 묻혀 있을 수 있다"라고 공언한 것처럼 LLM은 상당히 새로운 기술이지만, 문제는 그렇지 않습니다.

이러한 이유로 IBM Deep Search는 PDF, DOCX, 이미지, PPTX, XLSX, HTML, AsciiDoc 등 널리 사용되는 형식의 문서를 파싱하고 Markdown이나 JSON과 같은 모델 친화적인 형식으로 변환하는 강력한 툴인 Docling을 개발했습니다. 이 툴을 사용하면 이러한 문서와 그 안에 포함된 정보를 RAG 및 기타 워크플로의 목적으로 Granite와 같은 모델에서 쉽게 액세스할 수 있습니다. Docling은 LlamaIndex, LangChain, Bee와 같은 에이전트형 프레임워크와 쉽게 통합할 수 있어, 개발자가 선택한 에코시스템에 Docling의 지원을 포함할 수 있습니다.

허용된 MIT 라이선스에 따라 오픈 소스로 제공되는 Docling은 단순한 광학 문자 인식(OCR)과 텍스트 추출을 뛰어넘는 정교한 솔루션입니다. 여러 페이지에 걸쳐 있는 표를 하나의 표로 추출하는 경우, 특정 페이지에 본문 텍스트, 이미지, 표가 혼합된 경우, 각각 원래 컨텍스트에 따라 별도로 추출해야 하는 경우 등 다양한 컨텍스트 및 요소 기반 전처리 기술이 통합되어 있다고 Red Hat의 William Caban은 설명합니다.

Docling 개발팀은 수식 및 코드 추출, 메타데이터 추출 등의 추가 기능을 개발하기 위해 활발히 작업 중입니다. Docling이 실제로 작동하는 모습을 보려면 Docling과 Granite를 사용하여 문서 질문 답변 시스템 구축하기 튜토리얼을 참조하세요.

Bee: 개방형 모델을 위한 Agentic AI 프레임워크

Bee Agent Framework는 오픈 소스 LLM을 사용해 강력한 에이전트형 AI 워크플로를 구축하기 위한 오픈 소스 프레임워크로, Granite 및 Llama 모델과 함께 사용하도록 최적화되었습니다(추가 모델별 최적화는 이미 개발 중임). 여기에는 개발자가 메모리 처리부터 툴 사용, 오류 처리에 이르기까지 AI 에이전트의 거의 모든 구성 요소를 사용자 지정할 수 있는 다양한 모듈뿐만 아니라 프로덕션 배포에 필요한 인사이트와 책임감을 제공하는 여러 관측 가능성 기능도 포함되어 있습니다.

이 프레임워크는 여러 모델 그리고 날씨 서비스, 인터넷 검색(또는 Javascript 또는 Python으로 작성된 사용자 지정 툴)과 같이 바로 사용할 수 있는 강력한 툴 모음과 원활하게 통합됩니다. Bee의 유연한 툴 사용 기능을 통해 특정 상황에 맞는 워크플로를 만들 수 있으며, Granite와 Wikipedia를 사용하는 이 레시피에서는 기본 제공 툴을 이용하여 제한된 컨텍스트 창을 보다 효과적으로 활용하는 방법을 보여줍니다.

Granite Bee 에이전트는 Ollama를 사용하여 로컬에서 실행하거나 watsonx.ai에서 호스팅된 추론을 활용할 수 있습니다.

IBM watsonx.ai의 시계열 예측

올해 초 출시된 Granite의 TinyTimeMixer(TTM) 시계열 모델은 새로운 아키텍처에 기반한 사전 학습된 경량 모델 제품군입니다. IoT 센서 데이터부터 주식 시장 가격, 에너지 수요에 이르기까지 모든 사항을 제로샷(zero-shot) 및 퓨샷(few-shot)으로 예측하는 Granite 시계열 모델은 최대 10배 더 큰 대다수의 모델(예: TimesFM, Moirai, Chronos)보다 더 뛰어난 성능을 자랑합니다.2 5월 30일 이후 Granite-timeseries-TTM 모델은 Hugging Face에서만 325만 회 이상 다운로드되었습니다.

11월에 IBM이 watsonx.ai 시계열 예측 API 및 SDK의 베타 출시를 발표함에 따라, Granite 시계열 모델을 엔드투엔드 AI 애플리케이션 개발을 위한 IBM의 통합 AI 플랫폼에서 사용할 수 있게 되었습니다.

Granite-TTM을 시작하는 방법에 대한 자세한 내용은 IBM Granite Timeseries Cookbook의 레시피를 참조하세요(예: watsonx SDK를 사용하여 예측 추론을 수행하는 방법을 설명하는 이 노트북).

Granite 3.1 시작하기

이제 Granite 3.1 모델을 IBM watsonx.ai에서 사용할 수 있습니다. 또한 Docker(DockerHub GenAI 카탈로그 이용), Hugging Face, LM Studio, Ollama, Replicate 등의 플랫폼 파트너를 통해 액세스할 수도 있습니다. 2025년 1월, 일부 Granite 3.1 모델은 NVIDIA(NIM 마이크로서비스)에서도 사용할 수 있습니다.

Langchain의 언어 모델을 사용하는 오케스트레이션 워크플로부터 Granite Guardian 모델의 구현에 이르기까지, Granite 모델 작업에 대한 다양한 가이드와 레시피는 GitHub의 Granite Snack Cookbook에서 확인할 수 있습니다.

개발자는 Granite 모델 플레이그라운드에서 또는 IBM 문서에서 다음에 대한 유용한 데모와 튜토리얼을 탐색하여 Granite 모델을 시작할 수도 있습니다.

 


Granite 3.1 모델 살펴보기 →

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스 + 인사이트 


주간 Think 뉴스레터에서 AI, 클라우드 등에 대한 전문적으로 선별된 인사이트와 뉴스를 발견하세요. 

관련 솔루션
IBM watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.

watsonx.ai 살펴보기 라이브 데모 예약하기