IBM Granite 3.2: 추론, 비전, 예측 등

아이소메트릭 박스의 Granite 배열에 대한 DCO 배경

작가

Kate Soule

Director, Technical Product Management, Granite

IBM

Dave Bergmann

Senior Staff Writer, AI Models

IBM Think

주요 정보를 한눈에 살펴보세요.

 

  • 새로운 Granite 3.2 8B Instruct 및 Granite 3.2 2B Instruct는 실험적인 사고 사슬 추론 기능을 제공하여 일반적인 성능에 영향을 주지 않으면서 복잡한 지침을 따르는 기능을 크게 향상시킵니다. 추론 프로세스를 켜고 끌 수 있어 컴퓨팅 리소스를 효율적으로 사용할 수 있습니다.
  • Granite 3.2 8B Instruct의 확장된 사고 프로세스를 IBM의 추론 확장 기술과 결합하면 GPT-4o, Claude 3.5 Sonnet을 포함한 훨씬 더 큰 모델의 성능을 충족하거나 능가할 수 있습니다.
  • IBM의 새로운 멀티모달 모델인 Granite Vision 3.2 2B는 특히 문서 이해에 중점을 두고 개발되었으며, 성능은 5배나 큰 개방형 모델과 견줄 수 있는 수준입니다.
  • Granite Time Series 모델 제품군인 Granite-Timeseries-TTM-R2.1에 최근에 추가된 이 버전은 이전 TTM 모델에서 이미 지원하던 분별 및 시간별 예측 작업 외에도 일별 및 주별 예측을 포함하도록 TTM의 기능을 확장합니다.
  • IBM은 Granite Guardian 3.2에 새로운 모델 크기를 도입하고 있으며, 여기에는 3B-A800M MoE(Mixture of Experts) 언어 모델에서 파생된 변형 모델이 포함됩니다. 새로운 모델은 성능 손실을 최소화하면서 향상된 효율성을 제공합니다.
  • 이제 Granite Embedding 모델 시리즈에는 희소 임베딩을 학습하는 기능이 포함되었습니다. Granite-Embedding-30M-Sparse는 다양한 리소스와 지연 예산에 걸쳐 효율성과 확장성을 균형 있게 유지합니다.
  • 이전 모델과 마찬가지로 모든 새로운 IBM Granite 모델은 허용되는 Apache 2.0 라이선스에 따라 오픈 소스로 출시됩니다.
  • 이제 Granite 3.2 모델을 IBM watsonx.ai, Hugging Face, Ollama, LMStudio, Replicate에서 사용할 수 있습니다.

IBM Granite 모델의 3세대 최신 릴리스인 Granite 3.2는 단순한 언어 모델을 넘어 Granite 시리즈의 진화에서 필수적인 단계입니다. 실험적 추론 기능과 IBM 최초의 공식 비전 언어 모델(VLM)을 주요 특징으로 하는 Granite 3.2는 Granite 제품군에 여러 가지 중요한 신기능을 도입합니다.

이 릴리스에는 기존 제품의 효율성, 효과성 및 다양성에 대한 다양한 개선 사항도 포함되어 있습니다. IBM은 실용적이고 기업에 적합한 모델을 우선시하며 점점 더 적은 수의 매개변수로 최첨단 성능을 지속적으로 추구합니다.

항상 그렇듯이 최신 Granite 모델은 Apache 2.0 라이선스에 따라 오픈 소스로 제공됩니다. 이제 모든 Granite 모델을 Hugging Face에서 사용할 수 있습니다. 일부 모델은 IBM watsonx.ai를 포함한 추가 플랫폼을 통해서도 사용할 수 있습니다. 이 문서의 마지막에 있는 '시작하기' 섹션에서 튜토리얼, 레시피, 기타 리소스를 확인할 수 있습니다.

Granite 3.2 Instruct: 필요한 추론 기능을 적시에 제공

IBM의 플래그십 텍스트 전용 대규모 언어 모델(LLM)의 최신 버전인 Granite 3.2 Instruct 8BGranite 3.2 Instruct 2B는 3.1 모델에 비해 향상된 추론 기능을 제공하도록 학습되었습니다. 추론 구현은 모델 성능을 향상시키기 위한 IBM의 실용적인 접근 방식을 따르며, 이는 특정 업계 트렌드에 다소 어긋납니다.

  • IBM은 별도의 '추론 모델'을 출시하여 개발 파이프라인을 복잡하게 만드는 대신, 핵심 Instruct 모델에 추론 능력을 직접 탑재했습니다. 모델의 내부 추론 프로세스를 쉽게 켜고 끌 수 있으므로 현재 작업에 컴퓨팅 리소스를 적절하게 사용할 수 있습니다.

  • 일반적인 추론 기반 기술은 다른 영역을 희생시키면서 논리적인 작업(예: 수학, 코딩)에 대한 모델의 성능을 향상시키는 반면, IBM의 방법론은 전반적으로 일반적인 성능과 안전성을 유지하면서 추론의 이점을 제공합니다.

새로운 Granite 3.2 Instruct 모델의 이러한 실험적 기능은 추론 기반 모델 진화에 대해 IBM Research에서 진행 중인 여러 연구 중 하나에 불과합니다. 추론 확장 기술에 대한 추가 연구를 통해 Granite 3.2 8B Instruct가 OpenAI의 GPT-4o-0513, Anthropic의 Claude-3.5-Sonnet-1022를 포함한 훨씬 더 큰 모델의 수학적 추론 성능과 일치하거나 초과하도록 보정될 수 있음을 입증했습니다.

추론의 장점(및 단점) 다루기

언어 모델 추론의 최근 발전을 이끈 직관은 2022년에 발표된 연구에 기반합니다. 이 연구에서는 '단계별로 생각하기'라는 문구를 추가하는 것만으로도 추론 작업에서 모델 출력이 크게 향상된다는 사실을 입증한 바 있습니다. 이 프롬프트 엔지니어링 기법은 흔히 생각의 연결고리(CoT) 프롬프팅이라고도 불립니다.1

2024년의 후속 연구에서는 추론 시간 컴퓨팅, 즉 추론 중에 각 출력을 생성하는 데 사용되는 리소스를 확장하면 모델의 크기 또는 학습에 사용되는 리소스를 확장하는 것만큼 모델 성능을 향상시킬 수 있다고 가정했습니다. 가장 최근의 접근 방식은 대부분 더 길고 복잡한 '사고 과정'을 장려하는 다양한 강화 학습(RL) 프레임워크의 통합을 통해 이러한 추론 확장을 추구했습니다. 흥미롭게도, 추론 확장은 훨씬 더 작은 LLM도 훨씬 더 큰 모델의 추론 능력을 능가할 수 있다는 것이 경험적으로 입증되었습니다.

추론 모델의 장점에도 불구하고 단점이 없는 것은 아닙니다. 이러한 점을 파악한 IBM은 Granite 3.2에 대한 추론 기능의 구체적인 구현에서 이러한 단점을 완화하기 위한 의도적인 조치를 취했습니다.

비효율성 방지

'추론 모델'은 일반적으로 일반 LLM보다 속도가 느리고 비용이 많이 드는데, 이는 실제로 사용자에게 출력을 제공하기 전에 모델이 최종 응답을 '생각'하는 데 사용하는 모든 토큰을 생성하고 비용을 지불해야 하기 때문입니다. IBM Research는 유명한 추론 모델인 DeepSeek-R1의 한 가지 예에 주목했는데, “Where is Rome?”라는 질문에 답하는데 50.9초가 소요되었습니다.

추가 시간과 컴퓨팅이 쉽게 정당화될 수 있는 시나리오가 있지만, 리소스 낭비가 되는 시나리오도 많이 있습니다. IBM Granite 3.2 Instruct 모델을 사용하면 개발자가 특정 애플리케이션 또는 워크플로에 맞는 모델을 선택할 때마다 이러한 절충점을 해결할 필요가 없습니다. 대신에 확장된 사고 프로세스를 켜거나 끄기 위해 API 엔드포인트에 "thinking":true 또는"thinking":false 매개변수를 추가하기만 하면 됩니다. 

필요할 때 Granite 3.2의 사고 프로세스를 활용하고, 필요하지 않을 때는 효율성을 우선시할 수 있습니다.

일반적인 성능 저하 방지

추론 모델의 비교적 짧은 역사에서 많은 유명한 접근 방식은 수학 또는 코딩과 같이 좁게 초점을 맞춘 논리 기반 도메인 집합에서만 성능 향상의 우선순위를 지정했습니다. IBM은 추론 확장 기술을 지속적으로 연구하여 AIME, MATH-500 같은 기존의 '추론'과 관련된 기술 벤치마크에서 특히 눈에 띄는 성능 향상을 이루었지만, Granite 3.2 Instruct의 경우 모델의 사고 프로세스를 강화하여 복잡한 지침을 따르는 능력을 보다 광범위하게 개선하는 데 중점을 두었습니다.

모델 개발자가 명시적으로 목표로 삼은 기술 작업에만 좁게 초점을 맞추면, 추론 성능을 개선하는 데 사용되는 데이터 세트에서 적절하게 다루지 않으면 모델에서 '잊혀질' 수 있는 일반 성능 및 안전 등의 다른 영역이 희생될 수 있습니다. 이를 방지하기 위해 IBM은 사고 선호도 최적화(TPO) 기반 강화 학습 프레임워크를 Granite 3.1 Instruct에 직접 적용하여 Granite 3.2 Instruct를 개발했습니다.

추론 기능에 대한 많은 일반적인 접근 방식과 달리 TPO는 모델 출력을 평가하고 보상하는 논리 연산자나 함수에 대한 의존도가 낮기 때문에 일반 작업으로 쉽게 확장할 수 있습니다. 이를 통해 Granite 3.2 Instruct는 다른 곳의 성능을 저하시키지 않고도 복잡한 추론이 필요한 작업에서 향상된 성능을 발휘할 수 있었습니다.

이러한 접근법의 이점은 DeepSeek-R1-Distill 모델과 비교할 때 가장 분명하게 드러납니다. 이 모델은 그 이름에도 불구하고 실제로는 DeepSeek-R1의 추론 프로세스를 에뮬레이트하도록 미세 조정된 Llama 및 Qwen 모델 버전입니다. 여기서 주목할 점은 R1-Distill 모델과 달리, IBM Granite 3.2 Instruct 모델은 DeepSeek에서 생성된 데이터를 사용하여 학습되지 않았기 때문에 규제의 영향이 크게 간소화되었다는 점입니다.

어려운 명령을 통해 모델이 사고하는 능력을 측정하는 인기 벤치마크인 ArenaHardAlpaca-Eval-2에서 유사한 크기의 Llama, Qwen 및 Granite 모델의 사전 및 사후 추론 성능을 살펴보세요. DeepSeek의 기술은 이러한 비표적 작업의 성능을 저하시키는 반면, Granite 3.1 Instruct를 Granite 3.2 Instruct로 발전시키는 데 사용된 CoT 기술은 명령 준수를 크게 개선했습니다.

LLM 성능 막대 차트 복잡한 지침 준수에 대한 모델 성능 비교(Granite Thinking = 켜짐)

마찬가지로, Granite 3.2는 추론 기능의 도입으로 인해 흔히 수반되는 성능 저하를 방지합니다.

LLM 성능 막대 차트 일반 학업 성취도 벤치마크에 대한 추론 전후 성능 비교(Granite Thinking = 꺼짐)

IBM은 안전을 비롯한 기업의 필수 문제를 모든 설계 결정의 중심에 둡니다. DeepSeek 증류 모델의 경우(AttaQ 벤치마크의 성능으로 측정) 안전 성능이 크게 저하된 것으로 나타났지만, IBM의 접근 방식은 Granite 3.2 Instruct의 적대적 공격에 대한 견고성을 유지했습니다.

LLM 안전성을 표시하는 막대 차트 적대적 공격에 대한 추론 전후 복원력 비교(Granite Thinking = 꺼짐)

추론 향상을 위한 IBM의 지속적 작업

앞서 언급했듯이, Granite 3.2의 출시는 IBM이 기업 모델의 추론 기능에 대해 탐구하는 시작점에 불과합니다. 현재 진행 중인 연구의 대부분은 추가 모델 최적화를 위해 Granite 3.2의 본질적으로 더 길고 강력한 사고 프로세스를 활용하는 것을 목표로 합니다.

이러한 탐구 방식 중 하나는 입자 필터링 및 과반수 투표(자체 일관성이라고도 함)를 포함한 보다 복잡한 추론 확장 기술을 사용하여 Granite 3.2를 강화하는 데 중점을 두고 있습니다. 초기 실험에 따르면 이러한 추론 확장 기술과 함께 사용하면 수학적 추론 작업에 대한 Granite 3.2의 성능이 훨씬 더 큰 프론티어 모델에 필적하거나 능가할 수 있습니다.

Granite Vision 3.2 2B: 멀티모달로 전환되는 Granite

Granite Vision 3.2 2B는 일상적인 기업 사용 사례를 대상으로 하는 컴퓨팅 비전 기능을 갖춘 경량형 대규모 언어 모델로, 특히 시각적 문서 이해에 중점을 두고 학습되었습니다. 이미지 및 텍스트 입력을 모두 처리하는 Granite Vision 3.2의 성능은 DocVQA, ChartQA와 같은 필수 엔터프라이즈 벤치마크에서 훨씬 더 큰 개방형 모델의 성능과 비슷합니다.

LLM 안전 막대 차트 문서 이해 작업의 성능을 측정하는 벤치마크에서 Granite Vision 3.2는 훨씬 더 큰 개방형 모델과 어깨를 나란히 합니다.

Granite Vision 3.2 2B는 언어 작업에서 비슷한 크기의 텍스트 전용 Granite 모델을 즉시 대체하기 위한 것은 아니지만, 텍스트 입력, 텍스트 출력 시나리오를 유능하게 처리할 수 있습니다.

엔터프라이즈 이미지의 시각을 위한 비전

Granite Vision 3.2 2B는 다양한 시각적 이해 작업을 처리할 수 있지만, 문서 이해 및 멀티모달 검색 증강 생성(RAG)과 가장 관련성이 높은 작업에 특화되어 있습니다.

멀티모달 대규모 언어 모델(MLLM)이라고도 부르는 대부분의 VLM은 주로 자연 이미지에 대한 비전 작업을 위해 학습됩니다. 레이아웃, 글꼴, 차트, 인포그래픽 등 고유한 시각적 특성이 자연 이미지와 크게 다른 문서 이미지에서는 최적의 성능을 발휘하지 못합니다. 대부분의 일반화된 이미지인, 텍스트아웃 사용 사례와 비교하여, 문서 이해에는 시각적 맥락에 대한 보다 구체적이고 세분화된 이해를 필요로 합니다.

MLLM이 문서 및 관련 시각 자료를 효과적으로 처리할 수 있도록 하는 데 있어 두 가지 주요 과제는 고해상도 이미지를 적절하게 인코딩하고 해당 문서 내에서 시각적으로 배치된 텍스트를 정확하게 해석하는 것입니다. 전문화된 접근 방식은 일반적으로 외부 광학 문자 인식(OCR) 시스템에 의존하여 '인식 후 이해' 프레임워크에서 이미지 내의 텍스트를 처리하거나, 문서 이해만을 위해 설계된 맞춤형 모델 아키텍처를 사용합니다.

두 가지 접근 방식 모두 단점이 있습니다. 외부 OCR 기반 문서 이해에 의존하면 필수 정보가 언어에 도달하기 전에 오류가 누적될 수 있으며, 많은 전용 'OCR 프리' 방식은 고해상도 입력을 처리하는 데 어려움을 겪거나 경쟁 LLM에 비해 전반적인 지식 부족으로 어려움을 겪습니다.2

최근에는 문서 중심 데이터 세트에서 일반화된 비전 언어 모델을 명령 조정하여 문서 이해에서 강력한 성능을 달성했습니다. 안타깝게도, 이 접근 방식의 진전은 적절한 오픈 소스 데이터 세트의 부족으로 인해 다소 제한되었습니다. 이 접근 방식을 더욱 발전시키기 위해 IBM의 Granite Vision 3.2 개발에는 시각적 문서 이해를 위한 포괄적인 명령 준수 데이터 세트에 대한 광범위한 작업이 포함되었습니다.

DocFM: 엔터프라이즈 비전 작업을 위한 명령 조정 데이터 세트

DocFM 데이터 세트는 신중하게 선별된 엔터프라이즈 데이터를 기반으로 구축된 비전 작업을 위한 대규모 명령 조정 데이터 세트입니다. 문서 이해 데이터 세트 수집에 사용된 데이터 소스, 초기 수집을 처리하는 데 사용된 필터링 및 정리 방법, 이후 Granite Vision에 대한 학습 작업을 합성적으로 생성하는 데 사용되는 방법론에 대한 광범위한 세부 정보가 함께 제공되는 기술 백서에 나와 있습니다.

Granite Vision을 학습시키는 데 사용되는 문서 이해 데이터는 일반 문서 이미지, 차트, 순서도 및 다이어그램의 범주와 함께 다양한 문서 클래스를 다룹니다. 명령 준수 데이터 세트는 문서 질문 답변, 장면 텍스트 이해, 키-값 추출, 텍스트 그라운딩, 레이아웃 구문 분석, 캡션, UI 이해 및 코드를 포함한 다양한 작업에 걸쳐 있습니다.

Granite Vision 3.2 학습에 사용된 데이터를 나타내는 원형 차트 왼쪽: 문서 이해 학습 데이터 소스, 오른쪽: 일반 이미지 데이터에 사용되는 데이터 세트

DocFM은 IBM이 향후 다양한 다운스트림 시각 학습 활동에 사용되는 매우 큰 데이터 세트입니다. Granite Vision의 학습은 DocFM의 하위 집합을 사용하여 일련의 합성 시각적 질문-답변 데이터 세트를 생성했습니다. 기술 문서 부록의 표 5에는 Granite Vision에 사용된 문서 이해 데이터 세트에 대한 포괄적인 개요가 나와 있습니다.

내재적 안전 모니터링을 위한 희소 어텐션 벡터

Granite 3.2 Vision의 설계 및 학습에서 IBM은 유해한 활동을 모니터링하기 위해 외부 가드레일 모델에 의존하는 대신 Granite 모델 자체에 직접 통합하는 새로운 테스트 시간 기술도 도입했습니다.

핵심 인사이트는 Granite Vision의 많은 어텐션 헤드와 트랜스포머 계층 내에 안전 모니터링 작업이 분류 문제로 공식화될 때 안전 문제를 식별하는 데 유용할 수 있는 이미지 기능의 희소한 하위 집합이 있다는 것입니다.

Granite Vision 기술 문서에 자세히 설명되어 있는 프로세스에서 IBM Research는 Granite Vision의 어텐션 메커니즘 내에서 생성된 어텐션 벡터를 분리하고 검사하여 평균적으로 특정 부류의 유해 입력과 안정적으로 상관관계가 있는 어텐션 벡터를 평가하는 프로세스를 설계했습니다. 일단 식별되면, 이러한 '안전 벡터'를 생성하는 어텐션 헤드를 사용하여 주어진 입력이 안전한지 여부를 판단할 수 있습니다.

IBM은 희소 어텐션 벡터의 잠재적 응용 분야를 계속 탐구할 것입니다. 한 가지 잠재적인 탐구 방법은 완전한 멀티모달 안전 모니터링을 위해 Granite Guardian의 향후 버전을 조정하는 데 사용하는 방법을 조사하는 것입니다.

Granite Guardian 3.2: 더 슬림하고 안전하고 구체적인 모델

프롬프트 및 응답에서 위험을 감지하도록 설계된 최신 IBM 가드레일 모델인 Granite Guardian 3.2는 더 낮은 추론 비용과 메모리 사용량으로 더 빠른 속도를 제공하면서도 Guardian 3.1과 동일한 성능을 제공합니다.

언어적 신뢰도

IBM Granite Guardian 3.2에서는 특정 안전 모니터링 시나리오에 내재된 모호성을 인정하기 위해 탐지된 위험에 대한 보다 세부적인 평가를 제공하는 새로운 기능인 언어적 신뢰도(verbalized confidence)를 도입했습니다.

위험에 대한 입력과 출력을 모니터링하는 과정에서 '예' 또는 '아니요'로만 출력하는 대신, Granite Guardian 3.2 모델은 상대적인 확실성 수준도 표시합니다. 잠재적 위험이 감지되면 Guardian 3.2 모델은 다음 예와 같이 “High”또는 “Low” 신뢰도를 표시합니다.

label, confidence = parse_output(output, input_len)
print(f"# risk detected? : {label}") # Yes
print(f"# confidence detected? : {confidence}") # High

 

더욱 슬림한 안전 모델

Granite Guardian 3.2에는 두 가지 새로운 모델 크기가 도입되었습니다.

Granite Guardian 3.2 5B는 Granite Guardian 3.1 8B(안전 분류를 위한 기본 언어 모델을 미세 조정하여 생성됨)에서 파생되었습니다. 신경망의 더 깊은 계층이 중복되거나 사전 학습을 통해 완전히 활용되지 않는 경우가 많거나 네트워크의 얕은 계층보다 덜 중요하다는 연구 결과에 영감을 받은 IBM은 8B 모델을 '얇게' 만들기 위한 반복적인 가지치기(pruning) 전략을 추구했습니다. 이 프로세스를 통해 8B의 매개변수를 약 30% 줄이면서 원래 모델의 성능을 유지할 수 있었습니다.

  • 먼저, 입력 벡터와 출력 벡터 간의 상대적 유사성을 기준으로 가지치기를 위한 특정 계층이 선택됩니다. 즉, 기여도가 가장 적은 네트워크 계층을 식별합니다.
  • 식별이 완료되면 10개의 계층이 모델에서 제거됩니다.
  • 그런 다음, 모델은 원래 학습 데이터의 80%에서 다시 학습하여 '복구'되며, 그 이후 2개의 추가 계층이 가지치기됩니다.

Granite Guardian 3.2 3B-A800M 모델은 IBM의 MoE(Mixture of Experts) 기본 모델을 미세 조정하여 생성되었습니다. 이 모델은 추론 시 총 30억 개의 매개변수 중 8억 개만 활성화합니다. 이번 출시로 Granite Guardian 라인업에 특히 효율적이고 비용 효율적인 옵션이 추가되었습니다.

Granite Time Series 모델: 일별 및 주별 예측 제공

TTM(Tiny Time Mixer)이라고 불리는 IBM의 인기 오픈 소스 컴팩트 Granite Time Series 모델 제품군은 Hugging Face에서 800만 회 이상 다운로드되었습니다. TTM-R1 및 TTM-R2 시리즈에 릴리스된 이전 TTM 변형은 분 단위 또는 시간 단위 해결을 위해 제로샷(zero-shot)퓨샷(few-shot) 예측을 지원했지만, Granite Time Series 라인업에 가장 최근에 추가된 TTM-R2.1은 일일 및 주간 예측 범위를 지원합니다.

TTM-R2 및 TTM-R2.1 학습에 사용된 모든 데이터 소스의 항목별 목록은 TTM-R2/R2.1 Hugging Face 모델 카드 하단에서 확인할 수 있습니다. 전체 변형 목록은 '파일 및 버전' 탭에서 확인할 수 있습니다.

Tiny Time Mixer를 시작하기 위한 다양한 레시피는 Granite Time Series 설명서에서 확인할 수 있습니다.

소형 패키지로 담긴 최고의 성능

Salesforce의 GIFT-Eval Time Series Forecasting Leaderboard에서는 7개 도메인, 10개 빈도, 단기에서 장기 예측에 이르는 예측 길이에 걸쳐 있는 24개의 데이터 세트에서 다변량 입력에 대한 시계열 모델 성능을 평가하는 포괄적인 벤치마크인 TTM-R2 모델(새로운 TTM-R2.1 변형 포함)평균 절대 척도 오차(MASE)로 측정한 포인트 예측 정확도에서 모든 모델 중 1위를 차지했습니다.3 TTM-R2도 연속 순위 확률 점수(CRPS)로 측정한 예측 부문에서 상위 5위 안에 들었습니다.

TTTM 모델이 그보다 몇 배나 큰 규모의 모델을 능가하여 이러한 순위를 달성했다는 점은 주목할 가치가 있습니다. 1~500만 개 매개변수의 '작은' 크기에서 TTM 모델은 MASE 부문에서 2위 및 3위 모델인 Google의 TimesFM-2.0 (5억 매개변수)와 Amazon의 Chronos-Bolt-Base(2억 500만 매개변수)보다 수백 배 더 작습니다..
 

예측 사용 사례의 다양성 향상

TTM-R2.1 릴리스에는 다양한 컨텍스트 길이와 예측 범위를 갖춘 다양한 모델이 포함되어 있습니다. 이전 TTM-R2 모델이 1536, 1024 또는 512의 컨텍스트 길이를 제공한 반면, TTM-R2.1에는 512에서 52까지의 더 짧은 컨텍스트 길이를 제공하는 모델이 포함되어 있어 일일 및 주간 예측에 적합합니다.

TTM-R2.1 모델이 반드시 TTM-R2 이전 모델을 대체하는 것은 아닙니다. 데이터의 특성과 사용 사례에 따라 '가장 적합한' TTM 버전이 달라집니다. 예를 들어, Granite-Timeseries-TTM-52-16-ft-R2.1은 컨텍스트 길이가 52이고 예측 길이가 16이므로 1년 분량의 주간 데이터 포인트를 분석하고 향후 몇 개월 동안의 주간 결과를 예측하는 것과 같은 작업에 가장 적합합니다.

get_model 모듈은 사용 가능한 광범위한 오퍼링에서 올바른 모델 변형을 선택하는 작업을 단순화합니다.

빈도 접두사 조정

TTM-R2.1 모델의 이름에 포함된 'ft ' 명칭은 '빈도 조정' (또는 보다 공식적으로는 빈도 접두사 조정)을 나타냅니다. 텍스트 생성 작업을 위한 파운데이션 모델을 미세 조정하기 위한 간단한 대안으로 사용되는 접두사 조정 기술에서 파생된 빈도 접두사 조정은 시계열 파운데이션 모델이 입력 데이터의 변화에 맞게 조정되는 기능을 개선합니다.

활성화하면 데이터의 빈도를 나타내는 추가 임베딩 벡터가 컨텍스트 창의 정보와 함께 모델 입력에 '접두사'로 추가됩니다. TTM 기술 문서에 자세히 설명되어 있듯이, 모델 팀은 다양한 해상도의 대규모 데이터 세트 컬렉션에 대해 사전 학습할 때 빈도 조정이 성능을 향상시킨다는 사실을 발견했습니다. 추론하는 동안 이 접두사 토큰을 사용하면 모델이 입력 데이터의 빈도에 빠르게 적응할 수 있으므로, 컨텍스트 길이가 매우 짧은 경우에 특히 유용합니다.

Granite Embedding: 새로운 희소 임베딩 모델

이전의 모든 Granite Embedding 모델(더 나아가 현대 딥 러닝 시대의 거의 모든 임베딩 모델)은 고밀도 임베딩을 학습하는 반면, 최신 Granite Embedding 모델인 Granite-Embedding-Sparse-30M-English는 아키텍처를 약간 변경하여 희소 임베딩을 학습할 수 있습니다.

영어 일치 검색, 키워드 검색 및 순위 지정에 최적화된 Granite-Embedding-30M-Sparse는 다양한 리소스 및 지연 예산에서 효율성과 확장성의 균형을 유지합니다. 이 기능은 IBM Research에서 오픈소스 아이디어를 테스트하여 IBM 개발 주기를 단축할 수 있는 플레이그라운드인 Granite Experiments를 통해 릴리스되었습니다.

희소 임베딩이 필요한 이유

일반적으로 고밀도 임베딩 모델은 텍스트 입력(문서, 문장 또는 쿼리 등)을 받아 고정된 크기의 벡터 임베딩을 출력합니다. 벡터의 크기, 즉 얼마나 많은 숫자(또는 차원)가 포함되는지는 디자인 선택 사항입니다. 더 작은 임베딩을 학습시키는 모델은 더 빠르지만 정확도는 떨어집니다. 더 큰 임베딩을 학습시키는 모델은 느리지만 더 정확합니다. 이를 '고밀도' 벡터 임베딩이라고 하는데, 모든 차원이 특정 값을 저장하기 때문입니다.

고밀도 벡터 임베딩의 개별 차원은 문자 그대로 원본 입력의 의미론적 의미 속성과 직접적으로 일치하지 않습니다. 고밀도 벡터 임베딩은 본질적으로 블랙박스입니다. 즉 모델은 이를 사용하여 유용한 작업을 수행할 수 있지만, 인간은 이를 의미 있는 방식으로 해석할 수 없습니다.

희소 임베딩은 더 직관적입니다. 임베딩 크기는 어휘 크기와 동일합니다. 즉, 벡터 임베딩의 각 차원은 모델이 학습한 '단어' 중 하나 또는 더 정확하게는 토큰 중 하나에 해당합니다. 희소 임베딩 벡터의 각 차원에 포함된 특정 값은 모델이 임베딩을 생성하는 입력에 대해 해당 차원이 나타내는 단어(토큰)의 관련성을 반영합니다. 따라서 희소 임베딩은 해석이 매우 쉽습니다.

트윗, 댓글 또는 간단한 후기와 같은 짧은 텍스트 구절의 경우 희소 임베딩은 훨씬 더 빠르면서도 고밀도 임베딩보다 더 우수하거나 적어도 그와 동등한 성능을 제공할 수 있습니다. 일반적으로 미세 조정할 필요 없이 "즉시 사용 가능한" 성능을 제공합니다.

하지만 단점이 없는 것은 아닙니다. 미세 조정을 통해 희소 임베딩 모델의 성능을 원래 기준선 이상으로 개선할 수 있는 기회는 제한적입니다. 더 긴 텍스트 구절의 경우 모델의 어휘에서 증가하는 토큰의 관련성을 반영하기 위해 점점 더 많은 차원이 사용됨에 따라 효율성 이점이 사라지기 시작하거나 심지어 역전되기 시작합니다.

희소 30M Granite Embedding 모델은 정보 검색 벤치마크(BEIR)에서 고밀도 30M 대응 모델과 거의 동등한 성능을 제공하면서 SPLADE-v3에 비해 약간의 이점을 제공합니다.

Granite 3.2 시작하기

모든 Granite 3.2 모델은 Hugging Face의 허용되는 Apache 2.0 라이선스에 따라 사용할 수 있습니다. 일부 모델은 IBM watsonx.ai뿐만 아니라 LM Studio, Ollama, Replicate를 포함한 플랫폼 파트너(알파벳순)에서도 사용할 수 있습니다. 앞으로 이 문서는 Granite 3.2 모델의 확장된 플랫폼 가용성을 반영하기 위해 업데이트될 예정입니다. 

Granite 모델 작업을 위한 다양한 가이드와 레시피는 Granite 문서와 GitHub의 Granite Snack 설명서에서 확인할 수 있습니다. 개발자는 Granite 모델 플레이그라운드에서 또는 다음에 대한 유용한 데모와 튜토리얼을 탐색하여 Granite 모델을 시작할 수도 있습니다.

Granite 3.2 모델 살펴보기 →

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스+인사이트


주간 Think 뉴스레터에서 전문가들이 선별한 AI, 클라우드 등에 관한 인사이트와 소식을 살펴보세요. 

관련 솔루션
IBM watsonx.ai

AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.

watsonx.ai에 대해 알아보기
인공 지능 솔루션

업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.

AI 솔루션 살펴보기
AI 서비스

AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.

AI 서비스 살펴보기
다음 단계 안내

AI 개발 라이프사이클 전반에 걸친 기능에 원스톱으로 액세스하세요. 사용자 친화적인 인터페이스, 워크플로, 업계 표준 API 및 SDK에 대한 액세스를 통해 강력한 AI 솔루션을 제작할 수 있습니다.

watsonx.ai 살펴보기 라이브 데모 예약하기