2025년 4월 16일
주요 정보를 한눈에 살펴보세요.
오늘의 출시는 IBM Granite의 멀티모달 영역이 또 한 번 확장되었음을 의미합니다. 최초의 공식 음성-텍스트 변환 모델인 Granite Speech 8B를 주제로 한 Granite 3.3은 오디오 기능에 대한 탐색의 시작을 알렸습니다. IBM은 최근 비전 및 추론 능력을 추가함과 동시에 고객과 오픈 소스 커뮤니티에 가장 필요한 기업 사용 사례 전반에 걸쳐 Granite 시리즈의 다양성을 지속적으로 확대하고 있습니다.
Granite Speech 3.3 8B에 추가된 Granite 3.3 8B Instruct는 Granite Speech 3.3 8B의 기반이 되는 대규모 언어 모델(LLM)이며, 더 작은 버전(2B)도 있습니다. 이전 버전보다 텍스트 모델의 추론 과정이 더욱 정교해지고 중간 채우기(FIM) 기능이 추가되어 특히 코딩 분야에서 더욱 다양한 활용 사례를 제공합니다.
또한 오픈 소스 아이디어를 테스트하기 위한 IBM Research 플레이그라운드인 Granite Experiments를 통해 이전에 출시된 Granite 3.2 8B Instruct 모델에 대한 성능 향상(주로 RAG 중심) LoRA 어댑터의 업데이트 및 확장된 시리즈를 출시하고 있습니다. Granite 3.3 Instruct용 어댑터 제품군을 포함한 추가 LoRA 혁신은 앞으로 몇 주 안에 출시될 예정입니다.
Granite Speech 3.3 8B는 작고 비용 효율적인 오디오 입력 (및 텍스트 입력), 텍스트 출력 STT 모델로서, 음성 입력을 처리하는 엔터프라이즈 애플리케이션에 사용하도록 설계되었으며 자동 음성 인식(ASR) 및 자동 음성 번역(AST)에 최적화되어 있습니다.
Granite Speech 3.3은 여러 주요 공개 데이터 세트를 대상으로 테스트한 결과, 전사 작업에서 주요 개방형 및 폐쇄형 모델 경쟁 제품보다 일관되게 더 높은 정확도를 제공했습니다.
이 모델은 영어에서 프랑스어, 스페인어, 이탈리아어, 독일어, 포르투갈어, 일본어, 중국어 등 다양한 언어로의 자동 번역 기능을 제공합니다. IBM의 AST 성능 테스트에서 Granite Speech 3.3 8B는 CoVost 데이터 세트의 Granite 지원 언어에서 OpenAI의 GPT-4o 및 Google의 Gemini 2.0 Flash와 같은 주요 독점 모델과 동등한 성능을 보였습니다. 번역 성능에 대한 자세한 내용은 모델의 Hugging Face 모델 카드에서 확인할 수 있습니다.
아키텍처 측면에서 Granite Speech 3.3은 다음으로 구성됩니다.
음성과 텍스트를 단일 패스로 결합하는 직접 통합 모델과 달리 Granite Speech 3.3은 2패스 설계를 사용합니다. 예를 들어, 모델에게 오디오 파일에 대해 질문하려면 오디오를 텍스트로 변환하기 위한 초기 호출과 트랜스크립션된 텍스트에 대해 모델을 쿼리하는 두 번째 프롬프트가 필요합니다. 프롬프트에 "
이러한 2단계 접근 방식은 Granite Speech 3.3 8B의 텍스트 쿼리 성능이 기본 LLM(Granite 3.3 8B Instruct)의 성능을 반영하도록 보장하여, 많은 멀티모달 모델에서 흔히 발생하는 텍스트 기반 성능 저하를 방지합니다. 텍스트 및 음성 모델을 모두 제대로 지원하도록 구성된 추론 플랫폼에 대한 접근이 제공되면, 개발자는 Granite Speech 3.3 8B를 Granite 3.3 8B Instruct에 오디오 입력 기능이 추가된 버전으로 이해할 수 있습니다.
기존 Whisper 기반 ASR 모델과 달리 Granite Speech 3.3은 30초 윈도우에 고정되는 것이 아니라 임의의 길이의 입력을 수용할 수 있습니다. 테스트 결과, 이 모델은 H100 80GB GPU에서 20분짜리 오디오 파일을 안정적으로 처리할 수 있었습니다. Whisper 기반 모델에서는 최대 길이를 초과하는 오디오 파일은 30초 단위로 잘라야 하는데, 이로 인해 30초 단위의 잘라내기가 적용되는 순간 근처에서 부정확성이 발생하는 경우가 많습니다. 일반적으로 인위적인 잘라내기가 적을수록 부정확성이 줄어듭니다.
Granite Speech 3.3은 표면적으로는 상당히 긴 오디오 입력을 처리할 수 있지만, 아직 긴 오디오 데이터에 대한 모델이 미세 조정되지 않았다는 점에 유의해야 합니다. 일관된 정확도를 유지하기 위해 각 개별 오디오 입력 단위에 대해 1분으로 제한하는 것을 권장합니다.
Granite Speech 3.3은 IBM이 Granite 시리즈 오디오 기능에 대한 탐구를 시작한 첫 번째 시도에 불과합니다. 향후 출시될 버전, 특히 Granite 4에서 Granite Speech를 개선하기 위한 연구가 다음을 포함하여 진행되고 있습니다.
텍스트 전용 명령 조정 모델인Granite 3.3 8B Instruct 및 Granite 3.3 2B Instruct의 최신 버전은 중간 채우기(FIM) 기능을 추가하고 Granite 3.2에 도입된 사고 기능을 지속적으로 개선하고 있습니다.
또한 이제 Granite 3.1의 이전 버전을 대체하는 기본 모델인Granite 3.3 8B Base 및 Granite 3.3 2B Base를출시하여 개발자가 FIM 지원 모델에 액세스하여 미세 조정 작업을 수행할 수 있도록 합니다.
텍스트 생성에 일반적으로 사용되는 LLM인 자동 회귀 LLM은 기본적으로 왼쪽에서 오른쪽으로 앞으로 이동하도록 설계되었습니다. 자기 지도 학습을 통해 시퀀스가 완료된 것으로 간주될 때까지 이전 토큰의 정보를 기반으로 시퀀스의 다음 토큰을 반복적으로 예측하도록 학습됩니다. 이러한 설계는 매우 다양한 생성 작업에 적합하지만, 본질적으로 다른 종류의 작업, 즉 이전 및 이후에 오는 토큰을 기반으로 올바른 토큰을 예측하는 작업에는 부족합니다. 즉, 기존의 자기 회귀 LLM은 "중간 채우기"가 불가능합니다.
채우기를 위해 자동 회귀 모델을 조정하려면 LLM이 본질적으로 "속임수"를 사용하여 고유한 왼쪽에서 오른쪽 예측 기능을 사용하여 중간에 있는 토큰을 예측하도록 훈련 작업을 재설계해야 합니다. 이를 위해서는 일반적으로 샘플 구절을 접두사(선행 토큰), 접미사(뒤에 오는 토큰) 및 중간(채우기에 의해 예측되는 토큰)으로 나눈 다음 중간 토큰을 예측하도록 요청하기 전에 모델에 접두사와 접미사가 모두 제공되도록 구절을 재정렬해야 합니다. Granite 3.3은 특수 토큰을 사용하여 모델이 접두사와 접미사 모두에 조건화된 컨텐츠를 생성할 수 있도록 합니다.
FIM은 다양한 사용 사례를 가지고 있지만, 특히 코드 복구 및 오류 연결부터 리팩토링, 상용구 코드의 빠른 생성, 함수 인수 또는 문서 문자열 삽입에 이르기까지 코딩 작업에 적용할 수 있습니다.
Granite 3.2는 사고 선호도 최적화(TPO)를 통해 Instruct 모델의 추론 능력을 강화하여 성능 저하 없이 복잡한 지침을 따르는 능력을 향상시키는 데 중점을 두었습니다. Granite 3.3 Instruct는 이러한 이점을 유지하면서 복잡한 수학적 추론에 대한 모델의 성능을 강화하는 데 중점을 두었습니다.
업데이트된 Granite 3.3 기본 모델을 기반으로 구축되었으며 TPO 및 그룹 상대 정책 최적화(GRPO)를 사용한 다단계 강화 학습을 통해 미세 조정된 Granite 3.3 Instruct 모델은 모두 기존에 "추론"과 관련된 고도의 기술 벤치마크에서 상당한 개선을 보여주었습니다.
Granite 3.3 8B의 MATH500 벤치마크 성능은 Anthropic의 Claude 3.5 Haiku(64.2%)와 Meta의 Llama 3.1 8B Instruct(44.4%)보다 훨씬 앞서 있으며, 24B 매개변수 Mistral Small 3(70.6%)과 거의 비슷하고, Claude 3.5 Sonnet(72.4%)과 OpenAI의 GPT-4o Mini(72.6%)보다 약간 뒤처져 있습니다.1
Granite 3.2 Instruct 모델과 마찬가지로, "사고" 기능을 쉽게 켜고 끌 수 있어 개발자는 필요할 때는 향상된 사고의 사슬(CoT) 추론을 우선시하고, 필요하지 않을 때는 비용 효율성과 낮은 지연 시간을 우선시할 수 있습니다.
기존 Granite 기반 애플리케이션을 개선하고 차세대 성능 향상 LoRA 어댑터 개발에 필요한 정보를 제공하기 위해 IBM은 IBM Research에서 오픈 소스 아이디어를 테스트하는 플레이그라운드인 Granite Experiments를 통해 Granite 3.2 8B Instruct를 위한 5개의 (대부분) RAG 전용 LoRA 어댑터 모음을 출시합니다. 이러한 각 LoRA 어댑터는 모델의 고유한 지식을 활용하여 검색 쿼리 재작성이나 할루시네이션 감지와 같은 특정 작업을 지원합니다.
IBM Research는 활성화된 LoRA(aLoRA)라고 부르는 새로운 종류의 저랭크 적응을 사용하는 각각의 대응 제품과 함께 이러한 "기존" LoRA 어댑터를 개발했습니다. 표준 LoRA 어댑터 간 교체는 모델이 진행 중인 대화의 맥락을 새로운 어댑터를 사용하여 다시 계산해야 하기 때문에 성능이 저하되는 경우가 많습니다. 하지만 표준 LoRA와 달리 IBM의 aLoRA는 기존 키-값(KV) 캐시를 재사용하기 때문에 맥락을 다시 계산(또는 "미리 채우기")할 필요가 없습니다. 활성화된 LoRA는 표준 LoRA의 생성 품질과 동일하면서도 상당한 런타임 및 컴퓨팅 이점을 제공합니다. aLoRA를 실행하는 소스 코드는 여기에서 확인할 수 있습니다.
RAG 할루시네이션 감지
RAG를 사용하더라도 LLM은 때때로 할루시네이션을 일으킬 수 있습니다. RAG 할루시네이션 감지 LoRA가 장착된 경우 모델은 0-1(0.1씩 증가) 사이의 "충실도 점수"를 제공하여 아웃풋이 검색된 문서에 포함된 정보를 얼마나 밀접하게 반영하는지를 반영합니다. 충실도 점수가 낮을수록 할루시네이션 위험이 높다는 것을 나타냅니다. 모델은 사용 가능한 소스의 정보로 질문에 답변할 수 없는 경우 아웃풋을 출력합니다.
RAG 쿼리 재작성
검색 엔진은 모든 관련 정보가 포함된 독립형 쿼리에 대한 응답으로 훨씬 더 나은 결과를 반환하며, 이는 대화 초기의 컨텍스트가 있어야만 실행 가능한 쿼리에 대한 응답보다 훨씬 낫습니다. 쿼리 재작성 LoRA가 탑재된 모델은 독립형이 아닌 모든 사용자 쿼리를 완전히 독립적인 쿼리로 자동으로 다시 작성합니다. 예를 들어 다음과 같은 교환을 생각해 보세요.
사용자: "Apple의 CEO는 누구인가요?" 모델: "Tim Cook은 Apple Inc.의 최고 경영자입니다." 사용자: "Microsoft는 어떨까요?"
모델은 사용자의 첫 번째 쿼리는 그대로 전달하지만, 두 번째 쿼리는 "Microsoft의 CEO는 누구입니까?"로 다시 작성합니다. 테스트 결과, 이러한 재작성으로 모델 응답의 관련성이 최대 21%p까지 향상되었습니다.
RAG를 염두에 두고 설계되었지만, 쿼리 재작성은 RAG 문서가 없어도 됩니다. 도구 호출과 같은 다른 사용 사례에 맞게 사용자 쿼리를 다시 작성하는 데에도 사용할 수 있습니다.
RAG 인용 생성
RAG 인용 생성기 LoRA가 탑재된 모델은 아웃풋의 각 문장에 대해 인용을 생성합니다(해당 문장이 외부 소스에서 정보를 제공받은 경우). 각 문장 수준의 인용에는 참조된 모든 소스가 표시될 뿐만 아니라 모델의 해당 아웃풋 문장을 뒷받침하는 인용된 소스의 문장 세트도 포함됩니다.
RAG 응답 가능성 예측
RAG 답변 가능성 예측 LoRA가 탑재된 모델은 연결된 문서에서 사용 가능한 정보를 사용하여 사용자의 쿼리에 대한 답변이 가능한지 여부를 판단합니다. "답변 가능" 또는 "답변 불가"라는 이진 분류는 특히 답변 불가능한 질문을 걸러내어 할루시네이션을 줄이거나 모델이 검색자에게 다른 방식으로 다시 프롬프트하도록 하는 데 사용할 수 있습니다.
불확실성 예측
각 모델 아웃풋에 대해 MIT-IBM Watson AI Lab의 AI 모델 보정 연구에서 탄생한 불확실성 LoRA는 모델이 0~9(각각 5%~95%의 확실성을 나타냄) 범위의 양자화된 "확실성 점수"를 생성할 수 있도록 합니다. 점수는 기본적으로 학습 데이터에 포함된 정보에 의해 모델의 응답이 어느 정도 지원되는지를 반영합니다.
기존 RAG는 단일 추론(특정 컨텍스트를 기반으로 한 간단한 프롬프트)을 수반하여 단일 모델 아웃풋을 생성하는 반면, 최종 모델 응답으로 가는 과정에서 여러 추론에서 여러 LoRa 어댑터를 활용하는 워크플로에서 이러한 LoRA를 사용할 것을 제안합니다.
예를 들어, 필요한 경우 쿼리 재작성을 먼저 구현하여 검색자의 정확도를 최적화하기 위해 초기 프롬프트를 빠르게 재작성할 수 있습니다. 재작성된 프롬프트를 사용하여 모델의 검색 증강 응답이 생성되면, RAG 할루시네이션 감지를 구현하여 검색된 문서의 정보에 대한 적절한 수준의 충실도를 확인할 수 있습니다. 충실도 점수가 허용 가능한 임계값 아래로 떨어지면, 워크플로를 통해 충실도 점수가 해당 임계값을 초과할 때까지 응답을 재샘플링하도록 모델에 지시할 수 있습니다. 할루시네이션이 더 이상 감지되지 않으면 사용자에게 제공되는 최종 응답에 대해 RAG 인용을 사용할 수 있습니다.
이는 본질적으로 모델의 최종 아웃풋을 개선하고 강화하기 위해 여러 추론을 스캐폴딩하여 테스트 시간 컴퓨팅을 확장하는 RAG와 유사합니다. 오픈 소스 커뮤니티에서 이러한 새로운 LoRA 어댑터를 어떻게 구현하고 실험할지 기대가 됩니다. RAG LoRA에 대한 자세한 내용과 모델 성능에 미치는 영향은 함께 제공되는 기술 문서에서 확인할 수 있습니다.
IBM Research는 Granite 아키텍처의 획기적인 발전을 상징하고 속도, 컨텍스트 길이, 용량 측면에서 유망한 향상을 보여주는 차세대 모델인 Granite 4.0을 적극적으로 교육하고 있습니다. 구체적인 내용은 2분기 후반에 발표될 예정이지만, 고객, 파트너, 개발자는 IBM이 낮은 비용과 지연 시간으로 실행 가능한 작고 실용적인 모델을 지속적으로 제공할 것이라는 점을 확신할 수 있습니다.
새로운 Granite 3.3 Instruct 모델은 엔터프라이즈 AI 개발을 위한 통합 엔드 투 엔드 스튜디오인 IBM watsonx.ai에서 이용 가능합니다. Granite Playground에서 Granite 3.3 Instruct 8B를 체험해 보고, "사고" 기능을 켜고 끄는 등 다양한 실험을 해보세요.
Granite Speech 3.3 8B는 새로 추가된 모든 Granite 모델 및 LoRA 어댑터와 함께 Hugging Face에서 사용할 수 있습니다. Select Instruct 모델은 LMStudio, Ollama 및 Replicate를 포함한 플랫폼 파트너를 통해서도 사용할 수 있으며, 가까운 시일 내에 더 많은 모델이 제공될 예정입니다.
Granite 모델 작업을 위한 다양한 가이드와 레시피는 Granite 문서와 GitHub의 Granite Snack Cookbook에서 확인할 수 있습니다. 개발자는 다음과 같은 유용한 데모, 레시피 및 튜토리얼을 살펴보며 Granite 모델을 시작할 수 있습니다.
1"MATH 500 벤치마크," Vals AI, 최종 업데이트: 2025년 3월 24일
AI 빌더를 위한 차세대 엔터프라이즈 스튜디오인 IBM watsonx.ai로 생성형 AI, 파운데이션 모델 및 머신 러닝 기능을 학습, 검증, 조정 및 배포하세요. 적은 데이터로 짧은 시간 내에 AI 애플리케이션을 구축하세요.
업계 최고의 AI 전문성과 솔루션 포트폴리오를 보유한 IBM과 함께 AI를 비즈니스에 활용하세요.
AI 추가를 통해 중요한 워크플로와 운영을 혁신함으로써 경험, 실시간 의사 결정 및 비즈니스 가치를 극대화합니다.