엔터프라이즈급 생성형 AI 추론 활용: IBM® AI Optimizer for Z 2.1 GA 발표

IBM® Z에서 생성형 AI를 가속화하고 추론을 최적화하여 성능, 효율성 및 보안을 극대화하세요.

게시일 2025년 12월 9일
'I love AI' 로고 아래 노트북을 보고 있는 남녀
By Minaz Merali and Mohamed Elmougi

IBM AI Optimizer for Z 2.1은 이제 정식 버전으로 제공되며, IBM® Spyre Accelerator로 구동되는 IBM Z에서 성능, 저지연 생성형 AI 추론을 제공합니다. 이번 릴리스는 지속적 배포 로드맵의 첫 번째 단계로, 향후 몇 분기 동안 추가 기능 및 최적화를 출시할 계획입니다.

성능 향상을 위한 생성형 AI 워크로드 최적화

AI Optimizer for Z는 IBM Spyre Accelerator(Spyre)의 성능을 활용하여 AI 모델을 위한 고성능, 저지연 추론을 제공합니다. Spyre를 KV 캐싱 및 실시간 모니터링과 같은 고급 기능과 결합함으로써 기업들은 타의 추종을 불허하는 효율성, 확장성 및 보안으로 인프라 전반에서 생성형 AI 워크로드를 최적화할 수 있습니다.

AI Optimizer for Z 2.1의 주요 기능은 다음과 같습니다.

1. 실시간 모니터링 및 관측 가능성:

AI Optimizer for Z는 지표 수집을 위한 Prometheus와 직관적인 시각화를 위한 Grafana를 사용하여 생성형 AI 워크로드에 대한 고급 실시간 모니터링을 제공합니다. 토큰 처리량, 요청당 지연 시간, 캐시 적중률, 첫 토큰 도달 시간 및 메모리 사용률과 같은 주요 지표를 추적하며, GPU/가속기 사용률과 같은 하드웨어 사용량 지표를 포함할 계획입니다.

AI Optimizer는 Prometheus 리시버로 구성된 경우 OpenTelemetry(OTel) 컬렉터와 통합할 수 있습니다. 이를 통해 원활한 원격 측정 수집 및 상호 운용성을 통해 하이브리드 환경 전반에서 통합된 관찰성을 확보할 수 있습니다. 이러한 인사이트를 통해 조직은 용량 계획, 워크로드 라우팅, 성능 모니터링 및 인프라 최적화를 정보에 입각한 의사 결정을 내릴 수 있으므로 오버 프로비저닝을 방지하고 비용을 절감하며 전반적인 성능을 개선할 수 있습니다.

2. 다단계 캐싱:

단계적 전달 계획에서 AI Optimizer for Z는 다단계 캐싱을 도입하여 생성형 AI 추론을 가속화할 예정입니다.

첫 번째 수준에서 KV 캐싱은 단일 대규모 언어 모델(LLM) 배포 내에서 이전에 계산된 토큰 시퀀스를 재사용하여 첫 번째 토큰까지 걸리는 시간을 줄이고 처리량을 개선합니다.

두 번째 수준에서 확장 캐싱은 이러한 계산을 여러 LLM 배포에서 공유하므로 대규모 워크로드의 효율성을 더욱 높일 수 있습니다. 이 기능은 인프라 비용을 절감하고, 고객 대면 애플리케이션의 응답 시간을 개선하며, 기업이 리소스를 과도하게 프로비저닝하지 않고도 AI 서비스를 확장할 수 있도록 지원함으로써 상당한 비즈니스 가치를 창출합니다.

3. 추론 최적화:

AI Optimizer for Z는 LLM의 유연한 태깅을 지원하여 사용자가 애플리케이션, 비즈니스 사용 사례 또는 성능 요구 사항별로 모델을 그룹화할 수 있도록 합니다. 이러한 태그를 추론 요청에 적용하여 여러 배포에 걸쳐 지능적인 라우팅과 최적화된 리소스 활용을 보장할 수 있습니다.

또한 이 솔루션은 IBM Z 또는 LinuxONE 외부에서 실행되는 외부 LLM의 등록을 지원하여 통합 최적화를 위해 동일한 태깅 및 라우팅 프레임워크에 통합합니다. 이 기능은 기업에 더 뛰어난 제어력과 민첩성을 제공하여 하이브리드 AI 환경 전반에서 일관된 성능과 비용 효율성을 가능하게 합니다.

이것이 중요한 이유: 타협 없는 엔터프라이즈 AI

IBM Z에서 운영되는 조직은 데이터 보존, 개인정보 보호 의무, 저지연 요구 사항, 미션 크리티컬 안정성과 같은 고유한 제약 조건에 직면해 있습니다. AI Optimizer for Z 2.1을 사용하면 워크로드 이동이나 아키텍처 위험 없이 생성형 AI를 채택할 수 있으므로 은행, 보험, 제조 및 공공 부문과 같은 산업 전반에 걸쳐 즉각적인 가치를 제공할 수 있습니다. 지속적 제공 접근 방식을 통해 기업은 성능, 확장성 및 보안을 더욱 강화하는 지속적인 개선을 기대할 수 있습니다.

계획적이고 전략적인 미래 경로

AI Optimizer for Z 2.1의 GA는 더 광범위한 로드맵의 시작을 의미합니다. 현재 핵심 추론 및 관측 가능성 기능을 사용할 수 있으며, 향후 몇 분기에 걸쳐 점진적 릴리스를 통해 추가 최적화를 제공하여 고객이 중단 없이 혁신의 이점을 지속적으로 누릴 수 있도록 할 예정입니다.

AI Optimizer for Z 2.1에 대해 자세히 알아보기

Minaz Merali

VP IBM Z Data and AI

IBM

Mohamed Elmougi

Senior Product Manager - IBM Z Data and AI

IBM