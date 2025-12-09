엔터프라이즈급 생성형 AI 추론 활용: IBM® AI Optimizer for Z 2.1 GA 발표
IBM® Z에서 생성형 AI를 가속화하고 추론을 최적화하여 성능, 효율성 및 보안을 극대화하세요.
IBM® Z에서 생성형 AI를 가속화하고 추론을 최적화하여 성능, 효율성 및 보안을 극대화하세요.
IBM AI Optimizer for Z 2.1은 이제 정식 버전으로 제공되며, IBM® Spyre Accelerator로 구동되는 IBM Z에서 성능, 저지연 생성형 AI 추론을 제공합니다. 이번 릴리스는 지속적 배포 로드맵의 첫 번째 단계로, 향후 몇 분기 동안 추가 기능 및 최적화를 출시할 계획입니다.
AI Optimizer for Z는 IBM Spyre Accelerator(Spyre)의 성능을 활용하여 AI 모델을 위한 고성능, 저지연 추론을 제공합니다. Spyre를 KV 캐싱 및 실시간 모니터링과 같은 고급 기능과 결합함으로써 기업들은 타의 추종을 불허하는 효율성, 확장성 및 보안으로 인프라 전반에서 생성형 AI 워크로드를 최적화할 수 있습니다.
AI Optimizer for Z 2.1의 주요 기능은 다음과 같습니다.
AI Optimizer for Z는 지표 수집을 위한 Prometheus와 직관적인 시각화를 위한 Grafana를 사용하여 생성형 AI 워크로드에 대한 고급 실시간 모니터링을 제공합니다. 토큰 처리량, 요청당 지연 시간, 캐시 적중률, 첫 토큰 도달 시간 및 메모리 사용률과 같은 주요 지표를 추적하며, GPU/가속기 사용률과 같은 하드웨어 사용량 지표를 포함할 계획입니다.
AI Optimizer는 Prometheus 리시버로 구성된 경우 OpenTelemetry(OTel) 컬렉터와 통합할 수 있습니다. 이를 통해 원활한 원격 측정 수집 및 상호 운용성을 통해 하이브리드 환경 전반에서 통합된 관찰성을 확보할 수 있습니다. 이러한 인사이트를 통해 조직은 용량 계획, 워크로드 라우팅, 성능 모니터링 및 인프라 최적화를 정보에 입각한 의사 결정을 내릴 수 있으므로 오버 프로비저닝을 방지하고 비용을 절감하며 전반적인 성능을 개선할 수 있습니다.
단계적 전달 계획에서 AI Optimizer for Z는 다단계 캐싱을 도입하여 생성형 AI 추론을 가속화할 예정입니다.
첫 번째 수준에서 KV 캐싱은 단일 대규모 언어 모델(LLM) 배포 내에서 이전에 계산된 토큰 시퀀스를 재사용하여 첫 번째 토큰까지 걸리는 시간을 줄이고 처리량을 개선합니다.
두 번째 수준에서 확장 캐싱은 이러한 계산을 여러 LLM 배포에서 공유하므로 대규모 워크로드의 효율성을 더욱 높일 수 있습니다. 이 기능은 인프라 비용을 절감하고, 고객 대면 애플리케이션의 응답 시간을 개선하며, 기업이 리소스를 과도하게 프로비저닝하지 않고도 AI 서비스를 확장할 수 있도록 지원함으로써 상당한 비즈니스 가치를 창출합니다.
AI Optimizer for Z는 LLM의 유연한 태깅을 지원하여 사용자가 애플리케이션, 비즈니스 사용 사례 또는 성능 요구 사항별로 모델을 그룹화할 수 있도록 합니다. 이러한 태그를 추론 요청에 적용하여 여러 배포에 걸쳐 지능적인 라우팅과 최적화된 리소스 활용을 보장할 수 있습니다.
또한 이 솔루션은 IBM Z 또는 LinuxONE 외부에서 실행되는 외부 LLM의 등록을 지원하여 통합 최적화를 위해 동일한 태깅 및 라우팅 프레임워크에 통합합니다. 이 기능은 기업에 더 뛰어난 제어력과 민첩성을 제공하여 하이브리드 AI 환경 전반에서 일관된 성능과 비용 효율성을 가능하게 합니다.
IBM Z에서 운영되는 조직은 데이터 보존, 개인정보 보호 의무, 저지연 요구 사항, 미션 크리티컬 안정성과 같은 고유한 제약 조건에 직면해 있습니다. AI Optimizer for Z 2.1을 사용하면 워크로드 이동이나 아키텍처 위험 없이 생성형 AI를 채택할 수 있으므로 은행, 보험, 제조 및 공공 부문과 같은 산업 전반에 걸쳐 즉각적인 가치를 제공할 수 있습니다. 지속적 제공 접근 방식을 통해 기업은 성능, 확장성 및 보안을 더욱 강화하는 지속적인 개선을 기대할 수 있습니다.
AI Optimizer for Z 2.1의 GA는 더 광범위한 로드맵의 시작을 의미합니다. 현재 핵심 추론 및 관측 가능성 기능을 사용할 수 있으며, 향후 몇 분기에 걸쳐 점진적 릴리스를 통해 추가 최적화를 제공하여 고객이 중단 없이 혁신의 이점을 지속적으로 누릴 수 있도록 할 예정입니다.