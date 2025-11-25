IBM® AI Optimizer for Z 2.1을 사용하여 생성형 AI 추론 확장 및 최적화
키-값 캐싱 및 모니터링 기능을 통해 인프라 전반에서 생성형 AI 추론을 최적화하는 기능을 제공합니다.
AI Optimizer for Z 2.1은 AI 모델을 제공하고 IBM® Spyre 가속기에서 추론 최적화를 수행하도록 설계되었습니다. IBM® Z 클라이언트를 위해 구성된 키-값(KV) 캐싱 및 모니터링 기능을 통해 인프라 전반에서 생성형 AI 추론을 최적화합니다.
IBM® Z에서 워크로드를 실행하는 기업의 경우 AI를 운영하는 길은 AI를 실행할 수 있는지 그 여부가 아니라 기존 환경에 얼마나 효율적이고 안전하게 통합할 수 있는지가 관건입니다.
AI 워크로드는 특히 생성형 AI 및 LLM 기반 애플리케이션에서 점점 더 커지고 리소스 집약적으로 변하고 있습니다. Z에서 고객은 다음 사항의 균형을 유지해야 합니다.
AI Optimizer for Z 2.1은 이러한 현실에 맞게 설계되어 기업이 추론 배치 및 최적화와 관련해 수동으로 결정하는 작업을 줄이고 더욱 지능적으로 자동화할 수 있도록 지원합니다.
이번 릴리스에는 성능과 효율성을 모두 개선하는 몇 가지 기술 개선 사항이 도입되었습니다.
AI Optimizer for Z 2.1은 Grafana 및 Prometheus 대시보드를 사용하여 추론 성능 지표, 하드웨어 및 Spyre 사용률, 모델 사용 패턴에 대한 심층적인 관측 가능성과 실시간에 가까운 인사이트를 제공하고 모델 제공의 병목 현상과 이상 징후를 식별합니다. 예를 들어, 사용자는 대시보드 중 하나를 통해 복잡한 데이터를 직관적으로 해석하고 과도한 프로비저닝을 방지하며 이러한 지표를 사용하여 인프라 및 예산 고려 사항에 대한 향후 의사 결정을 계획할 수 있습니다.
단계적 전달 계획을 통해 서로 다른 추론 요청에서 공통 토큰 시퀀스에 대한 이전 계산 결과를 재사용하는 2단계 캐싱을 활성화할 수 있습니다. 단계1은 여러 하드웨어 장치에 배포된 하나의 LLM으로 KV 캐싱을 수행할 수 있는 단계입니다. 캐시된 텍스트가 있는 요청을 추론하는 속도가 빨라지고 하드웨어 사용률이 최적화될 수 있습니다. 단계2는 여러 LLM 배포에서 캐싱을 공유하여 추론을 가속화하고 첫 번째 토큰을 얻는 시간을 단축하며 처리량을 늘릴 수 있는 단계입니다.
Spyre에서 실행되는 LLM은 AI Optimizer for Z 에서 자동으로 탐지하고 추론 최적화에 등록할 수 있습니다. 사용자는 내장된 지능형 라우터가 가용성, 사용량 및 성능을 고려하므로 라우팅 계획을 사용자 지정할 수 있습니다. 유사한 애플리케이션 또는 용도를 제공하는 LLM은 태그를 추가하여 함께 그룹화할 수 있습니다. 사용자는 OpenAI API 표준에 따라 자체 태그를 구성할 수도 있습니다.
IBM® Z 및 IBM® LinuxONE 외부의 다른 인프라에 배포된 외부 LLM은 AI Optimizer for Z에 등록할 수 있습니다. Spyre에서 실행되는 로컬 LLM과 함께 태그를 지정하고 그룹화하여 사용 사례 그룹화 및 최적화를 보장할 수 있습니다. LLM 배포에 따라 외부 LLM 모니터링을 크로스 플랫폼 모니터링 대시보드에 통합하여 완전한 생성형 AI 개요를 제공할 수 있습니다.
생성형 AI 사용 사례에 대한 비즈니스 요구 사항에 따라 특정 목표를 달성하기 위해 여러 모델이 필요할 수 있습니다. 따라서 AI Optimizer for Z를 사용하면 IBM® Z 및 IBM® LinuxONE 외부에서 실행되는 외부 모델을 등록하여 추론 엔드포인트를 통합할 수 있습니다. 외부 LLM과 로컬 LLM은 비즈니스 요구 사항을 충족하기 위해 요청을 추론하는 데 사용할 수 있는 사용자 지정 태그를 통해 함께 그룹화할 수 있습니다.
AI Optimizer for Z가 IBM의 Spyre 가속기에서 watsonx Assistant for Z를 만나면 기업은 인텔리전스와 성능이 완벽하게 조화를 이루는 두 가지 장점을 모두 누릴 수 있습니다.
AI Optimizer는 모든 쿼리, 추론 및 모델 호출을 라우팅, 캐싱 및 확장하여 효율성을 극대화하는 한편, watsonx Assistant for Z는 고객 및 직원과의 자연스러운 대화형 참여를 제공합니다.
Spyre의 고성능, 에너지 효율적인 아키텍처에서 실행되는 이 두 가지를 함께 사용하면 더 빠른 응답, 짧은 지연 시간 및 엔드투엔드 가시성을 제공하여 고객 상호 작용을 더 스마트하고 빠르며 엔터프라이즈 규모에 맞게 확장할 수 있는 원활한 AI 기반 경험으로 전환할 수 있습니다.
