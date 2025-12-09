エンタープライズ規模の生成AI推論を解き放つ：IBM AI Optimizer for Z 2.1のGAを発表
IBM Z® 上で生成AIを高速化し、推論を最適化して効率、セキュリティー、性能を最大化します。
IBM Z® 上で生成AIを高速化し、推論を最適化して効率、セキュリティー、性能を最大化します。
IBM AI Optimizer for Z 2.1 が一般提供されるようになり、IBM SpyreTM Acceleratorを搭載したIBM Z 上で、高性能で低遅延の生成AI推論を実現します。このリリースは、継続的デリバリー・ロードマップの最初のステップであり、今後数四半期にわたって追加機能と最適化が計画されています。
AI Optimizer for Zは、IBM Spyre™ Accelerator（Spyre）のパワーを利用して、AIモデルのための高性能で低遅延の推論を実現します。SpyreをKVキャッシングやリアルタイム監視などの高度な機能と組み合わせることで、企業はインフラストラクチャー全体の生成AIワークロードを最適化して、比類のない効率性、拡張性、セキュリティーを実現できます。
AI Optimizer for Z 2.1の主な機能は次のとおりです。
AI Optimizer for Zは、Prometheusを使用してメトリクス収集を行い、Grafanaを使用して直感的な視覚化を実現し、生成AIワークロードの高度なリアルタイム監視を実現します。トークンのスループット、リクエストごとの遅延、キャッシュヒット率、トークンまでの時間、メモリ使用率などの主要なメトリクスに加え、GPU/アクセラレータ使用率などのハードウェア使用率メトリクスを追跡します。
AI Optimizerは、Prometheusレシーバーで構成されている場合、OpenTelemetry（OTel）コレクターと統合できます。これにより、ハイブリッド環境全体で統一された可観測性のためのシームレスなテレメトリーの取り込みと相互運用性が可能になります。これらの洞察により、組織はキャパシティ・プランニング、ワークロード・ルーティング、パフォーマンス・モニタリング、インフラストラクチャー最適化について情報に基づいた意思決定を行うことができ、オーバープロビジョニングの回避、コストの削減、全体的なパフォーマンスの向上に役立ちます。
AI Optimizer for Zは、段階的な配信計画において、生成AIによる推論を加速するためにマルチレベルのキャッシュを導入する予定です。
第1レベルでは、KVキャッシングが単一の大規模言語モデル（LLM）デプロイメント内で以前に計算されたトークン・シーケンスを再利用することで、最初のトークンまでの時間が短縮され、スループットが向上します。
第2レベルでは、拡張キャッシュによってこれらの計算が複数のLLMデプロイメント間で共有されるため、大規模なワークロードの効率性がさらに向上します。この機能は、インフラストラクチャー・コストを削減し、顧客対応アプリケーションの応答時間を改善し、企業がリソースをオーバー・プロビジョニングすることなくAIサービスを拡張できるようにすることで、大きなビジネス価値につながります。
AI Optimizer for Zを使用すると、LLMの柔軟なタグ付けが可能になり、ユーザーはアプリケーション、ビジネス・ユースケース、パフォーマンス要件ごとにモデルをグループ化できます。これらのタグを推論リクエストに適用することで、複数のデプロイメントにわたってインテリジェントなルーティングと最適化されたリソース使用率を実現します。
さらに、このソリューションは、IBM ZまたはLinuxONEの外部で実行される外部LLMの登録をサポートし、それらを同じタグ付けおよびルーティング・フレームワークに統合して、統合最適化を実現します。この機能により、企業はより優れた制御と俊敏性を実現でき、ハイブリッドAI環境全体で一貫した性能とコスト効率を実現できます。
IBM Z上で運用されている組織は、データの常駐、プライバシー義務、低遅延の要件、ミッションクリティカルな信頼性など、独自の制約に直面しています。AI Optimizer for Z 2.1は、ワークロードの移動やアーキテクチャーのリスクを必要とせずに生成AIの導入を可能にし、業種・業務に即時の価値をもたらします。継続的デリバリーアプローチにより、企業は性能、拡張性、セキュリティをさらに強化する継続的な機能強化を期待できます
AI Optimizer for Z 2.1 の GA は、より広範なロードマップの始まりを示しています。コアとなる推論機能とオブザーバビリティー機能は現在利用可能であり、今後数四半期にわたって段階的にリリースし、追加の最適化を進めることで、顧客がイノベーションのメリットを享受でき、中断することなく、継続的にイノベーションのメリットを享受できるようにします。