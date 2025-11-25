AI（人工知能） ITの自動化

IBM AI Optimizer for Z 2.1を使用した生成AI推論のスケーリングと最適化

キー値のキャッシングと監視機能を通じて、インフラストラクチャー全体で生成AIの推論を最適化する機能を提供します。

出版された 25 11月 2025
AI Optimizer for Z 2.1は、AIモデルを提供し、IBM Spyreアクセラレーター上で推論の最適化を実行するように設計されています。IBM Zクライアント向けに構成されたキー値（KV）のキャッシングと監視機能を通じて、インフラストラクチャー全体の生成AI推論を最適化します。

AI Optimizer for Z 2.1を選ぶべき理由

IBM Z上でワークロードを実行している企業にとって、AIを運用化するための道は、AIを実行できるかどうかではなく、既存の環境にいかに効率的かつ安全にAIを統合できるかにかかっています。

AIワークロードは、特に生成AIやLLMベースのアプリケーションにおいてますます大規模になり、リソースを大量に消費するようになっています。Z上で、クライアントは以下のバランスを取る必要があります。

  • プラットフォームから離れることができない、レイテンシーの影響を受けやすいワークロード。
  • 推論の実行場所を制限するコンプライアンスとデータ・レジデンシー要件。
  • モデルの非効率的なデプロイメントに起因するコンピューティング・コストとエネルギー・コストの上昇。

AI Optimizer for Z 2.1は、こうした現実に合わせて構築されており、企業が推論の配置と最適化に関して手作業での決定を減らし、よりインテリジェントに自動化できるようにします。

AI Optimizer Z 2.1のコア機能

このリリースでは、効率と性能の両方を向上させるいくつかの技術的な機能強化が導入されています。

1. 完全な運用の透明性を実現するリアルタイムの監視と視覚化

AI Optimizer for Z 2.1は、GrafanaとPrometheusのダッシュボードを使用することで推論のパフォーマンス・メトリクス、ハードウェアとSpyreの使用率、モデルの使用パターン、モデル・サービングにおけるボトルネックや異常の特定について、深いオブザーバビリティーとほぼリアルタイムの洞察を提供します。例えば、ユーザーはダッシュボードの1つを通じて複雑なデータを直感的に解釈し、オーバー・プロビジョニングを回避し、これらのメトリクスを使用してインフラストラクチャーや予算の考慮事項に関する将来の決定を計画できます。

2. マルチレベル・キャッシュによる応答の高速化とスループットの向上

段階的な配信プランにより、異なる推論要求間での共通のトークン・シーケンスに対して事前に計算された結果を再利用する、2段階のキャッシュを有効にできます。レベル1では、1つのLLMを複数のハードウェア・ユニットにデプロイしてKVキャッシュを実行できます。キャッシュされたテキストを含む推論要求が高速化され、ハードウェア使用率が最適化されます。また、レベル2では、複数のLLMデプロイメント間でキャッシュを共有できるため、推論が高速化され、最初のトークンまでの時間が短縮され、スループットが向上します。

3. 設計で加速する、Spyre上で動作するモデルの推論最適化

Spyre上で実行されるLLMは、AI Optimizer for Zによって自動的に検出され、推論の最適化に登録されます。内蔵のインテリジェント・ルーターが可用性、使用状況、性能を考慮するため、ユーザーはルーティング・プランをカスタムで作成できます。同様のアプリケーションまたは目的を持つLLMは、タグを追加することでグループ化できます。ユーザーは、OpenAI API標準に従って独自のタグを構成することもできます。

4. 外部モデル登録、ハイブリッドAIのオペレーションの一元化

IBM ZおよびIBM LinuxONE外部のインフラストラクチャーにデプロイされている外部LLMは、AI Optimizer for Zで登録できます。これらに、Spyre上で実行されるローカルLLMをタグ付けしてグループ化することで、ユースケースのグループ化と最適化を確実に実現できます。LLMのデプロイメントによっては、外部のLLMモニタリングをクロスプラットフォームの監視用ダッシュボードに統合して、生成AIの全体像を把握することができます。

生成AIユースケースのビジネス上の必要性に応じて、特定の目標を達成するために複数のモデルが必要になる場合があります。そのため、AI Optimizer for Zでは、IBM ZとIBM LinuxONEの外部モデルを登録して、推論エンドポイントを統合できます。外部LLMとローカルLLMは、ビジネス・ニーズに応えるための推論リクエストに使用できるカスタム・タグを使用してグループ化できます。

AI Optimizer for ZとSpyre上のwatsonx Assistant for Zの融合

AI Optimizer for ZとIBMのSpyreアクセラレーター上のwatsonx Assistant for Zが融合すると、企業はインテリジェンスと性能の両方の長所を完璧に調和させることができます。

AI Optimizerは、すべてのクエリー、推論、モデル呼び出しがルーティング、キャッシュ、スケーリングされるようにして、最大限の効率を実現します。一方、watsonx Assistant for Zは、顧客や従業員との自然な会話型のエンゲージメントを実現します。

Spyre™の高性能でエネルギー効率の高いアーキテクチャー上で実行されるこの2つを組み合わせることで、より迅速な応答、低レイテンシー、エンドツーエンドの可視性を実現し、顧客とのやり取りを、よりスマートで高速な、エンタープライズ規模向けに構築された、シームレスなAI搭載エクスペリエンスに変革します。

Minaz Merali

VP IBM Z Data and AI

IBM

Mohamed Elmougi

Senior Product Manager - IBM Z Data and AI

IBM

