AI Optimizer for Z

生成AI推論の拡張と最適化のために設計

コネクターや回路基板を含む階層型アーキテクチャーを主要な機能とするハイテク・マイクロチップの3Dレンダリング

概要

IBM AI Optimizer for Zは、直接IBM Z上で高性能なポリシー主導のAI推論を実現し、エンタープライズ規模での生成AIの要求に応えるように設計されています。IBM Spyreアクセラレーターを搭載したため、世界で最もミッションクリティカルなワークロードを実行するプラットフォームにおいて、低遅延、高いスループット、セキュリティーが充実したモデルの実行を実現します。

生成AIがビジネス戦略を再構築する中、IBM Zで実行する組織は、インフラストラクチャーのコストを暴走させることなく、AIを効率的かつ安全に拡張するという明確な使命に直面しています。AI Optimizer for Z 2.1は、データとトランザクションがIBM Z上にすでに存在する推論を最適化することで、この問題に対処し、AIの導入を遅らせる非効率性を排除しながら、価値実現までの時間を短縮します。

AI Optimizer for Zには、Advanced EditionとEssentials Editionの2つのエディションがあります。

AI Optimizer for Z 2.1 Essentials Editionは、IBM watsonx Assistant for Z 3.1およびIBM Software Hub 5.2のインストールをシームレスに自動化することで、オートメーション機能を拡張します。

主要な機能

リアルタイムの監視機能と視覚化

エンタープライズ・グレードのオブザーバビリティーで、IBM Z全体の生成AI推論を完全に可視化します。組み込みのPrometheusとGrafanaダッシュボードは、以下の深い洞察を提供します。

  • 推論のレイテンシーとパフォーマンス
  • ハードウェアとSpyreの使用率
  • モデルの使用状況とクロスアプリケーション・アクティビティー
  • ボトルネックと異常の特定

この透明性により、過剰プロビジョニングを排除し、キャパシティー・プランニングを合理化し、よりスマートなインフラストラクチャー投資を促進できます。

Grafanaダッシュボードの製品の画面 - AI Optimizer for Zの監視を表示

マルチレベルのキャッシュ

AI Optimizer for Z 2.1では、生成AI推論を高速化するために、段階的なキャッシュのモデルを導入しています。

  • レベル 1：複数のハードウェア・ユニットのモデルのデプロイメントごとにキー値（KV）をキャッシュし、ハードウェアの使用率を最適化します。
  • レベル2：複数のモデルのデプロイメントにおける共有キャッシュ。キャッシュは、最初のトークンまでの時間（TTFT）を短縮し、スループットを向上させ、ハードウェアの利用効率も最適化します。
マルチレベル・キャッシュの図 - AI Optimizer for Z

最適化された推論（Spyre上のモデル向け）

AI Optimizerは、最適化のためにSpyre上で実行されるモデルを登録します。ユーザーは独自のルーティング戦略を設定することも、性能、可用性、使用パターンを考慮した組み込みのインテリジェント・ルーターを利用することもできます。セマンティックタグ付けにより、ユースケースに合わせたルーティングのためのモデルのグループ化が可能になり、推論リクエストに対する柔軟性が高まります。

AI Optimizer for Zの推論ルーター - 製品ダッシュボードの製品の画面

外部LLMの登録

IBM ZまたはLinuxONEの外部にデプロイされたモデルは、プラットフォーム上のモデルとともに登録、タグ付け、グループ化、監視ができます。これにより、ハイブリッド環境全体で生成AI推論の運用状況を一元的に把握でき、ガバナンスとパフォーマンスの追跡の一貫性が確保されます。

LLMの登録-AI Optimizer for Zのダッシュボード - 製品の画面

IBM Z向け生成AIの導入の効率化

AI Optimizer for Zは、IBM watsonx Assistant for Zなどの主要なIBM Z生成AIコンポーネントや製品のインストールと設定を自動化し、迅速かつ信頼性の高いセットアップを実現します。インフラの検証を行い、Healthダッシュボードを提供することにより、複雑さが軽減され、本番運用開始までの時間が短縮されます。

 

コードの画面が表示されたノートPCで作業している2人のイラスト

IBM Z上のAI Optimizerとwatsonx Assistant for Z

AI Optimizer for ZIBM Spyreアクセラレーター上のIBM watsonx Assistant for Zが融合すると、企業はアプリケーションと推論の最適化の両方の利点を完璧に調和させることができます。AI Optimizerが、すべてのクエリ、推論、モデル呼び出しが、ルーティング、キャッシュ、スケーリングして効率を最大限に高める一方で、watsonx Assistant for Zは顧客や従業員との自然な対話型エンゲージメントを実現します。Spyreの高性能でエネルギー効率に優れたアーキテクチャー上で実行されるため、この2つを連携することで、より迅速な応答、低遅延、エンドツーエンドの可視性を実現し、顧客との対話をシームレスに、よりスマートで、迅速な、エンタープライズ規模に構築されたAIを活用したエクスペリエンスに変革します。
