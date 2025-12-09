AI Optimizer for Zは、段階的な配信計画において、生成AIによる推論を加速するためにマルチレベルのキャッシュを導入する予定です。

第1レベルでは、KVキャッシングが単一の大規模言語モデル（LLM）デプロイメント内で以前に計算されたトークン・シーケンスを再利用することで、最初のトークンまでの時間が短縮され、スループットが向上します。

第2レベルでは、拡張キャッシュによってこれらの計算が複数のLLMデプロイメント間で共有されるため、大規模なワークロードの効率性がさらに向上します。この機能は、インフラストラクチャー・コストを削減し、顧客対応アプリケーションの応答時間を改善し、企業がリソースをオーバー・プロビジョニングすることなくAIサービスを拡張できるようにすることで、大きなビジネス価値につながります。