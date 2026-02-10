AI Optimizer for Z 

Conçu pour dimensionner et optimiser l’inférence de l’IA générative

Rendu 3D d’une micropuce haute technologie à architecture en couches, avec connecteurs et circuits imprimés

Webinaire

Exploitez l’IA sur IBM Z avec AI Optimizer for Z, édition Advanced
Le mercredi 28 janvier 2026 à 9h30 (heure de l’Est)

Inscrivez-vous dès maintenant

Aperçu

IBM AI Optimizer for Z offre une inférence d’IA haute performance et basée sur des politiques directement sur IBM Z, conçue pour répondre aux exigences de l’IA générative à l’échelle de l’entreprise. Alimentée par l’IBM Spyre Accelerator, la solution apporte une exécution des modèles à faible latence, à haut débit et dotée de capacités de sécurité avancées, sur la plateforme qui exécute les workloads les plus critiques au monde.

Alors que l’IA générative redéfinit les stratégies métier, les entreprises qui s’appuient sur IBM Z font face à une exigence claire : dimensionner l’IA de manière efficace et sécurisée, sans explosion des coûts d’infrastructure. AI Optimizer for Z 2.1 répond à cet enjeu en optimisant l’inférence là où les données et les transactions sont déjà actives (sur Z), réduisant ainsi le délai de création de valeur tout en éliminant les inefficacités qui freinent l’adoption de l’IA.

AI Optimizer for Z est disponible en deux éditions : Advanced et Essentials.

AI Optimizer for Z 2.1 Essentials étend les capacités d’automatisation grâce à l’automatisation transparente de l’installation d’IBM watsonx Assistant for Z 3.1 et d’IBM Software Hub 5.2.

Fonctionnalités principales

Surveillance et visualisation en temps réel

Bénéficiez d’une visibilité complète sur l’inférence de l’IA générative sur IBM Z grâce à une observabilité de niveau entreprise. Les tableaux de bord Prometheus et Grafana intégrés fournissent des analyses approfondies sur :

  • Latence et performances de l’inférence
  • Utilisation du matériel et de Spyre
  • L’utilisation des modèles et l’activité inter-applications
  • L’identification des goulets d’étranglement et des anomalies

Cette transparence permet d’éviter le surdimensionnement, de rationaliser la planification des capacités et d’orienter plus intelligemment les investissements en infrastructure.

Capture d’écran du tableau de bord Grafana – surveillance d’AI Optimizer for Z

Mise en cache multiniveau

AI Optimizer for Z 2.1 introduit un modèle de mise en cache par étapes afin d’accélérer l’inférence de l’IA générative :

  • Niveau 1 : mise en cache clé-valeur (KV) par déploiement de modèle sur de multiples unités matérielles, conduisant à une utilisation optimisée des ressources.
  • Niveau 2 : mise en cache partagée entre plusieurs déploiements de modèles. La mise en cache réduit le délai d’obtention du premier token (TTFT), améliore le débit et optimise l’utilisation du matériel.
Schéma de mise en cache multiniveau – AI Optimizer for Z

Inférence optimisée (pour les modèles sur Spyre)

AI Optimizer enregistre les modèles exécutés sur Spyre afin de les optimiser. Les utilisateurs peuvent configurer leurs propres stratégies de routage ou s’appuyer sur le routeur intelligent intégré, qui prend en compte les performances, la disponibilité et les schémas d’utilisation. Le balisage sémantique permet de regrouper les modèles par cas d’utilisation et d’aligner le routage sur les besoins métier, offrant ainsi une plus grande flexibilité pour les requêtes d’inférence.

Routeur d’inférence dans AI Optimizer for Z – capture d’écran du tableau de bord produit

Enregistrement des LLM externes

Les modèles déployés en dehors d’IBM Z ou de LinuxONE peuvent être enregistrés, balisés, regroupés et surveillés au même titre que les modèles exécutés sur la plateforme. Cela offre une vue opérationnelle unifiée de l’inférence de l’IA générative dans des environnements hybrides, garantissant la cohérence de la gouvernance et du suivi des performances.

Enregistrement de LLM – tableaux de bord AI Optimizer for Z – captures d’écran du produit

Déploiement rationalisé de l’IA générative pour IBM Z

AI Optimizer for Z automatise l’installation et la configuration des composants et produits clés de l’IA générative sur IBM Z, tels qu’IBM watsonx Assistant for Z, afin d’assurer une mise en œuvre rapide et fiable. La solution valide l’infrastructure et fournit un tableau de bord d’état de santé pour un suivi simplifié, réduisant la complexité et accélérant le délai de production.

 

Illustration de deux personnes travaillant sur des ordinateurs portables avec des écrans de code

AI Optimizer sur Z et watsonx Assistant for Z

Lorsqu’AI Optimizer for Z s’associe à IBM watsonx Assistant for Z sur l’IBM Spyre Accelerator, les entreprises tirent le meilleur des deux mondes : l’optimisation applicative et l’optimisation de l’inférence, en parfaite synergie. AI Optimizer garantit que chaque requête, chaque inférence et chaque appel de modèle est routé, mis en cache et dimensionné pour une efficacité maximale, tandis que l’Assistant offre des interactions naturelles et conversationnelles aux clients et aux collaborateurs. Exécutées sur l’architecture haute performance et écoénergétique de Spyre, ces deux solutions combinées permettent des réponses plus rapides, une latence réduite et une visibilité de bout en bout, transformant les interactions clients en expériences fluides, intelligentes et alimentées par l’IA, conçues pour l’échelle de l’entreprise.
Produits associés IBM watsonx Assistant for Z

Simplifiez et transformez la manière dont vos utilisateurs interagissent et gèrent le mainframe grâce à l’IA.

 En savoir plus Accélérateurs d’IA

Accélérez l’innovation en matière d’IA à grande échelle grâce à l’infrastructure IBM.

 En savoir plus

Annonce

Exploiter l’inférence de l’IA générative à l’échelle de l’entreprise : annonce de la disponibilité générale d’IBM® AI Optimizer for Z 2.1.

Lire le blog

Ressources

Documentation de support
Communauté
Webinaire
Présentation de la solution
Passez à l’étape suivante

Découvrez comment utiliser l’IA et le machine learning pour convertir les données de chaque transaction en analyses en temps réel.  