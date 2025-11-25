Intelligence artificielle Automatisation informatique

Évoluez et optimisez l'inférence de l'IA générative en utilisant l'IBM IA Optimizer for Z 2.1

Fournit des capacités qui optimisent l’inférence de l’IA générative sur les infrastructures grâce à des capacités de mise en cache et de surveillance clé-valeur.

Publié 25 novembre 2025
L'optimiseur IA pour Z 2.1 est conçu pour servir les modèles IA et effectuer l'optimisation d'inférence sur l'accélérateur IBM Spyre. Il optimise l'inférence de l'IA générative sur les infrastructures grâce aux capacités de mise en cache et de surveillance des valeurs clés (KV) configurées pour les clients IBM Z.

Pourquoi l'optimiseur IA pour Z 2.1 ?

Pour les entreprises qui exécutent des Workloads sur IBM Z, le chemin vers l'opérationnalisation de l'IA ne consiste pas à savoir si elles peuvent l'exécuter ; il s'agit de savoir comment l'intégrer efficacement et en toute sécurité dans les environnements existants.

Les Workloads d’IA deviennent de plus en plus volumineux et à forte intensité de ressources, en particulier dans le cas des applications basées sur l’IA générative et les applications basées sur LLM. Sur Z, les clients doivent équilibrer :

  • Workloads sensibles à la latence qui ne peuvent pas quitter la plateforme.
  • Les exigences en matière de conformité et de résidence des données qui limitent les lieux d'exécution de l'inférence.
  • Augmentation des coûts de calcul et d'énergie due à un déploiement inefficace des modèles.

IA Optimizer for Z 2.1 est conçu pour s'aligner sur ces réalités, permettant aux entreprises de décider moins manuellement et d'automatiser plus intelligemment lorsqu'il s'agit du placement et de l'optimisation des inférences.

Fonctionnalités principales d'AI Optimizer Z 2.1

Cette version introduit plusieurs améliorations techniques qui améliorent à la fois les performances et l’efficacité :

1. Surveillance et visualisation en temps réel pour une transparence opérationnelle totale

Grâce aux tableaux de bord Grafana et Prometheus, AI Optimizer pour Z 2.1 offre une observabilité approfondie et des informations quasi en temps réel sur les indicateurs de performance, l’utilisation du matériel et de Spyre, les schémas d’utilisation des modèles et identifie les goulots d’étranglement et anomalies dans le service des modèles. Par exemple, les utilisateurs peuvent interpréter intuitivement des données complexes via l’un des tableaux de bord, éviter le surprovisionnement et planifier les décisions futures concernant les infrastructures et les considérations budgétaires en utilisant ces indicateurs.

2. Mise en cache multiniveau pour des réponses plus rapides, un débit plus élevé

Avec un plan de distribution par étapes, deux niveaux de mise en cache qui réutilisent des calculs précédemment calculés pour des séquences de tokens communes sur différentes requêtes d’inférence peuvent être activés. Le niveau 1 est celui où la mise en cache KV peut être effectuée avec un LLM déployé sur plusieurs unités matérielles. Les requêtes d’inférence contenant du texte mis en cache seront accélérées et l’utilisation du matériel pourra être optimisée. Niveau 2 est celui où la mise en cache peut être partagée entre plusieurs déploiements, ce qui accélère l'inférence, réduit le temps d'accès au token et augmente le débit.

3. Optimisation des inférences pour les modèles tournant sur Spyre, accélérée par conception

Les LLM qui s'exécutent sur Spyre™ peuvent être automatiquement détectés par IA Optimizer for Z et enregistrés pour l'optimisation de l'inférence. Les utilisateurs peuvent élaborer des plans de routage personnalisés, car le routeur intelligent intégré tient compte de la disponibilité, de l'utilisation et des performances. Les LLM ayant des applications ou des objectifs similaires peuvent être regroupés en leur ajoutant des étiquettes. Les utilisateurs peuvent également configurer leurs propres tags selon les standards des API OpenAI.

4. Enregistrement de modèles externes, unification de vos opérations d’IA hybride

Les LLM externes qui sont déployés sur d'autres infrastructures en dehors d'IBM Z et d'IBM LinuxONE peuvent être enregistrés avec l'optimiseur d'IA pour Z. Ils peuvent être étiquetés et regroupés avec les LLM locaux exécutés sur Spyre afin de garantir le regroupement et l'optimisation des cas d'utilisation. En fonction du déploiement du LLM, la surveillance externe des LLM peut être intégrée dans le monitoring dashboard pour donner une vue d’ensemble complète de l’IA générative.

En fonction des besoins de l'entreprise pour un cas d'utilisation de l'IA générative, plusieurs modèles peuvent être nécessaires pour atteindre un certain objectif. Par conséquent, AI Optimizer for Z permet d'enregistrer des modèles externes qui s'exécutent en dehors d'IBM Z et d'IBM LinuxONE afin d'unifier les points de terminaison de l'inférence. Les LLM externes et les LLM locaux peuvent être regroupés au moyen de balises personnalisées qui peuvent être utilisées dans les requêtes de référencement pour répondre aux besoins de l'entreprise.

Optimiseur IA sur Z et watsonx Assistant® pour Z sur Spyre™

Lorsque l'AI Optimizer for Z rencontre le watsonx Assistant® for Z sur l'accélérateur Spyre™ d'IBM, les entreprises bénéficient du meilleur des deux mondes : une parfaite harmonie entre l'IA et la performance.

IA Optimizer garantit que chaque requête, inférence et modèle d'appel est acheminé, mis en cache et redimensionné pour une efficacité maximale, tandis que watsonx Assistant for Z propose un engagement conversationnel naturel avec les clients et les employés.

Fonctionnant sur l'architecture de performance et écoénergétique de Spyre, les deux permettent ensemble des réponses plus rapides, une latence réduite et une visibilité de bout en bout, transformant les interactions clients en expériences alimentées par l'IA, plus intelligentes, plus rapides et conçues pour l'échelle de l'entreprise.

