Déverrouiller l’inférence de l’IA générative à l’échelle de l’entreprise : IA d’IBM AI Optimizer for Z 2.1
Accélérer l’IA générative sur IBM Z et optimiser l’inférence pour un maximum de performance, d’efficacité et de sécurité.
Accélérer l’IA générative sur IBM Z et optimiser l’inférence pour un maximum de performance, d’efficacité et de sécurité.
IBM AI Optimizer for Z 2.1 est désormais disponible pour le grand public, proposant des techniques d'inférence d'IA générative de performance et à faible latence sur IBM Z® alimenté par IBM SpyreTM Accelerator. Cette version représente la première étape d'une feuille de route de livraison continue, avec des capacités supplémentaires et des optimisations prévues pour le déploiement au cours des prochains trimestres.
Optimiseur IA pour Z exploite la puissance d'IBM Spyre™ Accelerator (Spyre) pour offrir une inférence à haute performance et à faible latence pour les modèles d'IA. En associant Spyre™ à des capacités avancées telles que la mise en cache KV et la surveillance en temps réel, il permet aux entreprises d'optimiser les Workload de IA générative sur leurs infrastructures avec une efficacité, une évolutivité et une sécurité inégalées.
Les principales fonctionnalités d'AI Optimizer for Z 2.1 sont les suivantes :
L'Optimiseur IA pour Z offre une surveillance en temps réel avancée pour les Workloads d'IA générative en utilisant Prometheus pour la collecte d'indicateurs et Grafana pour une visualisation intuitive. Il suit des indicateurs clés tels que le débit du token, la latence par requête, le taux de réussite du cache, le temps jusqu’au premier token et l’utilisation de la mémoire, ainsi qu’un plan incluant des métriques d’utilisation matérielle telles que l’utilisation du GPU/accélérateur.
AI Optimizer peut s’intégrer au collecteur OpenTelemetry (OTel) lorsqu’il est configuré avec des récepteurs Prometheus. Cela permet une ingestion de télémétrie fluide et une interopérabilité pour unifier l’observabilité à travers les environnements hybrides. Ces informations permettent aux entreprises de prendre des décisions éclairées sur la planification de la capacité, le routage des workloads, la surveillance de la performance et l’optimisation de l’infrastructure, ce qui permet d’éviter le surprovisionnement, de réduire les coûts et d’améliorer la performance globale.
Dans un plan de livraison par étapes, AI Optimizer for Z introduira la mise en cache à plusieurs niveaux pour accélérer l’inférence de l’IA générative.
Au premier niveau, la mise en cache KV réutilise les séquences de tokens précédemment calculées lors d’un seul déploiement de grands modèles de langage (LLM), ce qui réduit le temps de chargement du premier token et améliore le débit.
Au deuxième niveau, la mise en cache étendue partage ces calculs entre plusieurs déploiements LLM, améliorant davantage l’efficacité ds workloads à grande échelle. Cette capacité se traduit par une valeur commerciale significative en réduisant les coûts d’infrastructure, en améliorant les temps de réponse des applications en contact avec les clients et en permettant aux entreprises de faire évoluer les services d’IA sans un provisionnement excessif des ressources.
AI Optimizer for Z favorise un étiquetage flexible des LLM, permettant aux utilisateurs de regrouper les modèles par application, cas d’utilisation ou exigences de performance. Ces étiquettes peuvent être appliquées aux requêtes d’inférence pour garantir un routage intelligent et une utilisation optimale des ressources à travers les déploiements.
De plus, la solution prend en charge l’enregistrement de LLM externes exécutés en dehors d’IBM Z ou LinuxONE, en les intégrant dans le même cadre d’étiquetage et de routage pour unifier l’optimisation. Cette capacité offre aux entreprises un meilleur contrôle et une plus grande agilité, alliant performance constante et rentabilité dans les environnements d’IA hybrides.
Les entreprises exploitant IBM Z sont confrontées à des contraintes uniques telles que la résidence des données, les obligations de confidentialité, les exigences de faible latence et la fiabilité. AI Optimizer for Z 2.1 permet l’adoption de l’IA générative sans déplacement des workloads ni risque architectural, apportant une valeur immédiate dans des secteurs comme la banque, l’assurance, la fabrication et le secteur public. Grâce à une approche de livraison continue, les entreprises peuvent s’attendre à une amélioration continue qui renforce davantage la performance, l’évolutivité et la sécurité.
La GA d'IA Optimizer pour Z 2.1 marque le début d'une feuille de route plus large. Les capacités d'inférence et d'observabilité sont disponibles maintenant, et des optimisations supplémentaires seront livrées par le biais de versions incrémentielles au cours des prochains trimestres, permettant aux clients de tirer un avantage de l'innovation sans interruption.