Skalieren und optimieren Sie die generative KI-Inferenz mit dem IBM AI Optimizer for Z 2.1
Bietet Funktionen, die die generative KI-Inferenz über verschiedene Infrastrukturen hinweg durch Key-Value-Caching und Überwachungsfunktionen optimieren.
Bietet Funktionen, die die generative KI-Inferenz über verschiedene Infrastrukturen hinweg durch Key-Value-Caching und Überwachungsfunktionen optimieren.
Der AI Optimizer for Z 2.1 ist darauf ausgelegt, KI-Modelle zu bedienen und Inferenzoptimierungen auf dem IBM Spyre-Beschleuniger durchzuführen. Er optimiert das generative KI-Inferencing über Infrastrukturen hinweg durch Key-Value-Caching- und Überwachungsfunktionen, die für IBM Z-Clients konfiguriert wurden.
Für Unternehmen, die Workloads auf IBM Z ausführen, besteht der Weg zur Operationalisierung von KI nicht darin,ob sie sie ausführen können. Es geht darum, wie effizient und sicher sie in bestehende Umgebungen integriert werden kann.
KI-Workloads werden immer größer und ressourcenintensiver, insbesondere bei generativer KI und LLM-basierten Anwendungen. Auf Z müssen Kunden Folgendes ausgleichen:
AI Optimizer for Z 2.1 wurde entwickelt, um diesen Gegebenheiten Rechnung zu tragen. So können Unternehmen weniger manuell entscheiden und intelligenter automatisieren, wenn es um die Platzierung und Optimierung von Inferenzen geht.
Diese Version enthält mehrere technische Verbesserungen, die sowohl die Leistung als auch die Effizienz steigern:
Mit Hilfe von Grafana- und Prometheus-Dashboards bietet der AI Optimizer for Z 2.1 tiefe Observability und nahezu in Echtzeit Einblicke in Leistungsmetriken, Hardware- und Spyre-Auslastung, Modellnutzungsmuster sowie Engpässe und Anomalien beim Model Serving. So können Benutzer beispielsweise komplexe Daten intuitiv über ein Dashboard interpretieren, eine Überdimensionierung vermeiden und mithilfe dieser Metriken zukünftige Entscheidungen hinsichtlich Infrastruktur und Budgetüberlegungen planen.
Mit einem gestaffelten Auslieferungsplan können zwei Caching-Ebenen aktiviert werden, die zuvor berechnete Ergebnisse für gemeinsame Token-Sequenzen über verschiedene Inferenzanfragen hinweg wiederverwenden. Level 1 ist der Punkt, in dem KV-Caching mit einem LLM auf mehreren Hardwareeinheiten bereitgestellt werden kann. Inferenzanfragen mit zwischengespeichertem Text werden beschleunigt und die Hardwareauslastung kann optimiert werden. Und auf Level 2 kann das Caching für mehrere LLM-Bereitstellungen gemeinsam genutzt werden, wodurch die Inferenzierung beschleunigt, die Zeit bis zum ersten Token reduziert und der Durchsatz erhöht wird.
LLMs, die auf Spyre laufen, können automatisch vom AI Optimizer for Z erkannt und zur Inferenzoptimierung registriert werden. Benutzer können individuelle Routingpläne erstellen, da der integrierte intelligente Router Verfügbarkeit, Nutzung und Leistung berücksichtigt. LLMs, die ähnliche Anwendungen oder Zwecke bedienen, können durch Hinzufügen von Tags zusammengefasst werden. Nutzer können auch eigene Tags gemäß den Standards der OpenAI-APIs konfigurieren.
Externe LLMs, die auf anderen Infrastrukturen außerhalb von IBM Z und IBM LinuxONE bereitgestellt werden, können mit AI Optimizer for Z registriert werden. Diese können gekennzeichnet und mit lokalen LLMs gruppiert werden, die auf Spyre laufen, um eine Gruppierung und Optimierung von Anwendungsfällen sicherzustellen. Je nach LLM-Bereitstellung kann die externe LLM-Überwachung in das plattformübergreifende Monitoring Dashboard integriert werden, um einen vollständigen Überblick über die generative KI zu erhalten.
Je nach den geschäftlichen Anforderungen an einen generativen KI-Anwendungsfall können mehrere Modelle erforderlich sein, um ein bestimmtes Ziel zu erreichen. Daher ermöglicht AI Optimizer for Z die Registrierung externer Modelle, die außerhalb von IBM Z und IBM LinuxONE ausgeführt werden, um die Endgeräte zu vereinheitlichen. Externe LLMs und lokale LLMs können mithilfe von benutzerdefinierten Tags gruppiert werden, die bei der Ableitung von Anfragen zur Erfüllung von Geschäftsanforderungen verwendet werden können.
Wenn AI Optimizer for Z auf watsonx Assistant for Z auf IBMs Spyre Accelerator trifft, erhalten Unternehmen das Beste aus beiden Welten: Intelligenz und Leistung in perfekter Harmonie.
Der AI Optimizer sorgt dafür, dass jede Abfrage, Inferenz und jeder Modellaufruf für maximale Effizienz weitergeleitet, zwischengespeichert und skaliert wird, während der watsonx Assistant for Z eine natürliche, dialogorientierte Interaktion mit Kunden und Mitarbeitern ermöglicht.
Die beiden Systeme basieren auf der leistungsstarken und energieeffizienten Architektur von Spyreund ermöglichen gemeinsam schnellere Reaktionszeiten, geringere Latenz und durchgängige Transparenz. So werden Kundeninteraktionen in nahtlose, KI-gestützte Erlebnisse verwandelt, die intelligenter, schneller und für den Unternehmenseinsatz ausgelegt sind.
Mehr erfahren über den IBM AI Optimizer for Z
Nehmen Sie an unserem kommenden Webinar teil, um mehr zu erfahren.