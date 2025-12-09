Künstliche Intelligenz IT-Automatisierung

Erschließung von KI-Inferenz im Unternehmensmaßstab: Ankündigung der allgemeinen Verfügbarkeit von IBM AI Optimizer for Z 2.1

Beschleunigen Sie die generative KI auf IBM Z und optimieren Sie die Inferenz für maximale Leistung, Effizienz und Sicherheit.

Veröffentlicht 9. Dezember 2025
Mann und Frau schauen auf einen Laptop unter dem „I love KI“-Logo
By Minaz Merali and Mohamed Elmougi

IBM AI Optimizer for Z 2.1 ist jetzt allgemein verfügbar und bietet hochleistungsfähige generative KI-Inferenz mit geringer Latenz auf IBM Z, unterstützt durch IBM SpyreTM Accelerator. Diese Version stellt den ersten Schritt in einer Roadmap für die kontinuierliche Bereitstellung dar. Weitere Funktionen und Optimierungen sollen in den nächsten Quartalen eingeführt werden.

Optimierung von generativen KI-Workloads für höhere Leistung

AI Optimizer for Z nutzt die Leistung des IBM Spyre™ Accelerator (Spyre), um Leistung mit geringer Latenz für KI-Modelle zu liefern. Durch die Kombination von Spyre mit fortschrittlichen Funktionen wie KV-Caching und Echtzeitüberwachung ermöglicht es Unternehmen, generative KI-Workloads über Infrastrukturen hinweg mit unvergleichlicher Effizienz, Skalierbarkeit und Sicherheit zu optimieren.

Zu den wichtigsten Funktionen des KI Optimizer for Z 2.1 gehören:

1. Echtzeitüberwachung und Observability:

AI Optimizer for Z bietet fortschrittliche Echtzeitüberwachung für generative KI-Workloads und nutzt Prometheus für die Metriken-Sammlung sowie Grafana für intuitive Visualisierung. Es verfolgt wichtige Metriken wie Token-Durchsatz, Latenz pro Anfrage, Cache-Hit-Ratio, Zeit bis zum ersten Token und Speicher-Nutzung, sowie einen Plan, Hardware-Nutzungsmetriken wie GPU-Nutzung einzubeziehen.

AI Optimizer kann in den OpenTelemetry (OTel)-Kollektor integriert werden, wenn er mit Prometheus-Empfängern konfiguriert ist. Dies ermöglicht eine nahtlose Telemetrieerfassung und Interoperabilität für eine einheitliche Observability in hybriden Umgebungen. Diese Erkenntnisse befähigen Unternehmen, fundierte Entscheidungen zu Kapazitätsplanung, Workload-Routing, Leistungsüberwachung und Infrastrukturoptimierung zu treffen – um Überprovisionierung zu vermeiden, Kosten zu senken und die Gesamtleistung zu verbessern.

2. Mehrstufiges Caching:

In einem schrittweisen Bereitstellungsplan wird AI Optimizer for Z mehrstufiges Caching einführen, um die generative KI-Inferenz zu beschleunigen.

Auf der ersten Ebene nutzt KV-Caching zuvor berechnete Token-Sequenzen innerhalb einer einzigen Large Language Model (LLM)-Bereitstellung wieder, wodurch die Zeit bis zum ersten Token verkürzt und der Durchsatz verbessert wird.

Auf der zweiten Ebene verteilt das erweiterte Caching diese Berechnungen auf mehrere LLM-Bereitstellungen und ermöglicht so eine noch höhere Effizienz bei großen Arbeitslasten. Diese Fähigkeit führt zu einem erheblichen geschäftlichen Nutzen, indem sie die Infrastrukturkosten senkt, die Reaktionszeiten für kundenorientierte Anwendungen verbessert und es Unternehmen ermöglicht, KI-Services zu skalieren, ohne ihre Ressourcen zu überlasten.

3. Optimierung der Inferenz:

AI Optimizer for Z ermöglicht ein flexibles Tagging von LLMs, sodass Nutzer Modelle nach Anwendungsfall, Geschäftsanwendungsfall oder Leistungsanforderungen gruppieren können. Diese Tags können auf Inferenzanfragen angewendet werden, um intelligentes Routing und optimierte Ressourcennutzung über mehrere Bereitstellungen hinweg zu gewährleisten.

Darüber hinaus unterstützt die Lösung die Registrierung externer LLMs, die außerhalb von IBM Z oder LinuxONE laufen, und integriert diese in dasselbe Tagging- und Routing-Framework für eine einheitliche Optimierung. Diese Funktion bietet Unternehmen mehr Kontrolle und Agilität und ermöglicht so eine gleichbleibende Leistung und Kosteneffizienz in hybriden KI-Umgebungen.

Warum das wichtig ist: Unternehmens-KI ohne Kompromisse

Unternehmen, die auf IBM Z arbeiten, stehen vor besonderen Herausforderungen wie Datenresidenz, Datenschutzbestimmungen, Anforderungen an geringe Latenz und geschäftskritischer Zuverlässigkeit. AI Optimizer for Z 2.1 ermöglicht die Einführung von GenAI ohne Arbeitslastverlagerung oder architektonisches Risiko und liefert sofortigen Mehrwert in Branchen wie Banken, Versicherungen, Fertigung und dem öffentlichen Sektor. Mit einem kontinuierlichen Bereitstellungsansatz können Unternehmen mit laufenden Verbesserungen rechnen, die Leistung, Skalierbarkeit und Sicherheit weiter verbessern.

Ein geplanter, strategischer Weg nach vorn

Die allgemeine Verfügbarkeit des AI Optimizer for Z 2.1 markiert den Beginn einer umfassenderen Roadmap. Die wichtigsten Inferenz- und Observability-Funktionen sind ab sofort verfügbar. Weitere Optimierungen werden im Laufe der nächsten Quartale durch schrittweise Releases bereitgestellt, um sicherzustellen, dass Kunden kontinuierlich und ohne Unterbrechung von Innovationen profitieren können.

Mehr erfahren über AI Optimizer for Z 2.1

Minaz Merali

VP IBM Z Data and AI

IBM

Mohamed Elmougi

Senior Product Manager - IBM Z Data and AI

IBM