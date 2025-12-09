In einem schrittweisen Bereitstellungsplan wird AI Optimizer for Z mehrstufiges Caching einführen, um die generative KI-Inferenz zu beschleunigen.

Auf der ersten Ebene nutzt KV-Caching zuvor berechnete Token-Sequenzen innerhalb einer einzigen Large Language Model (LLM)-Bereitstellung wieder, wodurch die Zeit bis zum ersten Token verkürzt und der Durchsatz verbessert wird.

Auf der zweiten Ebene verteilt das erweiterte Caching diese Berechnungen auf mehrere LLM-Bereitstellungen und ermöglicht so eine noch höhere Effizienz bei großen Arbeitslasten. Diese Fähigkeit führt zu einem erheblichen geschäftlichen Nutzen, indem sie die Infrastrukturkosten senkt, die Reaktionszeiten für kundenorientierte Anwendungen verbessert und es Unternehmen ermöglicht, KI-Services zu skalieren, ohne ihre Ressourcen zu überlasten.