IBM Big KI-Modelle – Turbonomic

Maximierung von GPUs mit hohem Bedarf für Effizienz und Leistung

Die künstliche Intelligenz hat einen entscheidenden Meilenstein erreicht und das Training großer Sprachmodelle (LLMs) ist eine der rechenintensivsten Aufgaben. Hochleistungsrechner sind für die generative KI (gen KI) und die LLM-Workload-Optimierung unerlässlich, und Grafikprozessoren (GPUs) sind mitunter teuer und knapp. GPUs sind spezialisierte Computerchips, die für komplexe mathematische Berechnungen und parallele Verarbeitung entwickelt wurden. Sie eignen sich daher ideal für komplexe Berechnungen, die für das Training und die Inferenz von Deep-Learning-Modellen erforderlich sind. Daher sind GPUs sehr gefragt, und die Optimierung ihrer Auslastung ist entscheidend für den Erfolg der KI.

Das Team von IBM Big AI Models (BAM), das die primäre Forschungs- und Entwicklungsumgebung für die Entwicklungsteams beim Testen und Verfeinern ihrer generativen KI-Projekte unterstützt, sah eine Chance für Verbesserungen. Als immer mehr Projekte die Testphase durchliefen, erkannte das Team, wie wichtig es ist, jede Instanz optimal zu nutzen, um die Verschwendung von Ressourcen zu vermeiden.

5,3 x

Anstieg ungenutzter GPU-Ressourcen

Durchsatz, ohne die Latenzleistung zu verschlechtern

Durch den Einsatz von Turbonomic bei der Auf- und Abwärtsskalierung unserer LLM-Inferenzserver muss ich weniger Zeit für die Leistungsüberwachung aufwenden.

Tom Morris

Infrastructure and Operations Lead for IBM AI Platform Enablement Research

IBM

Umgestaltung des GPU-Managements: Vom Chaos zur Kontrolle

Um ihre GPU-Ressourcen zu optimieren und ihre LLM-Kubernetes-Instanzen zu verwalten, setzte das IBM BAM-Team IBM Turbonomic ein, ein fortschrittliches Softwaretool für das Application Resource Management. Anhand von Echtzeitdaten generierte Turbonomic KI-gestützte Empfehlungen für automatisierte Maßnahmen zur Optimierung der Ressourcenauslastung und -effizienz. Durch die Identifizierung optimaler Strategien für die Ressourcenzuweisung generierte die Lösung maßgeschneiderte Vorschläge, die das Team so konfigurieren konnte, dass sie automatisch ausgeführt wurden, was eine KI-gestützte Ressourcenoptimierung ermöglichte.

IBM Turnomic ist speziell auf die Optimierung des Hybrid-Cloud-Managements, einschließlich containerisierter Anwendungen, virtuellen Maschinen und öffentlichen Clouds, zugeschnitten und ermöglicht eine nahtlose Integration in die vorhandene Infrastruktur.

Tom Morris, AI Platform Researcher, fasst zusammen: „Durch den Einsatz von Turbonomic für die Auf- und Abwärtsskalierung unserer LLM-Inferenzserver muss ich weniger Zeit für die Leistungsüberwachung aufwenden.“

VORHER

Turbonomic Dashboard mit mehreren Daten, die einen Abschnitt hervorheben, in dem 3 freie GPUs angezeigt werden

NACHHER

Liniendiagramm, das die Nutzung freier GPUs im Laufe der Zeit vergleicht, wobei ein Abschnitt mit 17 freien GPUs hervorgehoben wird

Bessere Leistung, geringere Kosten: die Ergebnisse einer effizienten GPU-Ressourcenzuordnung

Mit Turbonomic konnte das IBM BAM-Team eine skalierbare und agile Infrastruktur aufbauen, die sich an die sich entwickelnden Anforderungen ihres Unternehmens anpassen, ihre LLM-Dienste unterstützen und über 100 NVIDIA A100-GPUs laufen lassen konnte.

Durch die Skalierung überversorgter Instanzen nach unten ist das Team in der Lage, die ungenutzten GPU-Ressourcen von 3 auf 16 (5,3 Mal) zu erhöhen, sodass diese Ressourcen zusätzliche Workload bewältigen können.

Zu den Ergebnissen gehörten:

Ressourcenzuweisung
Mit der automatisierten Lösung wurde die dynamische Skalierung zur zweiten Natur, die eine optimale Nutzung der verfügbaren GPUs je nach den unterschiedlichen Anforderungen ermöglicht.
Kosteneffizienz
Durch die bedarfsgesteuerte Skalierung von LLM-Diensten wurde die gemeinsame Nutzung von GPUs ermöglicht, wodurch die Gesamtzahl der erforderlichen GPUs optimiert wurde. Das IBM BAM-Team hat gezeigt, dass in einer Umgebung der vollständigen Automatisierung nun durch Skalierung und gemeinsame Nutzung 13 GPUs weniger erforderlich sein werden.
Arbeitseffizienz
Durch die automatische Skalierung von LLM-Inferenzservern konnte das IBM-Team weniger Zeit für die Leistung aufwenden.
Skalierbarkeit und Leistung
Nach der vollständigen Automatisierung der Skalierung der LLM-Services wurden die ursprünglich überdimensionierten GPU-Ressourcen freigegeben, und konnten je nach Bedarf von anderen Workload gemeinsam genutzt werden. Die Durchsatzsteigerung bietet die Möglichkeit, die Leistung durch die Beseitigung von Latenz zu verbessern.

Durch den Einsatz der Automatisierungsfunktionen von Turbonomic konnte das IBM BAM-Team die LLM-Services erfolgreich skalieren und optimieren. Diese Verbesserung ermöglichte es dem Team, seine Zeit für strategische Projekte neu einzuteilen.

3 lineare Diagramme, die Zunahme der Last im Laufe der Zeit und die Verringerung der Wartezeit und der Zeit pro Ausgabe anzeigen

Über IBM Big AI Models

Das Big AI Models (BAM)-Team von IBM ist eine Gruppe von Forschern und Ingenieuren innerhalb von IBM® Research, die sich auf die Entwicklung und Anwendung groß angelegter KI-Modelle konzentriert. Diese Modelle sind darauf ausgelegt, riesige Datenmengen zu verarbeiten und zu analysieren und Anwendungen wie die Verarbeitung natürlicher Sprache, Computer Vision und vorausschauende Analyse zu ermöglichen.

Lösungskomponente

IBM Turbonomic

Transformieren Sie Ihr Unternehmen mit datengestützten Entscheidungen

Optimieren Sie Leistung und Effizienz mit dem KI-gestützten, automatisierten Ressourcenmanagement von IBM Turbonomic

Automatisierung mit Turbonomic

Weitere Fallstudien anzeigen

Rechtshinweise

© Copyright IBM Corporation 2024. IBM, das IBM Logo, Turbonomic und IBM Research sind Marken oder eingetragene Marken der IBM Corp. in den USA und/oder anderen Ländern. Das vorliegende Dokument ist ab dem Datum der Erstveröffentlichung aktuell und kann jederzeit von IBM geändert werden. Nicht alle Angebote sind in allen Ländern verfügbar, in denen IBM tätig ist.

Alle angeführten Beispiele illustrieren lediglich, wie einige Kunden IBM Produkte verwendet haben und welche Ergebnisse sie dabei erzielt haben. Tatsächliche Leistung, Kosten, Einsparungen oder andere Ergebnisse in anderen Betriebsumgebungen können abweichen.

Optimierung von GPUs für generative KI

Rechtshinweise