IBM Big AI Models - Turbonomic

Massimizzazione delle GPU ad alta richiesta per efficienza e prestazioni

L'intelligenza artificiale ha raggiunto una tappa fondamentale, in cui l'addestramento di modelli linguistici di grandi dimensioni (LLM) è uno dei compiti più impegnativi dal punto di vista del calcolo. Il calcolo ad alte prestazioni è fondamentale per l'ottimizzazione dell'AI generativa (gen AI) e del workload dei modelli LLM, nonché le unità di elaborazione grafica (GPU) possono essere costose e di scarsa qualità. Le GPU sono chip di computer specializzati, progettate per gestire calcoli matematici complessi e l'elaborazione in parallelo, il che le rendono ideali per i calcoli complessi richiesti nell'addestramento e nell'inferenza dei modelli di deep learning. Di conseguenza, le GPU sono molto richieste e l'ottimizzazione del loro utilizzo è fondamentale per il successo dell'AI.

Il team IBM® Big AI Models (BAM), che supporta l'ambiente di ricerca e sviluppo primario per i team di ingegneri che testano e perfezionano i loro progetti di gen AI, ha visto un'opportunità di miglioramento. Man mano che più progetti passavano attraverso la fase di test, il team ha riconosciuto l'importanza di utilizzare in modo ottimale ogni istanza per evitare sprechi di risorse.

5,3x

aumento delle risorse GPU inattive

throughput raggiunto senza ridurre le prestazioni di latenza

Consentire a Turbonomic di scalare verso l'alto e verso il basso i nostri server di inferenza LLM mi ha consentito di dedicare meno tempo al monitoraggio delle prestazioni. Tom Morris

Infrastructure and Operations Lead for IBM AI Platform Enablement Research

IBM

Trasformare la gestione delle GPU: dal caos al controllo

Per ottimizzare le risorse GPU e gestire le proprie istanze LLM Kubernetes, il team IBM BAM ha implementato IBM® Turbonomic, uno strumento software avanzato per la gestione delle risorse delle applicazioni. Utilizzando dati in tempo reale, Turbonomic ha generato raccomandazioni basate sull'AI per azioni automatizzate per ottimizzare l'utilizzo e l'efficienza delle risorse. Individuando le strategie ottimali di allocazione delle risorse, la soluzione ha generato suggerimenti personalizzati che il team ha potuto configurare per l'esecuzione automatica, consentendo l'ottimizzazione delle risorse basate sull'AI.

Essendo un software interno IBM esplicitamente personalizzato per ottimizzare la gestione hybrid cloud, comprese le applicazioni containerizzate, le macchine virtuali e i cloud pubblici, IBM Turbonomic ha garantito una perfetta integrazione all'interno dell'infrastruttura esistente.

Tom Morris, AI Platform Researcher, riassume: "Consentire a Turbonomic di scalare verso l'alto e verso il basso i nostri server di inferenza LLM mi ha consentito di dedicare meno tempo al monitoraggio delle prestazioni."

PRIMA

DOPO

Migliori prestazioni, costi ridotti: i risultati di un'allocazione efficiente delle risorse GPU

Con Turbonomic, il team IBM BAM è stato in grado di creare un'infrastruttura scalabile e agile in grado di adattarsi alle esigenze in continua evoluzione del proprio business, supportando i servizi LLM ed eseguendo oltre 100 GPU NVIDIA A100.

Riducendo le istanze con overprovisioning, il team dimostra la capacità di aumentare le risorse GPU inattive da 3 a 16 (5,3 volte), per consentire a tali risorse di gestire workload aggiuntivi.

I risultati includevano:

Allocazione delle risorse
Con la soluzione automatizzata, la scalabilità dinamica è diventata naturale, generando un utilizzo ottimale delle GPU disponibili in base alle diverse esigenze.
Efficienza dei costi
La scalabilità dei servizi LLM su richiesta ha consentito la condivisione del tempo delle GPU, ottimizzando il numero totale di GPU richieste. Ora, con la scalabilità e la condivisione, il team IBM BAM ha dimostrato che saranno necessarie 13 GPU in meno in un ambiente di automazione completa.
Efficienza del lavoro
Il ridimensionamento automatico dei server di inferenza LLM ha consentito al team IBM BAM di dedicare meno tempo al monitoraggio delle prestazioni.
Scalabilità e prestazioni
Dopo aver automatizzato completamente la scalabilità dei servizi LLM, le risorse originariamente con overprovisioning sono state liberate per essere condivise con altri workload in base alla domanda. L'aumento del throughput offre l'opportunità di migliorare le prestazioni risolvendo i problemi di latenza.

Applicando le funzionalità di automazione Turbonomic, il team IBM BAM ha scalato e ottimizzato con successo i servizi LLM. Questo miglioramento ha consentito al team di riallocare il proprio tempo per progetti strategici.

Informazioni su IBM Big AI Models

Il team IBM Big AI Models (BAM) è un gruppo di ricercatori e tecnici all'interno di IBM® Research che si concentra sullo sviluppo e l'applicazione di modelli AI su larga scala. Questi modelli sono progettati per elaborare e analizzare grandi quantità di dati, consentendo l'esecuzione di applicazioni come l'elaborazione del linguaggio naturale, la computer vision e l'analytics predittiva.

Componente della soluzione

IBM Turbonomic

Trasforma il tuo business con decisioni basate sui dati

Ottimizza le prestazioni e l'efficienza con la gestione automatizzata delle risorse basata sull'AI di IBM Turbonomic

Inizia ad automatizzare con Turbonomic

Visualizza altri casi di studio

Legale

© Copyright IBM Corporation 2024. IBM, il logo IBM, Turbonomic e IBM Research sono marchi o marchi registrati di IBM Corp. negli Stati Uniti e/o in altri Paesi. Le informazioni contenute nel presente documento sono aggiornate alla data della prima pubblicazione e possono essere modificate da IBM senza preavviso. Non tutte le offerte sono disponibili in ogni Paese in cui opera IBM.

Gli esempi relativi ai clienti sono presentati a scopo illustrativo di come tali clienti abbiano usato i prodotti IBM e dei risultati che possono aver conseguito. Prestazioni, costi, risparmio o altri risultati effettivi possono variare in altri ambienti operativi.

Ottimizzazione delle GPU per la gen AI

Massimizzazione delle GPU ad alta richiesta per efficienza e prestazioni

Trasformare la gestione delle GPU: dal caos al controllo

Migliori prestazioni, costi ridotti: i risultati di un'allocazione efficiente delle risorse GPU

Informazioni su IBM Big AI Models

Legale