My IBM Se connecter
Optimiser les GPU pour l’IA générative

Optimiser les GPU pour l’IA générative

Économiser des ressources critiques avec IBM Turbonomic
Deux personnes, assises sur un banc devant un panneau « I Love AI »
Maximiser les GPU les plus demandés en termes d’efficacité et de performances

Maximiser les GPU les plus demandés en termes d’efficacité et de performances

L’intelligence artificielle a passé un cap crucial : l’entraînement de grands modèles de langage (LLM) est l’une des tâches les plus exigeantes en termes de calcul. Les calculs hautes performances sont essentiels pour l’optimisation des workloads d’IA générative et des LLM, et les processeurs graphiques (GPU) peuvent s’avérer coûteux et rares. Les GPU sont des puces informatiques spécialisées conçues pour gérer des calculs mathématiques complexes et le traitement parallèle, ce qui les rend idéales pour les calculs complexes nécessaires à l’entraînement et à l’inférence des modèles d’apprentissage profond. Par conséquent, les GPU sont très demandés, et l’optimisation de leur utilisation est essentielle pour la réussite de l’IA.

L’équipe IBM Big AI Models (BAM), en charge du principal environnement de recherche et de développement permettant aux équipes d’ingénieurs de tester et d’affiner leurs projets d’IA générative, a constaté une opportunité d’amélioration. Au fur et à mesure que d’autres projets passaient en phase de test, l’équipe a réalisé qu’il était important d’utiliser chaque instance de manière optimale pour éviter de gaspiller des ressources.

5,3 fois de ressources de GPU inactives en plus 2X débit atteint sans dégrader les performances en matière de latence
Le fait de permettre à Turbonomic de dimensionner nos serveurs d’inférence LLM m’a permis de passer moins de temps à surveiller la performance. Tom Morris Responsable de l’infrastructure et des opérations au sein du groupe IBM AI Platform Enablement Research IBM
Transformer la gestion des GPU : du chaos au contrôle

Transformer la gestion des GPU : du chaos au contrôle

Pour optimiser ses ressources de GPU et gérer ses instances LLM Kubernetes, l’équipe IBM BAM a déployé IBM Turbonomic, un outil logiciel avancé de gestion des ressources applicatives. En s’appuyant sur des données en temps réel, Turbonomic a généré des recommandations pilotées par l’IA pour des actions automatisées afin d’optimiser l’utilisation et l’efficacité des ressources. En identifiant les stratégies d’allocation optimales des ressources, la solution a généré des suggestions personnalisées que l’équipe a pu configurer pour s’exécuter automatiquement, permettant ainsi une optimisation des ressources pilotée par l’IA.

En tant que logiciel interne IBM explicitement conçu pour optimiser la gestion du cloud, y compris les applications conteneurisées, les virtual machines et les clouds publics, IBM Turbonomic a simplifié l’intégration au sein de l’infrastructure existante.

Tom Morris, chercheur au sein du groupe, résume : « Permettre à Turbonomic de dimensionner nos serveurs d’inférence LLM m’a permis de passer moins de temps à surveiller les performances. »

AVANT

APRÈS

Meilleures performances et réduction des coûts : les résultats d’une allocation efficace des ressources de GPU

Meilleures performances et réduction des coûts : les résultats d’une allocation efficace des ressources de GPU

Grâce à Turbonomic, l’équipe IBM BAM a pu créer une infrastructure évolutive et agile capable de s’adapter à l’évolution des demandes de son activité, en prenant en charge ses services LLM et en faisant fonctionner plus de 100 GPU NVIDIA A100.

En réduisant les instances surutilisées, l’équipe montre la possibilité d’augmenter les ressources de GPU inactives de 3 à 16 (5,3 fois), pour permettre à ces ressources de gérer des workloads supplémentaires.

Voici les résultats : 

  1. Allocation des ressources
    Grâce à la solution automatisée, la mise à l’échelle dynamique est devenue une seconde nature, générant une utilisation optimale des GPU disponibles en fonction des différents besoins.

  2. Rentabilité économique
    La mise à l’échelle des services LLM à la demande a permis le partage du temps des GPU, optimisant ainsi le nombre total de GPU requis. Désormais, grâce à la mise à l’échelle et au partage, l’équipe IBM BAM a montré que 13 GPU de moins seraient nécessaires dans un environnement entièrement automatisé.

  3. Efficacité du personnel
    La mise à l’échelle automatique des serveurs d’inférence LLM a permis à l’équipe IBM BAM de passer moins de temps à surveiller les performances.

  4. Évolutivité et performances
    Après avoir entièrement automatisé la mise à l’échelle des services LLM, les ressources de GPU initialement surutilisées ont été libérées pour être partagées par d’autres workloads en fonction de la demande. L’augmentation du débit permet d’améliorer la performance en résolvant les problèmes de latence.

 

En tirant parti des fonctionnalités d’automatisation de Turbonomic, l’équipe IBM BAM a développé et optimisé avec succès les services LLM. Cette amélioration a permis à l’équipe de consacrer son temps à des projets stratégiques

.

Logo IBM
À propos d’IBM Big AI Models

À propos d’IBM Big AI Models

L’équipe IBM Big AI Models (BAM) rassemble des chercheurs et des ingénieurs au sein du groupe IBM Research, qui se concentre sur le développement et l’application de modèles d’IA à grande échelle. Ces modèles sont conçus pour traiter et analyser de grandes quantités de données, permettant des applications telles que le traitement automatique du langage naturel, la vision par ordinateur et l’analyse prédictive.

Composant de la solution IBM Turbonomic
Transformez votre entreprise grâce à des décisions basées sur les données

Optimisez les performances et l’efficacité grâce à la gestion automatisée des ressources pilotée par l’IA avec IBM Turbonomic

Découvrir Turbonomic Voir plus d'études de cas
Mentions légales

© Copyright IBM Corporation 2024. IBM, le logo IBM, Turbonomic et IBM Research sont des marques commerciales ou des marques déposées d’IBM Corp., déposées aux États-Unis et/ou dans d’autres pays. Les informations contenues dans le présent document étaient à jour à la date de publication initiale et sont susceptibles d’être modifiées à tout moment par IBM. Certaines offres mentionnées dans le présent document ne sont pas disponibles dans tous les pays où la société IBM est présente.

Les exemples de clients sont présentés pour illustrer la façon dont ces clients ont utilisé les produits IBM et les résultats qu’ils ont pu obtenir. Les performances, coûts, économies ou autres résultats réels dans d’autres contextes d’exploitation peuvent varier.