L’intelligence artificielle a passé un cap crucial : l’entraînement de grands modèles de langage (LLM) est l’une des tâches les plus exigeantes en termes de calcul. Les calculs hautes performances sont essentiels pour l’optimisation des workloads d’IA générative et des LLM, et les processeurs graphiques (GPU) peuvent s’avérer coûteux et rares. Les GPU sont des puces informatiques spécialisées conçues pour gérer des calculs mathématiques complexes et le traitement parallèle, ce qui les rend idéales pour les calculs complexes nécessaires à l’entraînement et à l’inférence des modèles d’apprentissage profond. Par conséquent, les GPU sont très demandés, et l’optimisation de leur utilisation est essentielle pour la réussite de l’IA.

L’équipe IBM Big AI Models (BAM), en charge du principal environnement de recherche et de développement permettant aux équipes d’ingénieurs de tester et d’affiner leurs projets d’IA générative, a constaté une opportunité d’amélioration. Au fur et à mesure que d’autres projets passaient en phase de test, l’équipe a réalisé qu’il était important d’utiliser chaque instance de manière optimale pour éviter de gaspiller des ressources.