La inteligencia artificial ha alcanzado un hito crucial, donde el entrenamiento de modelos de lenguaje grande (LLM) es una de las tareas más exigentes a nivel de computación. La computación de alto rendimiento es esencial para la IA generativa y la optimización de la carga de trabajo de LLM, y las unidades de procesamiento de gráficos (GPU) pueden ser costosas y escasas. Las GPU son chips informáticos especializados diseñados para manejar cálculos matemáticos complejos y procesamiento paralelo, lo que las hace ideales para cálculos complejos necesarios en el entrenamiento y la inferencia para modelos de aprendizaje profundo. Como resultado, las GPU tienen una gran demanda, y optimizar su utilización es crítico para el éxito de la IA.
El equipo de IBM Big AI Models (BAM), que da soporte al entorno principal de investigación y desarrollo para que los equipos de ingeniería prueben y perfeccionen sus proyectos de IA generativa, vio una oportunidad de mejora. A medida que más proyectos pasaban por la fase de pruebas, el equipo reconoció la importancia de emplear de forma óptima cada instancia para evitar el desperdicio de recursos.
Para optimizar sus recursos de GPU y gestionar sus instancias LLM Kubernetes, el equipo de IBM BAM desplegó IBM Turbonomic, una herramienta avanzada de software de gestión de recursos de aplicaciones. Utilizando datos en tiempo real, Turbonomic generó recomendaciones impulsadas por IA para acciones automatizadas para optimizar la utilización y la eficiencia de los recursos. Al identificar estrategias óptimas de asignación de recursos, la solución generó sugerencias personalizadas que el equipo pudo configurar para ejecutarlas automáticamente, lo que permitió la optimización de recursos impulsada por IA.
Como software interno de IBM diseñado explícitamente para optimizar la administración de la nube híbrida, incluyendo aplicaciones en contenedores, máquinas virtuales y nubes públicas, IBM Turbonomic proporcionó una integración perfecta dentro de la infraestructura existente.
Tom Morris, investigador de la plataforma de AI, resume: "Habilitar a Turbonomic para escalar hacia arriba y hacia abajo nuestros servidores de inferencia LLM me ha permitido dedicar menos tiempo a monitorear el rendimiento".
ANTES
DESPUÉS
Con Turbonomic, el equipo de IBM BAM pudo crear una infraestructura escalable y ágil que podía adaptarse a las demandas cambiantes de su negocio, respaldando sus servicios LLM y ejecutando más de 100 GPU NVIDIA A100.
Al reducir las instancias sobreaprovisionadas, el equipo muestra la capacidad de aumentar los recursos de GPU inactivos de 3 a 16 (5.3 veces), para permitir que esos recursos manejen cargas de trabajo adicionales.
Los resultados incluyeron:
Al aplicar las capacidades de automatización de Turbonomic, el equipo de IBM BAM escaló y optimizó con éxito los servicios LLM. Esta mejora posicionó al equipo para reasignar su tiempo a proyectos estratégicos.
El equipo de IBM Big modelos de IA (BAM) es un grupo de investigadores e ingenieros dentro de IBM Research que se centra en el desarrollo y aplicación de modelos de IA a gran escala. Estos modelos están diseñados para procesar y analizar grandes cantidades de datos, lo que permite aplicaciones como el procesamiento de lenguaje natural, la visión artificial y los análisis predictivos.
© Copyright IBM Corporation 2024. IBM, el logotipo de IBM, Turbonomic e IBM Research son marcas comerciales o marcas registradas de IBM Corp. en EE.UU. y/o en otros países. Este documento está actualizado en la fecha inicial de publicación y puede ser modificado por IBM en cualquier momento. No todas las ofertas están disponibles en todos los países en los que opera IBM.
Los ejemplos de los clientes se presentan como ilustraciones de cómo esos clientes han utilizado los productos de IBM y los resultados que pueden haber logrado. El rendimiento real, el costo, los ahorros u otros resultados en otros entornos operativos pueden variar.