La inteligencia artificial ha alcanzado un hito crucial, donde el entrenamiento de modelos de lenguaje de gran tamaño es una de las tareas más exigentes desde el punto de vista computacional. La computación de alto rendimiento es esencial para la IA generativa y la optimización de la carga de trabajo de LLM, y las unidades de procesamiento gráfico pueden ser caras y escasas. Las GPU son chips informáticos especializados diseñados para manejar cálculos matemáticos complejos y procesamiento paralelo, lo que las hace ideales para cálculos complejos necesarios en el entrenamiento y la inferencia para modelos de deep learning. Como resultado, las GPU tienen una gran demanda, y optimizar su uso es crucial para el éxito de la IA.
El equipo de IBM Big AI Models (BAM), que da soporte al entorno principal de investigación y desarrollo para que los equipos de ingeniería prueben y perfeccionen sus proyectos de IA generativa, vio una oportunidad de mejora. A medida que más proyectos pasaban por la fase de prueba, el equipo reconoció la importancia de utilizar de forma óptima cada instancia para evitar el despilfarro de recursos.
Para optimizar sus recursos de GPU y gestionar sus instancias LLM Kubernetes, el equipo de IBM BAM implementó IBM Turbonomic, una herramienta avanzada de software de gestión de recursos de aplicaciones. Gracias al uso de datos en tiempo real, Turbonomic generó recomendaciones impulsadas por IA para acciones automatizadas para optimizar la utilización y la eficiencia de los recursos. Al identificar estrategias óptimas de asignación de recursos, la solución generó sugerencias personalizadas que el equipo pudo configurar para ejecutarlas automáticamente, lo que permitió la optimización de recursos impulsada por IA.
Como software interno de IBM diseñado explícitamente para optimizar la gestión de la nube híbrida, incluidas las aplicaciones en contenedores, las máquinas virtuales y las nubes públicas, IBM Turbonomic proporcionó una integración perfecta dentro de la infraestructura existente.
Tom Morris, investigador de AI Platform, resume: “Permitir que Turbonomic escalar nuestros servidores de inferencia LLM me ha permitido dedicar menos tiempo a monitorizar el rendimiento”.
ANTES
DESPUÉS
Con Turbonomic, el equipo de IBM BAM pudo crear una infraestructura escalable y ágil que podía adaptarse a las demandas cambiantes de su negocio, dando soporte a sus servicios LLM y ejecutando más de 100 GPU NVIDIA A100.
Al reducir las instancias sobreaprovisionadas, el equipo ha podido aumentar los recursos de GPU ociosos de 3 a 16 (5,3 veces), lo que permite a esos recursos manejar cargas de trabajo adicionales.
Los resultados incluyeron:
Al aplicar las capacidades de automatización de Turbonomic, el equipo de IBM BAM escaló y optimizó con éxito los servicios LLM. Esta mejora posicionó al equipo para reasignar su tiempo a proyectos estratégicos.
El equipo Big AI Models (BAM) de IBM es un grupo de investigadores e ingenieros de IBM Research que se centra en el desarrollo y la aplicación de modelos de IA a gran escala. Estos modelos están diseñados para procesar y analizar grandes cantidades de datos, lo que permite aplicaciones como el procesamiento del lenguaje natural, la visión artificial y el análisis predictivo.
© Copyright IBM Corporation 2024. IBM, el logotipo de IBM, Turbonomic e IBM Research son marcas comerciales o marcas registradas de IBM Corp., en EE. UU. u otros países. Este documento está actualizado en la fecha inicial de publicación y IBM puede cambiarlo en cualquier momento. No todas las ofertas están disponibles en todos los países en los que opera IBM.
Los ejemplos de clientes se presentan a título ilustrativo de cómo dichos clientes han utilizado los productos de IBM y los resultados que pueden haber obtenido. El rendimiento, los costes, los ahorros reales u otros resultados en sus entornos operativos podrían variar.