Optimización de las GPU para la IA generativa

Ahorro de recursos críticos con IBM Turbonomic
Dos personas, sentadas en un banco frente a un cartel de "Me encanta la IA"
Maximizar la eficiencia y el rendimiento de las GPU de alta demanda

La inteligencia artificial ha alcanzado un hito crucial, donde el entrenamiento de modelos de lenguaje de gran tamaño es una de las tareas más exigentes desde el punto de vista computacional. La computación de alto rendimiento es esencial para la IA generativa y la optimización de la carga de trabajo de LLM, y las unidades de procesamiento gráfico pueden ser caras y escasas. Las GPU son chips informáticos especializados diseñados para manejar cálculos matemáticos complejos y procesamiento paralelo, lo que las hace ideales para cálculos complejos necesarios en el entrenamiento y la inferencia para modelos de deep learning. Como resultado, las GPU tienen una gran demanda, y optimizar su uso es crucial para el éxito de la IA.

El equipo de IBM Big AI Models (BAM), que da soporte al entorno principal de investigación y desarrollo para que los equipos de ingeniería prueben y perfeccionen sus proyectos de IA generativa, vio una oportunidad de mejora. A medida que más proyectos pasaban por la fase de prueba, el equipo reconoció la importancia de utilizar de forma óptima cada instancia para evitar el despilfarro de recursos.

5,3 veces aumento de los recursos de GPU inactivos 2x rendimiento logrado sin degradar el rendimiento de latencia
Al permitir que Turbonomic amplíe y reduzca nuestros servidores de inferencia de LLM, he podido dedicar menos tiempo a supervisar el rendimiento.
Tom Morris Director de infraestructura y operaciones de IBM AI Platform Enablement Research IBM
Transformación de la gestión de la GPU: del caos al control

Para optimizar sus recursos de GPU y gestionar sus instancias LLM Kubernetes, el equipo de IBM BAM implementó IBM Turbonomic, una herramienta avanzada de software de gestión de recursos de aplicaciones. Gracias al uso de datos en tiempo real, Turbonomic generó recomendaciones impulsadas por IA para acciones automatizadas para optimizar la utilización y la eficiencia de los recursos. Al identificar estrategias óptimas de asignación de recursos, la solución generó sugerencias personalizadas que el equipo pudo configurar para ejecutarlas automáticamente, lo que permitió la optimización de recursos impulsada por IA.

Como software interno de IBM diseñado explícitamente para optimizar la gestión de la nube híbrida, incluidas las aplicaciones en contenedores, las máquinas virtuales y las nubes públicas, IBM Turbonomic proporcionó una integración perfecta dentro de la infraestructura existente.

Tom Morris, investigador de AI Platform, resume: “Permitir que Turbonomic escalar nuestros servidores de inferencia LLM me ha permitido dedicar menos tiempo a monitorizar el rendimiento”.

ANTES

panel de control turbonomic con múltiples datos que destacan una sección que muestra tres GPUS libres

DESPUÉS

Gráfico lineal que compara el uso de GPU libre a lo largo del tiempo, destacando una sección que muestra 17 GPU libres
Mejor rendimiento, menores costes: los resultados de la asignación eficiente de recursos de la GPU

Con Turbonomic, el equipo de IBM BAM pudo crear una infraestructura escalable y ágil que podía adaptarse a las demandas cambiantes de su negocio, dando soporte a sus servicios LLM y ejecutando más de 100 GPU NVIDIA A100.

Al reducir las instancias sobreaprovisionadas, el equipo ha podido aumentar los recursos de GPU ociosos de 3 a 16 (5,3 veces), lo que permite a esos recursos manejar cargas de trabajo adicionales.

Los resultados incluyeron:

  1. Asignación de recursos
    Con la solución automatizada, el escalado dinámico se convirtió en una segunda naturaleza, generando una utilización óptima de las GPU disponibles según las diferentes necesidades.

  2. Rentabilidad
    El escalado de los servicios LLM bajo demanda permitió compartir el tiempo de las GPU, lo que optimizó el número total de GPU necesarias. Ahora, con el escalado y el uso compartido, el equipo de IBM BAM ha demostrado que serán necesarias 13 GPU menos en un entorno de automatización completa.

  3. Eficiencia laboral
    El escalado automático de los servidores de inferencia de LLM permitió al equipo de IBM BAM dedicar menos tiempo a monitorizar el rendimiento.

  4. Escalabilidad y rendimiento
    Después de automatizar completamente el escalado de los servicios LLM, los recursos de GPU originalmente sobreaprovisionados se liberaron para que otras cargas de trabajo en función de la demanda puedan compartirlos.
    El aumento del rendimiento brinda la oportunidad de mejorar el rendimiento al abordar los problemas de latencia.

Al aplicar las capacidades de automatización de Turbonomic, el equipo de IBM BAM escaló y optimizó con éxito los servicios LLM. Esta mejora posicionó al equipo para reasignar su tiempo a proyectos estratégicos.

Tres gráficos lineales que muestran el aumento de la carga a lo largo del tiempo y la disminución del tiempo de espera y del tiempo por output
Logotipo de IBM
Acerca de IBM Big AI Models

El equipo Big AI Models (BAM) de IBM es un grupo de investigadores e ingenieros de IBM Research que se centra en el desarrollo y la aplicación de modelos de IA a gran escala. Estos modelos están diseñados para procesar y analizar grandes cantidades de datos, lo que permite aplicaciones como el procesamiento del lenguaje natural, la visión artificial y el análisis predictivo.

Componente de la solución IBM Turbonomic
Transforme su negocio con decisiones basadas en datos

Optimice el rendimiento y la eficiencia con la gestión automatizada de recursos impulsada por IA de IBM Turbonomic

Empiece a automatizar con Turbonomic Ver más casos de éxito
Legal

© Copyright IBM Corporation 2024. IBM, el logotipo de IBM, Turbonomic e IBM Research son marcas comerciales o marcas registradas de IBM Corp., en EE. UU. u otros países. Este documento está actualizado en la fecha inicial de publicación y IBM puede cambiarlo en cualquier momento. No todas las ofertas están disponibles en todos los países en los que opera IBM.

Los ejemplos de clientes se presentan a título ilustrativo de cómo dichos clientes han utilizado los productos de IBM y los resultados que pueden haber obtenido. El rendimiento, los costes, los ahorros reales u otros resultados en sus entornos operativos podrían variar.