Optimización de las GPU para IA generativa

Ahorro de recursos críticos con IBM Turbonomic
Dos personas sentadas en un banco frente a un letrero que dice "I love AI"
Maximizar las GPU de alta demanda para lograr eficiencia y rendimiento

La inteligencia artificial ha alcanzado un hito crucial, donde el entrenamiento de modelos de lenguaje grande (LLM) es una de las tareas más exigentes a nivel de computación. La computación de alto rendimiento es esencial para la IA generativa y la optimización de la carga de trabajo de LLM, y las unidades de procesamiento de gráficos (GPU) pueden ser costosas y escasas. Las GPU son chips informáticos especializados diseñados para manejar cálculos matemáticos complejos y procesamiento paralelo, lo que las hace ideales para cálculos complejos necesarios en el entrenamiento y la inferencia para modelos de aprendizaje profundo. Como resultado, las GPU tienen una gran demanda, y optimizar su utilización es crítico para el éxito de la IA.

El equipo de IBM Big AI Models (BAM), que da soporte al entorno principal de investigación y desarrollo para que los equipos de ingeniería prueben y perfeccionen sus proyectos de IA generativa, vio una oportunidad de mejora. A medida que más proyectos pasaban por la fase de pruebas, el equipo reconoció la importancia de emplear de forma óptima cada instancia para evitar el desperdicio de recursos.

5.3 veces aumento en los recursos de GPU inactivos 2X rendimiento logrado sin degradar el rendimiento de latencia
La posibilidad de que Turbonomic escalara nuestros servidores de inferencia LLM me permitió dedicar menos tiempo a monitorear el rendimiento.
Tom Morris Líder de infraestructura y operaciones para IBM AI Platform Enablement Research IBM
Transformación de la gestión de GPU: del caos al control

Para optimizar sus recursos de GPU y gestionar sus instancias LLM Kubernetes, el equipo de IBM BAM desplegó IBM Turbonomic, una herramienta avanzada de software de gestión de recursos de aplicaciones. Utilizando datos en tiempo real, Turbonomic generó recomendaciones impulsadas por IA para acciones automatizadas para optimizar la utilización y la eficiencia de los recursos. Al identificar estrategias óptimas de asignación de recursos, la solución generó sugerencias personalizadas que el equipo pudo configurar para ejecutarlas automáticamente, lo que permitió la optimización de recursos impulsada por IA.

Como software interno de IBM diseñado explícitamente para optimizar la administración de la nube híbrida, incluyendo aplicaciones en contenedores, máquinas virtuales y nubes públicas, IBM Turbonomic proporcionó una integración perfecta dentro de la infraestructura existente.

Tom Morris, investigador de la plataforma de AI, resume: "Habilitar a Turbonomic para escalar hacia arriba y hacia abajo nuestros servidores de inferencia LLM me ha permitido dedicar menos tiempo a monitorear el rendimiento".

ANTES

Panel de Turbonomic con múltiples datos que destacan una sección que muestra 3 GPUS gratuitas

DESPUÉS

Gráfico de líneas que compara el uso de GPU gratuitas a lo largo del tiempo, destacando una sección que muestra 17 GPU gratuitas
Mejor rendimiento, menores costos: los resultados de la asignación eficiente de recursos de la GPU

Con Turbonomic, el equipo de IBM BAM pudo crear una infraestructura escalable y ágil que podía adaptarse a las demandas cambiantes de su negocio, respaldando sus servicios LLM y ejecutando más de 100 GPU NVIDIA A100.

Al reducir las instancias sobreaprovisionadas, el equipo muestra la capacidad de aumentar los recursos de GPU inactivos de 3 a 16 (5.3 veces), para permitir que esos recursos manejen cargas de trabajo adicionales.

Los resultados incluyeron:

  1. Asignación de recursos Con la solución automatizada, el escalamiento dinámico se convirtió en algo natural, generando una utilización óptima de las GPU disponibles según las distintas necesidades.

  2. Eficiencia de costos La ampliación de los servicios LLM a pedido permitió compartir el tiempo de las GPU, optimizando la cantidad total de GPU necesarias. Ahora, con la escalabilidad y el uso compartido, el equipo de IBM BAM demostró que serán necesarias 13 GPU menos en un entorno de automatización total.

  3. Eficiencia laboral El escalado automático de los servidores de inferencia LLM permitió al equipo de IBM BAM dedicar menos tiempo a monitorear el rendimiento.

  4. Escalabilidad y rendimiento
    Después de automatizar completamente el escalado de los servicios LLM, los recursos de GPU originalmente aprovisionados en exceso se liberaron para ser compartidos por otras cargas de trabajo en función de la demanda.
    El aumento del rendimiento brinda la oportunidad de mejorar el rendimiento al abordar los problemas de latencia.
.

Al aplicar las capacidades de automatización de Turbonomic, el equipo de IBM BAM escaló y optimizó con éxito los servicios LLM. Esta mejora posicionó al equipo para reasignar su tiempo a proyectos estratégicos.

3 gráficos lineales que muestran el aumento de la carga a lo largo del tiempo y la disminución del tiempo de espera y del tiempo por salida
Logotipo de IBM
Acerca de IBM modelos de IA

El equipo de IBM Big modelos de IA (BAM) es un grupo de investigadores e ingenieros dentro de IBM Research que se centra en el desarrollo y aplicación de modelos de IA a gran escala. Estos modelos están diseñados para procesar y analizar grandes cantidades de datos, lo que permite aplicaciones como el procesamiento de lenguaje natural, la visión artificial y los análisis predictivos.

Componente de la solución IBM Turbonomic
Transforme su negocio con decisiones basadas en datos

Optimice el rendimiento y la eficiencia con la gestión automatizada de recursos impulsada por IA de IBM Turbonomic

Empiece a automatizar con Turbonomic Ver más casos de estudio
Legal

© Copyright IBM Corporation 2024. IBM, el logotipo de IBM, Turbonomic e IBM Research son marcas comerciales o marcas registradas de IBM Corp. en EE.UU. y/o en otros países. Este documento está actualizado en la fecha inicial de publicación y puede ser modificado por IBM en cualquier momento. No todas las ofertas están disponibles en todos los países en los que opera IBM.

Los ejemplos de los clientes se presentan como ilustraciones de cómo esos clientes han utilizado los productos de IBM y los resultados que pueden haber logrado. El rendimiento real, el costo, los ahorros u otros resultados en otros entornos operativos pueden variar.