IBM Big AI Models - Turbonomic

Maximização de GPUs de alta demanda para mais eficiência e desempenho

A inteligência artificial alcançou um marco crucial, em que o treinamento de grandes modelos de linguagem (LLMs) tornou-se uma das tarefas mais exigentes em termos computacionais. A computação de alto desempenho é essencial para a otimização de cargas de trabalho de IA generativa (gen AI) e LLMs, enquanto as Unidades de Processamento Gráfico (GPUs) podem ser caras e escassas. GPUs são chips especializados projetados para lidar com cálculos matemáticos complexos e processamento paralelo, tornando-os ideais para as computações necessárias no treinamento e na inferência de modelos de aprendizado profundo. Como resultado, as GPUs estão em alta demanda, e otimizar sua utilização é fundamental para o sucesso da IA.

A equipe do IBM® Big AI Models (BAM), que oferece suporta o ambiente primário de pesquisa e desenvolvimento para as equipes de engenharia testarem e refinarem seus projetos de IA generativa, viu uma oportunidade de melhoria. À medida que mais projetos passavam pelo estágio de teste, a equipe reconheceu a importância de utilizar cada instância de forma otimizada para evitar o desperdício de recursos.

5.3x

aumento de recursos de GPU ociosos

taxa de transferência alcançada sem degradar o desempenho de latência

Deixar que o Turbonomic ajustasse nossos servidores de inferência LLM permitiu-me passar menos tempo monitorando o desempenho. Tom Morris

Líder de infraestrutura e operações da IBM IA Platform Enablement Research

IBM

Transformação do gerenciamento de GPU: do caos ao controle

Para otimizar os recursos de GPU e gerenciar as instâncias do LLM Kubernetes, a equipe IBM BAM implementou o IBM Turbonomic, ferramenta avançada de software de gerenciamento de recursos de aplicações. Utilizando dados em tempo real, o Turbonomic gerou recomendações orientadas por IA para ações automáticas para otimizar a utilização e a eficiência dos recursos. Identificando estratégias ideais de alocação de recursos, a solução gerou sugestões personalizadas que a equipe poderia configurar para execução automática, possibilitando a otimização de recursos orientada por IA.

Como um software interno da IBM explicitamente adaptado para otimizar o gerenciamento de nuvem híbrida, incluindo aplicações conteinerizadas, máquinas virtuais e nuvem pública, o IBM Turbonomic proporcionou uma integração perfeita na infraestrutura existente.

Tom Morris, pesquisador de plataforma de IA, resume: "Deixar que Turbonomic ajustasse nossos servidores de inferência de LLM permitiu-me passar menos tempo monitorando o desempenho".

ANTES

DEPOIS

Melhor desempenho, custos reduzidos: os resultados da alocação eficiente de recursos de GPU

Com o Turbonomic, a equipe IBM BAM conseguiu criar uma infraestrutura escalável e ágil capaz de adaptar-se às demandas em constante evolução dos seus negócios, oferecendo suporte aos serviços LLM e executando mais de 100 GPUs NVIDIA A100.

Reduzindo as instâncias superprovisionadas, a equipe mostra a capacidade de aumentar os recursos de GPU ociosos de 3 para 16 (5,3 vezes) para permitir que esses recursos lidem com cargas de trabalho adicionais.

Os resultados foram:

Alocação de recursos Com a solução automática, o escalonamento dinâmico tornou-se natural, gerando a utilização ideal das GPUs disponíveis de acordo com as diversas necessidades.
Economia
O dimensionamento dos serviços de LLM sob demanda permitiu o compartilhamento de tempo de GPUs, otimizando o número total de GPUs necessárias. Agora, com dimensionamento e compartilhamento, a equipe IBM BAM mostrou que serão necessárias 13 GPUs a menos em um ambiente completo de automação.
Eficiência do trabalho O escalonamento automático dos servidores de inferência LLM possibilitou que a equipe IBM BAM passasse menos tempo monitorando o desempenho.
Escalabilidade e desempenho
Depois de automatizar totalmente a escala dos serviços de LLM, os recursos de GPU originalmente superprovisionados foram liberados para serem compartilhados por outras cargas de trabalho com base na demanda. O aumento na taxa de transferência dá a oportunidade de lidar com o desempenho resolvendo problemas de latência.

Aplicando recursos de automação do Turbonomic, a equipe IBM BAM dimensionou e otimizou os serviços de LLM com sucesso. Essa melhoria posicionou a equipe para realocar o tempo para projetos estratégicos.

Sobre o IBM Big AI Models

A equipe IBM Big AI Models (BAM) é um grupo de pesquisadores e engenheiros dentro da IBM Research que se concentra no desenvolvimento e na aplicação de modelos de IA em grande escala. Esses modelos são projetados para processar e analisar grandes quantidades de dados, permitindo aplicações como processamento de linguagem natural, visão computacional e análise preditiva de dados.

Componente da solução

IBM Turbonomic

Transforme seus negócios com decisões baseadas em dados

Otimize o desempenho e a eficiência com o gerenciamento automático de recursos orientado por IA do IBM Turbonomic

Comece a automatizar com o Turbonomic

Ver mais estudos de caso

Legal

© Copyright IBM Corporation 2024. IBM, o logotipo da IBM, Turbonomic e IBM Research são marcas comerciais ou marcas registradas da IBM Corp. nos Estados Unidos e/ou em outros países. Este documento encontra-se como na data da primeira publicação e pode ser alterado pela IBM a qualquer momento. Nem todas as ofertas estão disponíveis em todos os países em que a IBM opera.

Os exemplos de clientes são apresentados como ilustrações de como esses clientes utilizaram os produtos da IBM e os resultados que podem ter alcançado. Desempenho, custo, economia ou outros resultados reais em outros ambientes operacionais podem variar.

Otimização de GPUs para IA generativa

Maximização de GPUs de alta demanda para mais eficiência e desempenho

Transformação do gerenciamento de GPU: do caos ao controle

Melhor desempenho, custos reduzidos: os resultados da alocação eficiente de recursos de GPU

Sobre o IBM Big AI Models

Legal