Minha IBM Efetue login

Início

Estudos de caso

IBM Big AI Models - Turbonomic

Otimização de GPUs para IA generativa

Otimização de GPUs para IA generativa

Como poupar recursos críticos com o IBM Turbonomic
Duas pessoas sentadas em um banco em frente a uma placa "Eu amo IA"
Maximização de GPUs de alta demanda para mais eficiência e desempenho

Maximização de GPUs de alta demanda para mais eficiência e desempenho

A inteligência artificial alcançou um marco crucial, em que o treinamento de grandes modelos de linguagem (LLMs) tornou-se uma das tarefas mais exigentes em termos computacionais. A computação de alto desempenho é essencial para a otimização de cargas de trabalho de IA generativa (gen AI) e LLMs, enquanto as Unidades de Processamento Gráfico (GPUs) podem ser caras e escassas. GPUs são chips especializados projetados para lidar com cálculos matemáticos complexos e processamento paralelo, tornando-os ideais para as computações necessárias no treinamento e na inferência de modelos de aprendizado profundo. Como resultado, as GPUs estão em alta demanda, e otimizar sua utilização é fundamental para o sucesso da IA.

A equipe do IBM® Big AI Models (BAM), que oferece suporta o ambiente primário de pesquisa e desenvolvimento para as equipes de engenharia testarem e refinarem seus projetos de IA generativa, viu uma oportunidade de melhoria. À medida que mais projetos passavam pelo estágio de teste, a equipe reconheceu a importância de utilizar cada instância de forma otimizada para evitar o desperdício de recursos.

5.3x aumento de recursos de GPU ociosos 2X taxa de transferência alcançada sem degradar o desempenho de latência
Deixar que o Turbonomic ajustasse nossos servidores de inferência LLM permitiu-me passar menos tempo monitorando o desempenho. Tom Morris Líder de infraestrutura e operações da IBM IA Platform Enablement Research IBM
Transformação do gerenciamento de GPU: do caos ao controle

Transformação do gerenciamento de GPU: do caos ao controle

Para otimizar os recursos de GPU e gerenciar as instâncias do LLM Kubernetes, a equipe IBM BAM implementou o IBM Turbonomic, ferramenta avançada de software de gerenciamento de recursos de aplicações. Utilizando dados em tempo real, o Turbonomic gerou recomendações orientadas por IA para ações automáticas para otimizar a utilização e a eficiência dos recursos. Identificando estratégias ideais de alocação de recursos, a solução gerou sugestões personalizadas que a equipe poderia configurar para execução automática, possibilitando a otimização de recursos orientada por IA.

Como um software interno da IBM explicitamente adaptado para otimizar o gerenciamento de nuvem híbrida, incluindo aplicações conteinerizadas, máquinas virtuais e nuvem pública, o IBM Turbonomic proporcionou uma integração perfeita na infraestrutura existente.

Tom Morris, pesquisador de plataforma de IA, resume: "Deixar que Turbonomic ajustasse nossos servidores de inferência de LLM permitiu-me passar menos tempo monitorando o desempenho".

ANTES

DEPOIS

Melhor desempenho, custos reduzidos: os resultados da alocação eficiente de recursos de GPU

Melhor desempenho, custos reduzidos: os resultados da alocação eficiente de recursos de GPU

Com o Turbonomic, a equipe IBM BAM conseguiu criar uma infraestrutura escalável e ágil capaz de adaptar-se às demandas em constante evolução dos seus negócios, oferecendo suporte aos serviços LLM e executando mais de 100 GPUs NVIDIA A100.

Reduzindo as instâncias superprovisionadas, a equipe mostra a capacidade de aumentar os recursos de GPU ociosos de 3 para 16 (5,3 vezes) para permitir que esses recursos lidem com cargas de trabalho adicionais.

Os resultados foram:

  1. Alocação de recursos Com a solução automática, o escalonamento dinâmico tornou-se natural, gerando a utilização ideal das GPUs disponíveis de acordo com as diversas necessidades.

  2. Economia
    O dimensionamento dos serviços de LLM sob demanda permitiu o compartilhamento de tempo de GPUs, otimizando o número total de GPUs necessárias. Agora, com dimensionamento e compartilhamento, a equipe IBM BAM mostrou que serão necessárias 13 GPUs a menos em um ambiente completo de automação.

  3. Eficiência do trabalho O escalonamento automático dos servidores de inferência LLM possibilitou que a equipe IBM BAM passasse menos tempo monitorando o desempenho.

  4. Escalabilidade e desempenho
    Depois de automatizar totalmente a escala dos serviços de LLM, os recursos de GPU originalmente superprovisionados foram liberados para serem compartilhados por outras cargas de trabalho com base na demanda.
    O aumento na taxa de transferência dá a oportunidade de lidar com o desempenho resolvendo problemas de latência.

Aplicando recursos de automação do Turbonomic, a equipe IBM BAM dimensionou e otimizou os serviços de LLM com sucesso. Essa melhoria posicionou a equipe para realocar o tempo para projetos estratégicos.

Logotipo da IBM
Sobre o IBM Big AI Models

Sobre o IBM Big AI Models

A equipe IBM Big AI Models (BAM) é um grupo de pesquisadores e engenheiros dentro da IBM Research que se concentra no desenvolvimento e na aplicação de modelos de IA em grande escala. Esses modelos são projetados para processar e analisar grandes quantidades de dados, permitindo aplicações como processamento de linguagem natural, visão computacional e análise preditiva de dados.

Componente da solução IBM Turbonomic
Transforme seus negócios com decisões baseadas em dados

Otimize o desempenho e a eficiência com o gerenciamento automático de recursos orientado por IA do IBM Turbonomic

Comece a automatizar com o Turbonomic Ver mais estudos de caso
Legal

© Copyright IBM Corporation 2024. IBM, o logotipo da IBM, Turbonomic e IBM Research são marcas comerciais ou marcas registradas da IBM Corp. nos Estados Unidos e/ou em outros países. Este documento encontra-se como na data da primeira publicação e pode ser alterado pela IBM a qualquer momento. Nem todas as ofertas estão disponíveis em todos os países em que a IBM opera.

Os exemplos de clientes são apresentados como ilustrações de como esses clientes utilizaram os produtos da IBM e os resultados que podem ter alcançado. Desempenho, custo, economia ou outros resultados reais em outros ambientes operacionais podem variar.