PowerAI: a solução de deep learning mais rápida do mundo entre os servidores das empresas líderes

By | 3 minute read | 30/06/2017

Nas últimas semanas, meus colegas da IBM escreveram sobre nosso progresso portando e otimizando frameworks de deep learning para as plataformas mais avançadas de computação acelerada nas empresas, o IBM S822LC para HPC.

Hoje, estou feliz em anunciar outro marco: a criação da solução de deep learning mais rápida do mundo entre os servidores das empresas líderes. Essa oferta inclui o novo software toolkit IBM PowerAI, pareado com o NVIDIA NVLink e as GPUDL e bibliotecas otimizadas para a arquitetura IBM Power. Nós a chamamos de PowerAI.

Fundações do PowerAI

O PowerAI reune uma coleção dos frameworks de código aberto mais populares para deep learning, contando também com o suporte para software e bibliotecas, tudo em um único pacote instalável. Nosso objetivo foi simplificar a aquisição, instalação e otimização do sistema requerida para levantar a questão da infraestrutura de Deep Learning, permitindo aos usuários passarem menos tempo em implementação e mais tempo treinando as redes neurais para resultados. Falarei mais sobre esses resultados em breve.

No centro da solução de PowerAI está o Power Systems S822LC de alta-performance, para o servidor de computação de alta-performance (HPC), incorporando duas CPUs POWER8, até quatro GPUs NVIDIA Tesla P100 e a conectividade banda larga através do sistema NVLink, juntando GPU com GPU e GPU com CPU com múltiplas conexões ponto-a-ponto.

Essa arquitetura foi feita para computar grandes quantidades de requerimentos do software de Deep Learning, fornecendo uma conexão com alto comprimento de banda entre a GPU e a memória do sistema, junto com a ligação GPU-GPU. Com o PowerAI e o NVIDIA NVLink, as cargas de trabalho de Deep Learning podem utilizar esse comprimento de banda, movendo grandes pacotes de dados para treinamento, da memória do sistema para a memória da GPU; o resultado é desenhado para ser o menor ciclo de aprendizado e a habilidade de treinar com maiores bancos de dados para precisão aumentada.

Otimizações e exclusividades da indústria

Trabalhando junto com a IBM Research em Tokyo, o time de desenvolvimento do PowerAI integrou vários aperfeiçoamentos de performance nesses frameworks. Essas otimizações, empacotadas dentro do IBM-Caffe binary, alavanca o comprimento de banda do NVIDIA NVLink e reduz alguns dos movimentos redundantes de dados dentro do framework de Deep Learning.

Essa otimização, junto com a performance melhorada do NVIDIA Tesla P100s, permite que quatro GPU S822LC para sistemas de HPC, superem oito GPUs mais o sistema Intel Broadwell, executando a carga de trabalho VGGNet no Caffe framework em 24 por cento.[1]

Nós estamos extremamente satisfeitos sobre a promessa de otimização e  esperando ansiosamente para ver como nossos clientes e parceiros irão implementa-la em sua carga de trabalho de Deep Learning.

Esse kit de ferramentas também alavanca as bibliotecas de GPUDL, incluindo a biblioteca de redes neurais profundas (cuDNN), sub-rotinas básicas e lineares de álgebra (cuBLAS) e a biblioteca de comunicação coletiva (NCCL) como parte do NVIDIA SDKs para entregar uma aceleração multi-GPU, otimizando a performance em servidores da IBM.

Com o passar do tempo, nossa intenção é explorar otimizações adicionais e capacidades integradas únicas nos próximos lançamentos de PowerAI.

Começando com PowerAI

Os pacotes de PowerAI estão disponíveis agora, linkados com nosso site de PowerAI. Essas imagens irão instalar em um S822LC para servidores HPC sendo executados no Ubuntu 16.04, NVIDIA CUDA 8 e NVIDIA cuDNN 5.1. Se você for construir essa infraestrutura do zero, irá demorar dias; nosso design permite que isso seja feito em uma hora ou menos.

Se você quiser avaliar essa solução na nuvem, ficamos felizes em anunciar que o parceiro de nuvem IBM Power HPC, Nimbix, disponibilizou o IBM Caffe framework na infraestrutura de S822LC para HPC deles como serviço; ao invés de uma hora, ele pode treinar em minutos.

Nós estamos otimistas sobre essa oferta e adoraríamos ter uma chance de ouvir de você. Assim quevocê e sua organização implementarem o PowerAI, compartilhe seus resultados e comentários.

[1] Test System: IBM S822LC 20-cores 2.86GHz 512GB memory  / 4 NVIDIA Tesla P100 GPUs / Ubuntu 16.04 /CUDA 8.0.44 / cuDNN 5.1  / IBM Caffe 1.0.0-rc3 /  Imagenet DataCompetitive System: Intel Broadwell E5-2640v4 20-core 2.6 GHz 512GB memory / 8 NVIDIA TeslaM40 GPUs / Ubuntu 16.04 / CUDA 8.0.44 / cuDNN 5.1 / BVLC Caffe 1.0.0-rc3 / Imagenet Data