Llegar a la Cima: el próximo gran acontecimiento para HPC

By noviembre 17, 2017

El panorama de la computación de alto rendimiento está evolucionando a un ritmo acelerado que algunos describen como un punto de inflexión importante, ya que la Ley de Moore entrega rendimientos decrecientes a la vez que aumentan las demandas de rendimiento. Los líderes de las organizaciones están luchando con la forma en que se apropiarán de las innovaciones recientes a nivel de sistema, como la aceleración; mientras que a la par se enfrentan al desafío de incorporar análisis en sus cargas de trabajo HPC. En el horizonte, están surgiendo aplicaciones aún más exigentes construidas con machine learning y deep learning para catapultar las demandas del sistema a nuevas alturas. Con todo este cambio en la línea de producción, el tic-tock usual de ajustes de código menores que acompañan las mejoras nominales en el rendimiento del hardware no puede continuar como de costumbre. Para muchas organizaciones de HPC, se deben tomar decisiones importantes.

Al darse cuenta de que estas demandas solo podían ser abordadas por un ecosistema abierto, IBM se asoció con otros líderes de la industria, Google, Mellanox, NVIDIA y otros para formar la Fundación OpenPOWER , dedicada a administrar la arquitectura Power CPU en la próxima generación.

Un enfoque de HPC centrado en los datos, con OpenPOWER

En 2014, este enfoque disruptivo a la innovación de HPC llevó a IBM a adjudicarse dos contratos para construir la próxima generación de supercomputadores como parte de la colaboración con el Departamento de Energía de EE. UU. De Oak Ridge, Argonne y Lawrence Livermore, o el programa CORAL (por su siglas en inglés). En asociación con NVIDIA y Mellanox, demostramos a CORAL que un acercamiento “centrado en los datos” hacia los sistemas – una arquitectura diseñada para incorporar potencia de cómputo en todos los lugares donde residen los datos, posicionando a los usuarios para una convergencia de análisis, modelado, visualización y simulación, que podría conducir a nuevas ideas a velocidades increíbles – podría ayudarlos a lograr sus objetivos. Ahora, en el tercer aniversario de ese acuerdo, nos complace anunciar que estamos cumpliendo nuestro proyecto, con nuestra próxima generación de IBM Power Systems con NVIDIA Volta GPU desplegadas en Oak Ridge y Lawrence Livermore National Labs.

Moviendo montañas

Ambos sistemas, Summit en ORNL y Sierra en LLNL, se están instalando mientras usted lee esto, y se espera que finalice a principios del próximo año. Ambos sistemas son impresionantes. Se espera que Summit aumente el rendimiento de las aplicaciones individuales de 5 a 10 veces respecto de Titan, la supercomputadora más antigua de Oak Ridge, y se espera que Sierra proporcione de 4 a 6 veces el rendimiento sostenido de Sequoia, la supercomputadora más antigua de Lawrence Livermore.

Con Summit en marcha, Oak Ridge National Labs avanzará en su misión declarada: “Ser capaces de abordar, con mayor complejidad y mayor fidelidad, preguntas referentes a quiénes somos, nuestro lugar en la tierra y en nuestro universo”. Pero aún más importante, los clusters los colocarán en el sitio para empujar los límites de uno de los desarrollos tecnológicos más importantes de nuestra generación: la inteligencia artificial (AI).

Construido para AI, construido para el futuro

Sin embargo, las cargas de trabajo AI emergentes son muy diferentes a las cargas de trabajo HPC tradicionales. Las medidas de rendimiento enumeradas anteriormente, aunque son interesantes, realmente no capturan los requisitos de rendimiento para los algoritmos de deep learning. Con las cargas de trabajo de inteligencia artificial, los cuellos de botella se alejan del cálculo y la red para acercarse al movimiento de datos a nivel de la CPU. Los sistemas IBM POWER9 están diseñados específicamente para estos desafíos emergentes.

“Estamos entusiasmados de ver un progreso acelerado a medida que la supercomputadora “Summit” del Laboratorio Nacional de Oak Ridge continúa tomando forma. La infraestructura ahora está completa y estamos empezando a implementar los nodos de procesamiento de IBM POWER9. Todavía estamos apuntando a principios de 2018 para la construcción final de la máquina Summit, que esperamos sea una de las supercomputadoras más rápidas del mundo. Las capacidades avanzadas de las CPU IBM POWER9 junto con las GPU NVIDIA Volta mejorarán significativamente el rendimiento computacional de las aplicaciones de misión crítica de DOE “, dice Buddy Bland, director de la instalación de cómputo de liderazgo de Oak Ridge.

POWER9 aprovecha PCIe Gen-4, la tecnología de próxima generación de interconexión NVIDIA NVLink, coherencia de memoria y más características diseñadas para maximizar el rendimiento de las cargas de trabajo de inteligencia artificial. Esto debería traducirse en un mayor rendimiento general y en escalas más grandes, al mismo tiempo que se reduce la afluencia del espacio debido a conteos de nodos excesivos y consumo de energía potencialmente fuera de control. Las proyecciones de los competidores muestran recuentos de nodos anticipados que exceden los 50,000 para entrar en territorio exascale; pero esto no es hasta el año 2021. Ya este año, IBM pudo aprovechar deep learning distribuido para reducir el tiempo de entrenamiento modelo de 16 días a 7 horas escalando TensorFlow y Caffe con éxito en 256 NVIDIA Tesla GPU. Estos nuevos sistemas cuentan con 100 veces más GPU distribuidas en miles de nodos, lo que significa que el único límite teórico para los puntos de referencia de deep learning que podemos establecer con estos nuevos supercomputadores es nuestra propia imaginación.

Obtenga una mirada entre bastidores a Summit registrándose en nuestro webinar

Para obtener más información sobre CORAL y Summit, regístrese en nuestro webinar donde Fausto Artico de IBM lo llevará a una profunda inmersión en el progreso del nuevo clúster. También explorará cómo se espera que los marcos de aprendizaje profundo como TensorFlow y Caffe funcionen en la supercomputadora, y más. Registrese aquí.

Las declaraciones de dirección representan la intención actual de IBM, están sujetas a cambio o retiro, y representan solo metas y objetivos.

 

[autopilot_shortcode]