La idea del cargador de datos de alto rendimiento surgió de los problemas prácticos que los científicos de investigación observaron durante el entrenamiento del modelo, ya que su trabajo requería una herramienta que pudiera procesar grandes cantidades de datos en múltiples dispositivos, todo mientras se mantenía al día con GPU progresivamente eficientes. Como IBM Research señala en su blog sobre el lanzamiento, "todo gracias a un equipo de investigadores que simplemente estaban construyendo las herramientas que necesitaban para hacer un trabajo".

Davis Wertheimer de IBM Investigación explica algunos de los desafíos que pueden surgir durante el entrenamiento a gran escala: “Hay una especie de regla 80/20 cuando se trata de entrenamiento a gran escala. El ochenta por ciento de toda la literatura publicada analiza las compensaciones algorítmicas entre la memoria de GPU y la comunicación y la computación. Pero cuando realmente intentas construir algo, el 80 % de las veces, puedes depender de una cola muy larga de todos estos otros problemas prácticos porque el pipeline se ejecuta a la velocidad del cuello de botella más estrecho”.

A medida que el equipo de IBM desarrollaba su plataforma de capacitación, continuaron encontrando cuellos de botella. "A medida que mejoramos en el uso de nuestras GPU, cada vez más a menudo el cuello de botella es el cargador de datos", observa Wertheimer.

Esta realización llevó a un proceso de desarrollo dual. "Ha habido un proceso paralelo de, por un lado, evolucionar nuestra plataforma de entrenamiento y, por otro lado, evolucionar constantemente nuestro cargador de datos para mantenerse al día con las demandas de velocidad de nuestra plataforma de entrenamiento para evitar cuellos de botella", explica.