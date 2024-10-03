La idea del cargador de datos de alto rendimiento surgió de los problemas prácticos que los científicos de investigación observaron durante el entrenamiento del modelo, ya que su trabajo requería una herramienta que pudiera procesar grandes cantidades de datos en varios dispositivos, todo ello manteniendo el ritmo de las GPU cada vez más eficientes. Como señala IBM en su blog sobre el lanzamiento, "todo gracias a un equipo de investigadores que simplemente estaban construyendo las herramientas que necesitaban para hacer un trabajo".

Davis Wertheimer, de IBM, explica algunos de los retos que pueden surgir durante la formación a gran escala: "Existe una especie de regla del 80/20 cuando se trata de formación a gran escala. El ochenta por ciento de toda la literatura publicada analiza las compensaciones algorítmicas entre la memoria de la GPU y la comunicación y la computación. Pero cuando realmente intentas construir algo, el 80 % de las veces, puedes depender de una cola muy larga de todos estos otros problemas prácticos porque la canalización funciona a la velocidad del cuello de botella más estrecho".

A medida que el equipo de IBM continuaba desarrollando su plataforma de formación, seguían encontrando cuellos de botella. "A medida que mejoramos en el uso de nuestras GPU, cada vez más a menudo el cuello de botella es el cargador de datos", observa Wertheimer.

Esta realización llevó a un proceso de desarrollo dual. "Ha habido un viaje paralelo de, por un lado, evolucionar nuestra plataforma de formación y, por otro lado, evolucionar constantemente nuestro cargador de datos para mantenerse al día con las demandas de velocidad de nuestra plataforma de formación para evitar cuellos de botella", explica.