L’idée du chargeur de données à haut débit découle des problèmes pratiques observés par les chercheurs lors de l’entraînement des modèles, car leur travail nécessitait un outil capable de traiter de grandes quantités de données sur plusieurs appareils, tout en permettant de gérer des GPU à efficacité progressive. Comme le note IBM Research dans son blog consacré à cette publication, « tout cela est dû à une équipe de chercheurs qui construisaient simplement les outils dont ils avaient besoin pour accomplir leur travail ».

Davis Wertheimer d'IBM recherche explique certains des défis qui peuvent survenir lors d'une formation à grande échelle : « Il existe une sorte de règle des 80/20 en matière de formation à grande échelle. Quatre-vingts pour cent de la littérature publiée examine les compromis algorithmiques entre la mémoire GPU, la communication et le calcul. Mais lorsque vous essayez de construire quelque chose, dans 80 % des cas, vous pouvez dépendre d’un très grand nombre de problèmes pratiques, car le pipeline fonctionne à la vitesse du goulot d’étranglement le plus étroit. »

Au fur et à mesure que l'équipe IBM développait sa plateforme de formation, elle continuait à rencontrer des problèmes. « À mesure que nous améliorons l’utilisation de nos GPU, le goulot d’étranglement est de plus en plus souvent le chargeur de données », observe M. Wertheimer.

Cette prise de conscience a conduit à un double processus de développement. « Il y a eu un parcours parallèle, d'une part, pour faire évoluer notre plateforme d'entraînement, et, d'autre part, pour faire évoluer en permanence notre chargeur de données pour s'adapter aux exigences de vitesse de notre plateforme et éviter les goulots d'étranglement », explique-t-il.