Die Idee für den Hochdurchsatz-Datenlader entstand aus praktischen Problemen der Forschung, die Forscher während des Modelltrainings beobachteten, da ihre Arbeit ein Werkzeug erforderte, das große Datenmengen über mehrere Geräte hinweg verarbeiten konnte – und das alles bei zunehmend effizienten GPUs. Wie IBM Research in seinem Blog zur Veröffentlichung anmerkt, „ist das alles einem Team von Forschern zu verdanken, die einfach die Werkzeuge gebaut haben, die sie brauchten, um eine Aufgabe zu erledigen.“

Davis Wertheimer von IBM Research erläutert einige der Herausforderungen, die bei groß angelegtem Training auftreten können: „Bei groß angelegtem Training gilt so etwas wie die 80/20-Regel. Achtzig Prozent der gesamten veröffentlichten Literatur befassen sich mit algorithmischen Kompromissen zwischen GPU-Speicher und Kommunikation sowie Berechnung. Aber wenn Sie tatsächlich versuchen, etwas zu entwickeln, können Sie sich in 80 % der Fälle auf einen sehr langen Abschnitt all dieser anderen praktischen Probleme verlassen, weil die Pipeline mit der Geschwindigkeit des engsten Engpasses läuft.“

Während das IBM-Team seine Trainingsplattform entwickelte, stieß es weiterhin auf Engpässe. „Je besser wir unsere GPUs nutzen, desto häufiger ist der Datenlader der Flaschenhals“, bemerkt Wertheimer.

Diese Erkenntnis führte zu einem dualen Entwicklungsprozess. „Es gab eine parallele Entwicklung einerseits unserer Trainingsplattform und andererseits unseres Datenladers, um mit den Geschwindigkeitsanforderungen unserer Trainingsplattform Schritt zu halten und einen Engpass zu vermeiden“, erklärt er.