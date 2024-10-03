A ideia do carregador de dados de alta taxa de transferência surgiu de questões práticas que os cientistas de pesquisa observaram durante o treinamento de modelos, pois seu trabalho exigia uma ferramenta que pudesse processar grandes quantidades de dados em vários dispositivos, tudo isso enquanto acompanhava GPUs progressivamente eficientes. Como IBM Research observa em seu blog sobre o lançamento, “Tudo isso é graças a uma equipe de pesquisadores que estavam simplesmente construindo as ferramentas de que precisavam para realizar um trabalho”.

Davis Wertheimer, da IBM Research, explica alguns dos desafios que podem surgir durante o treinamento em grande escala: "Quando se trata de treinamento em grande escala, existe uma espécie de regra 80/20. Oitenta por cento de toda a literatura publicada analisa os compromissos algorítmicos entre a memória da GPU e a comunicação e a computação. Mas quando você realmente tenta construir algo, 80% do tempo, você pode contar com uma fila muito longa de todas essas outras questões práticas, porque o pipeline funciona na velocidade do gargalo mais estreito."

À medida que a equipe da IBM desenvolvia sua plataforma de treinamento, eles continuaram encontrando gargalos. “À medida que melhoramos cada vez mais o uso de nossas GPUs, cada vez mais o gargalo é o carregador de dados”, observa Wertheimer.

Essa percepção levou a um processo de desenvolvimento duplo. "Houve uma jornada paralela de, por um lado, evoluir nossa plataforma de treinamento e, por outro lado, evoluir constantemente nosso carregador de dados para acompanhar as demandas de velocidade de nossa plataforma de treinamento para evitar gargalos", explica.