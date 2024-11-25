Plusieurs entreprises, dont IBM et NVIDIA, ont récemment mis à disposition des outils open source pour aider les développeurs à s’attaquer à la tâche ardue de la préparation des données non structurées. Le Data Prep Kit d’IBM est une bibliothèque de modules qu’un développeur peut intégrer à son pipeline pour organiser les données, que ce soit au stade du pré-entraînement ou du réglage fin. Les modules fonctionnent avec des documents sources contenant des données non structurées telles que du texte (par exemple, un PDF) et du code (HTML) et peuvent être utilisés pour annoter, transformer et filtrer les données.

L’équipe IBM a mis ces outils en open source pour les rendre accessibles aux entreprises de toutes tailles, explique Zerfos. « Le développeur n’a rien à faire de particulier, qu’il l’exécute sur un ordinateur portable, un serveur ou un cluster », précise-t-il. « Il peut également fonctionner sur n’importe quelle infrastructure cloud. »

Depuis son lancement en mai 2024, les développeurs expérimentent le cadre des exigences du Data Prep Kit et ses modules, qui sont accessibles via GitHub. Plusieurs membres de l'Alliance IA, une communauté qui comprend des entreprises technologiques de toutes tailles, ont également commencé à tester la manière dont certains modules peuvent rationaliser et accélérer la formation et la mise au point, indique M. Zerfos.

Le géant du matériel et des logiciels d’IA, NVIDIA, a également récemment rendu open source une série de modules de préparation de données afin d’améliorer la précision des modèles d’IA générative . Le NVIDIA NeMo Curator traite des textes, des images et des données vidéo à l’échelle. Il fournit également des pipelines pré-créés pour générer des données synthétiques afin de personnaliser et d'évaluer les systèmes d'IA générative.

La déduplication est l'une des tâches que NeMo Curator de NVIDIA promet d' accélérer. Lors du téléchargement de données provenant de vastes sources de recherche web comme Common Crawl, il est courant que le modèle rencontre à la fois des documents qui sont des copies exactes les uns des autres et des documents quasi-doublons.

En utilisant une version à venir de NeMo Curator, les développeurs de l’outil affirment que les entreprises seront en mesure d’accomplir cette tâche de déduplication 20 fois plus vite et cinq fois moins cher qu’elles ne le font actuellement.

Forcément, l’open source de ces outils les rend plus largement accessibles. Les Enterprise IA teams, toutefois, ont besoin d'un certain niveau de compétence et de formation pour tirer parti de ces outils, mettent en garde des experts tels que Mark A. Beyer, un vice-président et analyste distingué chez Gartner.

« Le simple fait de donner un outil à quelqu'un sans conseils, méthodologies et fonctions à l'appui commence à se transformer en expérimentation », explique t-il. « Cela peut prendre quatre à cinq fois plus de temps que la simple exploitation des outils existants. »

Ben Lorica, animateur du podcast The Data Exchange, estime que les outils de préparation des données ont un grand potentiel, car les entreprises utilisent de plus en plus de données multimodales, même si nous n’en sommes qu’aux débuts.

« Comme vos applications s’appuient sur une quantité croissante de vidéo et d’audio en plus du texte, vous aurez besoin d’un outil qui vous permettra de dimensionner et d’utiliser des jeux de données plus importants et de profiter du matériel dont vous disposez », ajoute-t-il. « En particulier dans le monde des agents, les données seront un facteur de différenciation. Vous souhaitez accéder aux bonnes données au bon moment. »