Les modèles de langage à grande échelle (LLM) open source sont très appréciés car ils permettent à chacun de les modifier et de les utiliser plus facilement. Mais les avantages de l'open source sont perdus si la préparation des données nécessaires pour entraîner et ajuster les modèles est coûteuse et prend du temps.
« Quand on parle de travailler avec l’IA, on commence toujours par les modèles, mais tout se termine finalement par les données », explique Petros Zerfos, chercheur principal en ingénierie des données pour l’IA générative chez IBM Research. Pour les entreprises, cela signifie souvent que les équipes d’IA passent plus de temps à préparer les données pour les modèles qu’à travailler sur les modèles eux-mêmes, explique Zerfos.
La solution ? Certaines grandes entreprises technologiques utilisent des outils de préparation de données en open source. Par exemple, le Data Prep Kit d’IBM et le NVIDIA NeMo Curator facilitent l'entraînement et l'affinage des LLM pour des entreprises de toutes tailles, leur permettant ainsi de tirer plus rapidement et plus de la valeur des applications d’IA plus rapidement et à moindre coût.
Alors que les entreprises se précipitent pour développer et déployer des LLM et des applications d’IA, l’un des principaux goulots d’étranglement est la préparation des données. De fait, 79 % des équipes d’IA d’entreprise interrogées dans le rapport Explore Data-Centric AI Solutions to Streamline AI Development de Gartner de 2023 ont déclaré que la tâche stratégique la plus courante qu’elles effectuent est la préparation et la génération de données.
La préparation des données se déroule généralement au cours de deux étapes clés du développement des LLM. Avant la formation, les modèles sont entraînés avec des centaines de téraoctets de données afin qu'ils puissent comprendre un anglais clair et acquérir suffisamment de connaissances et de nuances dans différents domaines. Selon Zerfos, le pré-entraînement de modèles à partir de zéro nécessite des centaines de personnes et des millions de dollars, de sorte que seules les très grandes entreprises — ou quelques startups bien capitalisées — ont les ressources nécessaires pour le faire.
Dans la deuxième étape de la préparation des données, les équipes d’IA utilisent de plus petits volumes de données ciblées pour affiner les LLM afin de générer un texte plus précis et plus pertinent. Certaines très grandes entreprises disposant de ressources importantes réalisent les deux phases, mais la plupart se concentrent sur la préparation des données pour affiner les modèles déjà élaborés par d’autres.
Plusieurs entreprises, dont IBM et NVIDIA, ont récemment mis à disposition des outils open source pour aider les développeurs à s’attaquer à la tâche ardue de la préparation des données non structurées. Le Data Prep Kit d’IBM est une bibliothèque de modules qu’un développeur peut intégrer à son pipeline pour organiser les données, que ce soit au stade du pré-entraînement ou du réglage fin. Les modules fonctionnent avec des documents sources contenant des données non structurées telles que du texte (par exemple, un PDF) et du code (HTML) et peuvent être utilisés pour annoter, transformer et filtrer les données.
L’équipe IBM a mis ces outils en open source pour les rendre accessibles aux entreprises de toutes tailles, explique Zerfos. « Le développeur n’a rien à faire de particulier, qu’il l’exécute sur un ordinateur portable, un serveur ou un cluster », précise-t-il. « Il peut également fonctionner sur n’importe quelle infrastructure cloud. »
Depuis son lancement en mai 2024, les développeurs expérimentent le cadre des exigences du Data Prep Kit et ses modules, qui sont accessibles via GitHub. Plusieurs membres de l'Alliance IA, une communauté qui comprend des entreprises technologiques de toutes tailles, ont également commencé à tester la manière dont certains modules peuvent rationaliser et accélérer la formation et la mise au point, indique M. Zerfos.
Le géant du matériel et des logiciels d’IA, NVIDIA, a également récemment rendu open source une série de modules de préparation de données afin d’améliorer la précision des modèles d’IA générative . Le NVIDIA NeMo Curator traite des textes, des images et des données vidéo à l’échelle. Il fournit également des pipelines pré-créés pour générer des données synthétiques afin de personnaliser et d'évaluer les systèmes d'IA générative.
La déduplication est l'une des tâches que NeMo Curator de NVIDIA promet d' accélérer. Lors du téléchargement de données provenant de vastes sources de recherche web comme Common Crawl, il est courant que le modèle rencontre à la fois des documents qui sont des copies exactes les uns des autres et des documents quasi-doublons.
En utilisant une version à venir de NeMo Curator, les développeurs de l’outil affirment que les entreprises seront en mesure d’accomplir cette tâche de déduplication 20 fois plus vite et cinq fois moins cher qu’elles ne le font actuellement.
Forcément, l’open source de ces outils les rend plus largement accessibles. Les Enterprise IA teams, toutefois, ont besoin d'un certain niveau de compétence et de formation pour tirer parti de ces outils, mettent en garde des experts tels que Mark A. Beyer, un vice-président et analyste distingué chez Gartner.
« Le simple fait de donner un outil à quelqu'un sans conseils, méthodologies et fonctions à l'appui commence à se transformer en expérimentation », explique t-il. « Cela peut prendre quatre à cinq fois plus de temps que la simple exploitation des outils existants. »
Ben Lorica, animateur du podcast The Data Exchange, estime que les outils de préparation des données ont un grand potentiel, car les entreprises utilisent de plus en plus de données multimodales, même si nous n’en sommes qu’aux débuts.
« Comme vos applications s’appuient sur une quantité croissante de vidéo et d’audio en plus du texte, vous aurez besoin d’un outil qui vous permettra de dimensionner et d’utiliser des jeux de données plus importants et de profiter du matériel dont vous disposez », ajoute-t-il. « En particulier dans le monde des agents, les données seront un facteur de différenciation. Vous souhaitez accéder aux bonnes données au bon moment. »