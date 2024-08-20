Les géants de la technologie misent gros sur les données synthétiques. NVIDIA a récemment annoncé Nemotron-4 340B, une famille de modèles ouverts conçus pour générer des données synthétiques afin de former de grands modèles de langage (LLM) dans divers secteurs. Cette initiative répond à un défi majeur dans le développement de l’IA : le coût prohibitif et la difficulté d’accès à des jeux de données robustes.

« Les données d’entraînement de haute qualité jouent un rôle essentiel dans les performances, la précision et la qualité des réponses d’un LLM personnalisé, écrit NVIDIA sur son blog. La famille Nemotron-4 340B comprend des modèles de fondation, d’instruction et de récompense qui forment un pipeline pour générer et affiner des données synthétiques, ce qui pourrait accélérer le développement de LLM puissants et spécifiques à un domaine.

Le chercheur d’IBM Akash Srivastava explique que dans le contexte des grands modèles de langage, des données synthétiques sont souvent générées par un modèle d’IA pour en entraîner ou personnaliser un autre. « Les chercheurs et les développeurs du secteur utilisent ces modèles pour générer des données destinées à des tâches spécifiques », note M. Srivastava.

Les chercheurs du laboratoire IBM Watson IA et de la recherche IBM ont récemment introduit une nouvelle approche pour améliorer les LLM en utilisant des données synthétiques. La méthode, appelée LAB (Large-scale Alignment for chatbot), vise à réduire la dépendance aux annotations humaines et aux modèles IA propriétaires comme GPT-4.

LAB utilise un processus de génération de données synthétiques guidé par une taxonomie et un cadre d’entraînement en plusieurs phases. Les chercheurs rapportent que « les modèles entraînés par LAB peuvent atteindre des performances compétitives sur plusieurs indicateurs de référence par rapport aux modèles entraînés avec des données synthétiques traditionnelles annotées par des humains ou générées par GPT-4. »

Pour démontrer l’efficacité de LAB, l’équipe a créé deux modèles, LABRADORITE-13B et MERLINITE-7B, qui auraient surpassé d’autres versions affinées des mêmes modèles de fondation sur plusieurs indicateurs clés. Les chercheurs ont employé le modèle open source Mixtral pour générer des données d’entraînement synthétiques, offrant ainsi une approche potentiellement plus rentable pour améliorer les LLM.

La qualité des données synthétiques est essentielle à leur efficacité. Raul Salles de Padua, directeur de l’ingénierie, de l’IA et du quantique chez Multiverse Computing, explique : « La fidélité des données synthétiques est calculée en les comparant à des données réelles à l’aide de tests statistiques et analytiques. Cela comprend une évaluation de la manière dont les données synthétiques préservent les propriétés statistiques clés, telles que les moyennes, les variances et les corrélations entre les variables. »

Malgré ses promesses, les données synthétiques présentent des défis. « Le défi des données synthétiques est de créer des données à la fois utiles et respectueuses de la vie privée, souligne M. De Padua : Si ces garanties ne sont pas mises en place, les données synthétiques pourraient révéler des informations personnelles, ce qui pourrait entraîner une usurpation d’identité, de la discrimination ou d’autres violations de la vie privée. »

Des recherches récentes ont mis en lumière des risques potentiels liés à une utilisation excessive des données synthétiques. Une étude récente publiée dans la revue Nature a révélé un phénomène appelé « effondrement du modèle ». Lorsque les modèles IA sont entraînés à répétition sur du texte généré par IA, leurs productions peuvent devenir de plus en plus absurdes, soulevant des inquiétudes quant à la viabilité à long terme de l’utilisation de données synthétiques, surtout à mesure que le contenu généré par IA devient plus répandu en ligne.

Les considérations éthiques sont également primordiales. M. de Padua met en garde contre « le risque que les données synthétiques ne représentent pas fidèlement la diversité de la population réelle, ce qui pourrait entraîner un biais potentiel dans les modèles qui ne fonctionnent pas de manière équitable pour les différents groupes démographiques ».