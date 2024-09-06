Les composants open source jouent un rôle critique dans la chaîne d’approvisionnement de l'IA. Seules les plus grandes entreprises ont accès aux vastes quantités de données nécessaires pour entraîner un modèle à partir de zéro, de sorte qu'elles doivent s'appuyer fortement sur des ensembles de données open source tels que LAION 5B ou Common Corpus. La taille de ces ensembles de données signifie également qu'il est extrêmement difficile de maintenir la qualité des données et de respecter les lois sur les droits d'auteur et la confidentialité. En revanche, de nombreux modèles d'IA générative classiques, comme ChatGPT, sont des boîtes noires en ce sens qu'ils utilisent leurs propres ensembles de données organisés. qui comporte son propre lot de défis en matière de sécurité.

Les modèles verticaux et propriétaires peuvent affiner les modèles de fondation open source avec une formation supplémentaire utilisant leurs propres ensembles de données. Par exemple, une entreprise développant un chatbot de service client de nouvelle génération pourrait utiliser ses précédents enregistrements de communication client pour créer un modèle adapté à ses besoins spécifiques. Ces données sont depuis longtemps la cible des cybercriminels, mais l'essor fulgurant de l'IA générative les a rendues d'autant plus attrayantes pour les acteurs malveillants.

En ciblant ces ensembles de données, les cybercriminels peuvent les empoisonner avec de la fausse information ou des codes et données malveillants. Ensuite, une fois que ces informations compromises entrent dans le processus d’entraînement des modèles d’IA, nous commençons à voir un effet domino couvrant l’ensemble du cycle de vie des logiciels d'IA. L'apprentissage d'un grand modèle linguistique (LLM) peut prendre des milliers d'heures et nécessiter une puissance de calcul considérable. C’est une initiative extrêmement coûteuse, tant sur le plan financier qu’environnemental. Toutefois, si les ensembles de données utilisés pour la formation ont été compromis, il y a de fortes chances que tout le processus doive repartir de zéro.