Temps de lecture
La fiabilité des systèmes d'IA dépend des données utilisées pour les développer. C’est pourquoi l’utilisation de données fiables et de haute qualité constitue une étape critique vers la création d’une IA responsable. L'évaluation de la fiabilité d'un ensemble de données peut s'avérer complexe, voire impossible, sans une transparence sur sa provenance, c'est-à-dire son origine, son développement et ses conditions d'utilisation légales et contractuelles, même pour les professionnels des données les plus expérimentés. L'absence d'une taxonomie standardisée des métadonnées pour les ensembles de données représente un obstacle significatif au sein de l'écosystème des données.
C'est pourquoi, lorsque la Data & Trust Alliance (D&TA) a entrepris le développement des toutes premières normes de provenance des données intersectorielles, IBM a été enthousiaste à l'idée de contribuer. Tout au long de l'année 2024, nous avons dirigé les premiers efforts de test et avons été parmi les premières organisations à commencer à aligner nos normes de données internes sur les normes de provenance des données, lorsque cela était approprié. Depuis l'annonce officielle de la version 1.0 des normes de provenance des données, trois mois après la fin de nos tests, nous constatons un impact constant et quantifiable sur l'efficacité globale de nos processus de diligence et de gestion des données.
IBM s'engage à développer et à déployer l'IA de manière responsable. Et cet engagement s'étend aux données que nous utilisons pour construire et entraîner nos systèmes d'IA. En tant que « client zéro », nous voulions évaluer les normes de provenance des données dans un environnement rigoureux afin de vraiment comprendre leur impact et de les mettre à l’épreuve de manière significative. Nous avons donc implémenté des éléments clés au sein de notre propre programme intégré de gouvernance (IGP) qui régit les données et les modèles développés et utilisés par IBM, en commençant par une évaluation de l’exhaustivité des normes. Pour ce faire, nous avons comparé les normes de provenance des données à nos propres exigences d'intégration des données pour les ensembles de données utilisés pour développer des modèles de fondation, et nous avons évalué dans quelle mesure la taxonomie des métadonnées des normes de provenance des données nous permettait de valider l'adéquation des données pour une variété de cas d'utilisation.
Dans un second temps, nous avons demandé à des data scientists et chercheurs IBM de différents niveaux d'expérience d'appliquer les normes de provenance des données à plusieurs types de données courants, notamment des données propriétaires IBM, des données tierces et des données contenant du matériel HAP (discours haineux, langage abusif et blasphèmes).
Pour finir, nous avons demandé à des experts de l'IBM Office of Privacy and Responsible Technology d'examiner l'exhaustivité et l'exactitude des soumissions de métadonnées conformément aux normes de provenance des données, en examinant les soumissions avec les data scientists et chercheurs afin de mieux comprendre leurs difficultés ou leurs confusions. Ces commentaires qualitatifs nous ont permis d'identifier précisément les termes, définitions et orientations qui étaient peu clairs ou ambigus.
L'impact le plus notable que nous avons observé depuis l'alignement plus étroit de nos normes de données internes avec les normes de provenance des données est une diminution du temps nécessaire pour traiter les demandes d'autorisation d'utilisation des données. Au cours des huit mois au cours desquels nous avons testé les normes de provenance des données et mis en œuvre d'autres améliorations technologiques et de processus, nous avons observé que le délai de traitement moyen des demandes d'autorisation d'utilisation des données a diminué de 58 % pour les données tierces et de 62 % pour les données propriétaires IBM. Cette amélioration est particulièrement importante, étant donné l'augmentation du nombre de demandes d'autorisation d'utilisation des données reçues par l'IGP. En août 2024, le nombre de demandes d'autorisation d'utilisation des données, tant pour les données tierces que pour les données propriétaires IBM, avait déjà dépassé le nombre total de demandes pour l'année 2023.
Cette amélioration de l'efficacité est très précieuse. Notre équipe de gouvernance des données est en mesure de traiter un plus grand nombre de demandes de données plus rapidement, ce qui nous permet d'étendre notre programme de gouvernance des données tout en respectant nos normes de confiance et de transparence . Voici quelques aspects des normes de provenance des données qui nous ont aidés à accélérer nos processus de diligence en matière de données :
Cela a un effet domino sur l'ensemble de notre entreprise. Lorsque les demandes d'autorisation d'utilisation des données sont précises et traitées plus efficacement, le développement des modèles s'accélère, permettant à nos équipes de répondre plus rapidement aux demandes des clients. Cela signifie également que notre catalogue de données autorisées à l'échelle de l'entreprise est en constante expansion et s'améliore constamment en qualité, ce qui permet une réutilisation plus efficace et responsable par nos praticiens dans toute l'entreprise.
Des métadonnées transparentes et cohérentes permettent aux praticiens de faire des choix plus rapides et plus éclairés en matière de sélection de données, ce qui peut conduire en fin de compte à des modèles et des systèmes plus responsables. Cela est vrai non seulement pour IBM, mais aussi pour tout l'écosystème des données. Une adoption plus large des normes de provenance des données peut apporter un retour sur investissement significatif grâce à une automatisation accrue et une innovation responsable.
Grâce à notre expérience « client zéro » avec les normes de provenance des données, nous renforçons notre engagement en faveur de la confiance en élevant la barre de la transparence sur les données qui sous-tendent nos systèmes d'IA. Notre expérience de l'administration de notre propre Programme de Gouvernance Intégré (IGP), notamment l'alignement plus étroit de nos normes de données internes avec les normes de provenance des données, nous permet de commercialiser l'IA plus rapidement et avec plus de confiance. Cela nous a également préparés à mieux accompagner nos clients dans la mise en œuvre de leurs propres cadres de gouvernance des données, notamment en ce qui concerne l'alignement sur les normes et cadres de référence du secteur, telles que les normes de provenance des données. Après tout, si nous pouvons le faire pour nous-mêmes, nous pouvons certainement aider nos clients à le faire aussi.
Consultez notre guide pour une introduction à la gouvernance de l'IA
Nous avons interrogé 2 000 entreprises à propos de leurs initiatives d’IA pour découvrir ce qui fonctionne, ce qui ne fonctionne pas et comment progresser.
IBM Granite est notre famille de modèles d’IA ouverts, performants et fiables, conçus pour les entreprises et optimisés pour dimensionner vos applications d’IA. Explorez les options de langage, de code, de séries temporelles et de garde-fous.
Accédez à notre catalogue complet de plus de 100 cours en ligne en souscrivant aujourd’hui un abonnement individuel ou multiutilisateur afin d’élargir vos compétences dans certains de nos produits à un prix avantageux.
Dirigé par des leaders d’opinion IBM, le programme a pour but d’aider les chefs d’entreprise à acquérir les connaissances nécessaires qui leur permettront d’orienter leurs investissements IA vers les opportunités les plus prometteuses.
Vous voulez obtenir un meilleur retour sur vos investissements dans l’IA ? Découvrez comment la mise à l’échelle de l’IA générative dans des domaines clés favorise le changement en aidant vos meilleurs éléments à créer et à fournir de nouvelles solutions innovantes.
Découvrez comment intégrer en toute confiance l’IA générative et le machine learning dans votre entreprise.
Explorez les trois éléments clés d’une stratégie d’IA réussie : créer un avantage concurrentiel, étendre l’IA à l’ensemble de l’entreprise et faire progresser l’IA digne de confiance.