Comment IBM améliore son efficacité opérationnelle grâce à une meilleure transparence de la provenance des données

4 novembre 2024

Temps de lecture

Auteurs

Christina Montgomery

Vice President, Chief Privacy & Trust Officer

La fiabilité des systèmes d'IA dépend des données utilisées pour les développer. C’est pourquoi l’utilisation de données fiables et de haute qualité constitue une étape critique vers la création d’une IA responsable. L'évaluation de la fiabilité d'un ensemble de données peut s'avérer complexe, voire impossible, sans une transparence sur sa provenance, c'est-à-dire son origine, son développement et ses conditions d'utilisation légales et contractuelles, même pour les professionnels des données les plus expérimentés. L'absence d'une taxonomie standardisée des métadonnées pour les ensembles de données représente un obstacle significatif au sein de l'écosystème des données.

C'est pourquoi, lorsque la Data & Trust Alliance (D&TA) a entrepris le développement des toutes premières normes de provenance des données intersectorielles, IBM a été enthousiaste à l'idée de contribuer. Tout au long de l'année 2024, nous avons dirigé les premiers efforts de test et avons été parmi les premières organisations à commencer à aligner nos normes de données internes sur les normes de provenance des données, lorsque cela était approprié. Depuis l'annonce officielle de la version 1.0 des normes de provenance des données, trois mois après la fin de nos tests, nous constatons un impact constant et quantifiable sur l'efficacité globale de nos processus de diligence et de gestion des données.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

IBM en tant que « client zéro » pour la mise en œuvre des normes de provenance des données

IBM s'engage à développer et à déployer l'IA de manière responsable. Et cet engagement s'étend aux données que nous utilisons pour construire et entraîner nos systèmes d'IA. En tant que « client zéro », nous voulions évaluer les normes de provenance des données dans un environnement rigoureux afin de vraiment comprendre leur impact et de les mettre à l’épreuve de manière significative. Nous avons donc implémenté des éléments clés au sein de notre propre programme intégré de gouvernance (IGP) qui régit les données et les modèles développés et utilisés par IBM, en commençant par une évaluation de l’exhaustivité des normes. Pour ce faire, nous avons comparé les normes de provenance des données à nos propres exigences d'intégration des données pour les ensembles de données utilisés pour développer des modèles de fondation, et nous avons évalué dans quelle mesure la taxonomie des métadonnées des normes de provenance des données nous permettait de valider l'adéquation des données pour une variété de cas d'utilisation.

Dans un second temps, nous avons demandé à des data scientists et chercheurs IBM de différents niveaux d'expérience d'appliquer les normes de provenance des données à plusieurs types de données courants, notamment des données propriétaires IBM, des données tierces et des données contenant du matériel HAP (discours haineux, langage abusif et blasphèmes).

Pour finir, nous avons demandé à des experts de l'IBM Office of Privacy and Responsible Technology d'examiner l'exhaustivité et l'exactitude des soumissions de métadonnées conformément aux normes de provenance des données, en examinant les soumissions avec les data scientists et chercheurs afin de mieux comprendre leurs difficultés ou leurs confusions. Ces commentaires qualitatifs nous ont permis d'identifier précisément les termes, définitions et orientations qui étaient peu clairs ou ambigus.

Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Comment la transparence des provenances des données se traduit par une plus grande efficacité opérationnelle

L'impact le plus notable que nous avons observé depuis l'alignement plus étroit de nos normes de données internes avec les normes de provenance des données est une diminution du temps nécessaire pour traiter les demandes d'autorisation d'utilisation des données. Au cours des huit mois au cours desquels nous avons testé les normes de provenance des données et mis en œuvre d'autres améliorations technologiques et de processus, nous avons observé que le délai de traitement moyen des demandes d'autorisation d'utilisation des données a diminué de 58 % pour les données tierces et de 62 % pour les données propriétaires IBM. Cette amélioration est particulièrement importante, étant donné l'augmentation du nombre de demandes d'autorisation d'utilisation des données reçues par l'IGP. En août 2024, le nombre de demandes d'autorisation d'utilisation des données, tant pour les données tierces que pour les données propriétaires IBM, avait déjà dépassé le nombre total de demandes pour l'année 2023.

Cette amélioration de l'efficacité est très précieuse. Notre équipe de gouvernance des données est en mesure de traiter un plus grand nombre de demandes de données plus rapidement, ce qui nous permet d'étendre notre programme de gouvernance des données tout en respectant nos normes de confiance et de transparence . Voici quelques aspects des normes de provenance des données qui nous ont aidés à accélérer nos processus de diligence en matière de données :

  • Méthode : décrit les procédures utilisées pour la collecte, la génération ou la compilation des données. Cet élément est important car les agrégateurs ne fournissent souvent pas ces détails, ce qui rend plus difficile l'évaluation de la fiabilité et de la validité des données.
  • Classification de la confidentialité : spécifie les types de données sensibles que l'on sait être présentes dans les données. Cette classification guide l'accès aux données et leur traitement approprié.
  • Source des données : indique l'origine des données et si le fournisseur est effectivement le propriétaire. Étant donné que des tiers peuvent republier des données comme s'il s'agissait des leurs, cette information permet d'assurer la responsabilité et ouvre une voie de contact pour toute demande potentielle.

Cela a un effet domino sur l'ensemble de notre entreprise. Lorsque les demandes d'autorisation d'utilisation des données sont précises et traitées plus efficacement, le développement des modèles s'accélère, permettant à nos équipes de répondre plus rapidement aux demandes des clients. Cela signifie également que notre catalogue de données autorisées à l'échelle de l'entreprise est en constante expansion et s'améliore constamment en qualité, ce qui permet une réutilisation plus efficace et responsable par nos praticiens dans toute l'entreprise.

Libérer de nouvelles valeurs commerciales grâce à la transparence de la provenance des données

Des métadonnées transparentes et cohérentes permettent aux praticiens de faire des choix plus rapides et plus éclairés en matière de sélection de données, ce qui peut conduire en fin de compte à des modèles et des systèmes plus responsables. Cela est vrai non seulement pour IBM, mais aussi pour tout l'écosystème des données. Une adoption plus large des normes de provenance des données peut apporter un retour sur investissement significatif grâce à une automatisation accrue et une innovation responsable.

Grâce à notre expérience « client zéro » avec les normes de provenance des données, nous renforçons notre engagement en faveur de la confiance en élevant la barre de la transparence sur les données qui sous-tendent nos systèmes d'IA. Notre expérience de l'administration de notre propre Programme de Gouvernance Intégré (IGP), notamment l'alignement plus étroit de nos normes de données internes avec les normes de provenance des données, nous permet de commercialiser l'IA plus rapidement et avec plus de confiance. Cela nous a également préparés à mieux accompagner nos clients dans la mise en œuvre de leurs propres cadres de gouvernance des données, notamment en ce qui concerne l'alignement sur les normes et cadres de référence du secteur, telles que les normes de provenance des données. Après tout, si nous pouvons le faire pour nous-mêmes, nous pouvons certainement aider nos clients à le faire aussi.

Consultez notre guide pour une introduction à la gouvernance de l'IA

Découvrir nos services de gouvernance de l’IA

Solutions connexes
IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct