Accueil
Think
Thèmes
Partage de données
Date de publication : 30 août 2024
Contributeur : Tim Mucci
Le partage de données est le processus consistant à rendre les ressources de données d’une organisation disponibles pour plusieurs applications, utilisateurs et autres organisations. Un partage de données efficace implique une combinaison de technologies, de pratiques, de cadres juridiques et d’efforts organisationnels pour faciliter l’accès sécurisé de plusieurs entités sans compromettre l’intégrité des données.
Les organisations qui optent pour l’analytique big data considèrent les données comme un actif stratégique précieux dans leur portefeuille. Ces données proviennent de diverses sources, telles que les indicateurs dérivés des applications logicielles, les données sur le comportement des clients et les signaux de l’Internet des objets (IdO) provenant des appareils et des capteurs.
Voyez les données comme les livres d’une bibliothèque. Le partage de données revient à avoir une carte de bibliothèque qui permet à tous les membres de l’organisation d’accéder à ces livres et de les emprunter quand ils en ont besoin. Sans partage de données, chaque service devrait créer et gérer sa propre bibliothèque, ce qui entraînerait des doublons, des informations obsolètes et des ressources limitées.
Les organisations qui partagent leurs données peuvent collaborer plus efficacement avec leurs partenaires, créer de nouvelles opportunités commerciales, former de nouveaux partenariats et générer des flux de revenus par le biais de produits de données et d’autres formes de monétisation. Cependant, le partage de données nécessite un engagement : il est nécessaire de maintenir l’intégrité et la fiabilité des données partagées tout au long de leur cycle de vie, en veillant à ce qu’elles restent dignes de confiance, cohérentes et utiles pour une analyse précise. Un partage réussi des données permet aux parties prenantes d’obtenir des perspectives intéressantes, de développer des services et des technologies et de se préparer aux tendances à venir en analysant de très grandes quantités de données internes et externes à l’organisation.
Le guide du leader des données illustre comment chaque type de base de données répond aux besoins d’une organisation, selon qu’elle privilégie l’analytique, l’IA ou la performance des applications.
Les organisations partageaient des données bien avant l’invention d’Internet, mais les progrès en matière de littératie numérique, de technologie et d’adoption du cloud ont conduit à un partage de données en temps réel, à l’échelle mondiale. Les technologies de stockage et de transfert de données sont plus disponibles et plus abordables que jamais. Les politiques et les réglementations ont ainsi évolué, afin de réduire les risques associés au partage de données. Mais le partage de données ne se limite pas à permettre l’analyse et la monétisation : il fait également tomber les barrières entre les unités commerciales et les partenaires externes. Différentes équipes peuvent travailler indépendamment ou collaborer, chacune puisant dans la même source de données à jour. La quantité et la variété accrues de données disponibles permettent aux différentes équipes de contribuer à des objectifs organisationnels plus larges.
Associer des informations provenant de diverses sources, telles que des données de recherche, des données opérationnelles ou des commentaires de clients, améliore la performance des services et augmente leur valeur. Ainsi, les unités commerciales ayant accès aux données peuvent analyser des données pour prendre des décisions en s’appuyant sur les tendances du marché et les préférences des clients, et ainsi développer des stratégies marketing réussies.
De plus, le partage de données permet aux autorités publiques et aux organisations de partager leurs données de manière sécurisée, légale et régie. Pour favoriser la reproductibilité, les producteurs de données doivent impérativement documenter et étiqueter les jeux de données avec des métadonnées précises. Des descriptions détaillées avec des définitions claires garantissent que les données partagées pourront être facilement trouvées, découvertes et comprises.
Le groupe Future of Privacy Forum1 (FPF) a analysé les partenariats de partage de données entre les entreprises et les chercheurs universitaires et a déterminé qu’ils peuvent accélérer la recherche socialement bénéfique, élargir l’accès aux jeux de données à forte valeur et améliorer la reproductibilité des résultats de recherche. Alors que le partage de données se généralise, les parties prenantes prennent des mesures proactives pour faire face aux risques et aux violations de données, notamment au moyen d’accords de partage de données (DSA) et des technologies d’amélioration de la protection de la vie privée (PET).
IBM est un bon exemple d’utilisation de protocoles rigoureux de confidentialité et de sécurité dans ses pratiques de partage de données. Nous utilisons ainsi des PET pour anonymiser les données avant de les partager avec des universités, des organismes à but non lucratif et des laboratoires de recherche. L’approche IBM soutient la découverte scientifique tout en protégeant les données sensibles, favorisant ainsi des partenariats plus sûrs et plus efficaces. À titre d’exemple, nous avons collaboré avec Melbourne Water en Australie pour analyser des données visant à réduire les émissions énergétiques. During the COVID-19 pandemic, IBM processed SARS-CoV-2 genomic sequences, contributing over 3 million sequences to a research repository.
L’organisme à but non lucratif américain Benefits Data Trust est un autre cas d’utilisation convaincant de la valeur du partage de données. Benefits Data Trust (BDT) encourage le partage de données entre les États et les organisations impliqués dans les soins de santé et l’éducation aux États-Unis. Grâce à des accords de partage de données, BDT augmente les inscriptions aux programmes publics essentiels tels que le Supplemental Nutrition Assistance Program (SNAP) et Medicaid.
Le département des services sociaux de Caroline du Sud, avec BDT, a comparé les listes mensuelles Medicaid et SNAP afin d’identifier des personnes éligibles non inscrites au programme. Cette initiative a conduit à plus de 20 000 inscriptions au programme SNAP depuis 2015, améliorant ainsi l’accès à l’assistance nutritionnelle pour les populations vulnérables. Des initiatives similaires en Pennsylvanie ont également porté leurs fruits, le partage de données ayant permis d’inscrire environ 240 000 personnes à divers programmes d’aide publique depuis 2005.
Si le partage de données offre de nombreux avantages aux entreprises, il présente également des risques. Lorsque des informations sensibles sont mal distribuées, elles peuvent exposer une organisation à des risques réglementaires, concurrentiels, financiers et de sécurité. Les consommateurs de données ont un contrôle limité sur la qualité et la disponibilité des données. Les données de mauvaise qualité peuvent également contenir des biais cachés selon en matière de genre, d’origine, de religion ou de groupe ethnique.
Les processus de gouvernance des données établissent les politiques, les normes et les bonnes pratiques pour gérer les données de manière sécurisée, précise et cohérente au sein de l’organisation. Une gouvernance efficace limite l’accès afin que seuls les utilisateurs autorisés puissent utiliser les données. La gouvernance permet également de protéger et de classer les données, afin de veiller à ce qu’elles soient utilisées en toute conformité avec les organismes juridiques et réglementaires.
Chaque organisation a des obligations légales et éthiques de protéger la confidentialité des données des clients qu’elle gère. Des technologies telles que le chiffrement et la rédaction des données permettent un partage sécurisé des données tout en protégeant la vie privée. Cependant, un manque de communication entre les producteurs et les consommateurs de données peut conduire à des interprétations erronées, se traduisant alors par des hypothèses incorrectes lors de l’élaboration de rapports ou d’une prise de décision fondées sur les données.
Par exemple, en 2012, Knight Capital Group² a fait face à un problème de trading en raison d’un manque de communication et de coordination entre les équipes, ce qui lui a fait perdre 440 millions de dollars en seulement 45 minutes. Une mise à jour logicielle avait activé par inadvertance un logiciel embarqué non testé, non documenté et dormant. Les développeurs n’ayant pas communiqué efficacement les impacts potentiels des changements sur les systèmes des traders, des transactions erronées ont été exécutées à grande vitesse, entraînant d’importantes pertes financières.
Le transfert coûteux des données, notamment par le biais de processus d’extraction, de transformation et de chargement (ETL) gourmands en ressources, a toujours entravé le partage généralisé des données. Maintenir la qualité des données et suivre les bonnes pratiques en matière de gouvernance peut être un défi, en particulier lorsqu’il s’agit de grands volumes de données. Le partage en toute sécurité de grands jeux de données sur les réseaux prend du temps et est très technique. Cela nécessite des investissements importants en matière de stockage et d’infrastructure.
La sécurité des données nécessite des mesures de protection rigoureuses et une formation adéquate pour protéger les données sensibles. Les informations qui circulent sur les réseaux et les plateformes au cours des processus de partage de données sont vulnérables aux menaces, comme l’accès non autorisé, les violations de données et les cyberattaques. En outre, les organisations doivent respecter des lois et des réglementations complexes en matière de confidentialité des données lorsqu’elles partagent des données avec des partenaires, des parties prenantes ou des fournisseurs tiers externes.
La mise en œuvre de bonnes pratiques en matière de partage de données aide les organisations à maximiser les avantages tout en minimisant les risques.
Un marché de données permet aux organisations de partager et de monétiser en toute sécurité leurs données et produits de données. Il existe différents types de marchés de données :
Les marchés de données publiques offrent un environnement sécurisé aux participants pour acheter et vendre des données et des services connexes, attestant de la haute qualité et de la cohérence des fournisseurs de données. Les entreprises peuvent avoir recours à un marché de données pour acquérir des données tierces et enrichir leurs jeux de données existants ou proposer et monétiser de nouveaux produits et services de données.
Chaque type de partage de données remplit un rôle spécifique pour favoriser un échange d’informations sécurisé.
Les technologies de partage de données les plus utilisées par les entreprises sont les entrepôts de données et les data lakehouses. Ces systèmes d’architecture de données modernes fournissent des référentiels centraux pour la collecte, le stockage et le partage de données volumineuses provenant de plusieurs unités commerciales. Ces architectures comprennent généralement des niveaux pour les clients front-end, des moteurs d’analyse et des serveurs de base de données.
Les interfaces de programmation d’application (API) permettent aux composants logiciels de communiquer des définitions et des protocoles partagés. Les API de partage de données prennent en charge des autorisations et des contrôles d’accès précis, en spécifiant les données que les consommateurs peuvent et ne peuvent pas demander.
L’apprentissage fédéré, la technologie blockchain et les plateformes d’échange de données sont d’autres technologies qui permettent le partage des données. Grâce à l’apprentissage fédéré, les systèmes d’IA peuvent s’entraîner sur des jeux de données distribués provenant de diverses sources sans avoir à déplacer les données. La blockchain, elle, agit en tant que registre transparent et immuable pour le suivi des transactions, y compris celles sur les échanges de données ouverts, offrant une couche d’intégrité et de sécurité aux processus de partage de données.
Les technologies héritées telles que le protocole SFTP (Secure File Transfer Protocol) et la messagerie électronique offrent des solutions internes indépendantes des fournisseurs, mais sont de plus en plus difficiles à sécuriser et à gérer. En effet, elles ne disposent pas de fonctionnalités de sécurité avancées telles que le chiffrement au repos, les contrôles d’accès aux données granulaires et l’audit automatisé, que l’on rencontre plus souvent dans les solutions modernes.
Les solutions de données modernes privilégient le partage sécurisé des données, le stockage de données dans le cloud offrant évolutivité et fiabilité, mais avec des limites en termes d’accessibilité et de sécurité. Les solutions de partage de données spécifiques aux fournisseurs offrent une sécurité et une évolutivité intégrées, mais elles sont souvent soumises à un enfermement propriétaire, ce qui limite la flexibilité et augmente les coûts à long terme.
Les technologies améliorant la confidentialité, les data clean room et d’autres technologies renforcent les opérations de données grâce à l’automatisation. Ces tendances soulignent un intérêt soutenu pour la confidentialité, la décentralisation et les approches basées sur l’IA dans le traitement et l’analyse des données.
Les tendances futures en matière de partage de données soulignent l’importance croissante de la protection de la vie privée. Les technologies qui renforcent la protection de la vie privée, telles que le calcul multipartite sécurisé et le masquage des données, deviennent cruciales pour équilibrer le partage transparent des données et leur protection sécurisée. Ainsi, opter pour une PET donne aux entreprises un avantage concurrentiel, car ces outils deviennent partie intégrante des opérations.
Les salles blanches sont des environnements sécurisés axés sur la confidentialité dans lesquels plusieurs parties peuvent collaborer sur des données sans partager de données brutes. Elles permettent aux entreprises d’effectuer des analyses et d’obtenir des informations tout en protégeant les données sensibles, ce qui leur permet de rester conformes aux réglementations en matière de confidentialité. Les salles blanches contribuent à maintenir la confiance entre les partenaires en empêchant l’exposition d’informations personnelles et en permettant le partage de données agrégées et anonymisées.
Un data mesh permet à une organisation de traiter les données comme un produit, les rendant détectables et utilisables dans une structure en libre-service. Cette approche permet aux unités commerciales de créer et de gérer leurs produits de données de manière indépendante. Il offre également une vue centralisée des données sur différentes plateformes et technologies, améliorant ainsi la connectivité et les informations sans avoir besoin de plateformes de données distinctes.
Les grands modèles de langage (LLM) peuvent rationaliser l’ingénierie des données et les opérations en automatisant des tâches telles que le profilage, la modélisation et l’intégration des données, ce qui améliore la qualité des données. En déployant l’IA générative dans les infrastructures de données existantes, les organisations peuvent gérer les tâches de routine plus efficacement et libérer des ressources pour les analyses et les prises de décision plus complexes.
IBM Data Product Hub permet de rationaliser le partage des données et d’automatiser la livraison des produits de données aux consommateurs de données dans l’ensemble de l’organisation.
IBM Cloud Pak for Data améliore la qualité, la confidentialité et la conformité des données, et aide les utilisateurs à trouver plus rapidement les données dont ils ont besoin.
IBM watsonx.data est un magasin de données hybride et évolutif, conçu pour les workloads d’IA et d’analytique. Il offre un accès ouvert aux données, des moteurs de requête adaptés à chaque usage, ainsi qu’une intégration avec divers environnements de données, ce qui permet une préparation et une gestion efficaces des données dans n’importe quelle configuration, qu’elle soit cloud ou sur site.
Le partenariat d’IBM avec TechD utilise l’IA générative pour accéder à des informations et à des capacités de prise de décision basées sur les données, tout en préservant une confidentialité stricte.
Les solutions avancées de stockage des données sont essentielles pour assurer l’agilité, la sécurité et l’évolutivité des entreprises, tout en leur permettant de gérer et d’exploiter efficacement les données dans des environnements en constante évolution.
Une architecture data fabric simplifie l’accès aux données, élimine les silos et améliore la prise de décision en fournissant des données prêtes à l’emploi dans des environnements hybrides et multicloud.
1 Data sharing for research (lien externe à IBM.com), The Future of Privacy Forum, août 2022
2 Knight Capital Group stock trading disruption (lien externe à IBM.com), Wikipédia, août 2012