Les piliers des entreprises modernes, tels que la prise de décision fondée sur les données, l’analyse des données et l’intelligence artificielle (IA), dépendent tous de la disponibilité de grandes quantités de données de qualité. L’acquisition de données permet de récupérer les données qui rendent possibles ces décisions et technologies éclairées. Si le concept peut sembler simple, il n’en est rien, en particulier à l’ère du big data.
De nos jours, les jeux de données sont volumineux et complexes. Ils peuvent atteindre plusieurs téraoctets ou pétaoctets, se présenter sous des formats structurés ou non structurés et provenir de sources diverses. Cette complexité rend difficile la gestion des volumes de données, de leur gouvernance et de leur sécurité tout au long du processus d’acquisition.
Cependant, lorsqu’il est mené efficacement, ce processus constitue une source précieuse pour les initiatives stratégiques. En effet, une étude de la Harvard Business Review a révélé que les entreprises qui parviennent à tirer parti du big data et de l’IA surpassent leurs concurrents sur les principaux indicateurs, notamment l’efficacité opérationnelle, la croissance du chiffre d’affaires et l’expérience client1.
Le terme « acquisition de données » peut également désigner spécifiquement la collecte de signaux physiques ou électriques qui mesurent les conditions du monde réel, généralement des données de capteurs. Il s’agit par exemple de mesures de température, de pression et d’autres phénomènes physiques.
Ces signaux sont traités et convertis en valeurs numériques utilisables à l’aide de dispositifs d’acquisition de données, ou dispositifs DAQ. Cette utilisation est courante dans des domaines tels que la surveillance environnementale, l’automatisation industrielle et la recherche scientifique.
Newsletter sectorielle
Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.
Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.
Selon l’US Geological Survey, il existe quatre méthodes d’acquisition de données2 :
La collecte de données implique la génération de données originales par des moyens directs tels que des enquêtes, des entretiens, des capteurs ou des appareils connectés à l’Internet des objets (IdO). Les entreprises utilisent fréquemment cette approche pour les études de marché ou la surveillance opérationnelle.
Cette méthode consiste à récupérer les données existantes d’une entreprise et à les convertir dans un format standardisé et utilisable. Ce processus peut aller de simples conversions de champs (telles que les dates) à une normalisation complexe pouvant nécessiter des compétences avancées en science des données.
L’échange de données implique le transfert de données entre différents systèmes et entreprises. Il peut se faire par le biais de programmes gouvernementaux de données ouvertes, d’échanges de données urbaines et de fournisseurs de données commerciales. Les mécanismes d’échange techniques comprennent les API, les transferts de fichiers, les pipelines de diffusion en continu et les plateformes basées sur le cloud.
Les entreprises peuvent également acheter des données externes sur des places de marché de données. Ces plateformes comblent le fossé entre acheteurs et vendeurs, offrant une disponibilité commerciale, une accessibilité et des avantages évolutifs. Leurs produits de données sélectionnés et prêts à l’emploi contribuent à réduire les frais généraux liés à la collecte de données.
Les entreprises peuvent collecter des données à partir d’un nombre pratiquement illimité de sources. Les données peuvent être structurées ou non structurées, internes ou externes. Voici quelques-unes des sources de données les plus courantes :
Les entreprises qui acquièrent des données ont plusieurs considérations à garder à l’esprit tout au long du processus d’acquisition :
La confidentialité des données, également appelée confidentialité des informations, repose sur l’idée que les personnes doivent avoir le contrôle sur la manière dont les entreprises collectent, stockent et utilisent leurs données personnelles. Lors de l’acquisition, les entreprises peuvent collecter des informations sur les utilisateurs, telles que leur adresse e-mail ou leurs données d’authentification biométrique. Il est essentiel qu’elles obtiennent le consentement des utilisateurs avant de traiter ces données, qu’elles les protègent contre toute utilisation abusive et qu’elles leur fournissent des outils pour les gérer activement.
De nombreuses entreprises sont légalement tenues de respecter ces pratiques en vertu de réglementations telles que le règlement général sur la protection des données (RGPD). Cependant, même en l’absence de lois officielles sur la confidentialité des données, la mise en œuvre de mesures en la matière présente certains avantages. Souvent, les pratiques et les outils qui protègent la vie privée des utilisateurs contribuent également à sécuriser les informations numériques contre l’accès non autorisé, la corruption ou le vol.
Garantir la qualité des données devrait être une priorité absolue pour les entreprises qui acquièrent des données provenant d’un large éventail de sources. Cette notion désigne la mesure dans laquelle un jeu de données répond à des critères d’exactitude, d’exhaustivité, de validité, de cohérence, d’unicité, d’actualité et de pertinence par rapport à la finalité prévue. Des données de haute qualité favorisent une prise de décision précise, équitable et efficace, en phase avec les objectifs de l’entreprise.
L’importance du contrôle de la qualité des données dépasse le cadre des opérations quotidiennes. Des données d’entraînement de haute qualité sont essentielles pour une adoption efficace de l’intelligence artificielle et de son automatisation. Cependant, le célèbre adage « de mauvaises données d’entrées donnent des résultats incorrects » (« garbage in, garbage out » en anglais) se vérifie largement, et ce, quel que soit le cas d’utilisation.
Lorsque les entreprises acquièrent des jeux de données provenant de sources diverses, elles doivent résoudre les problèmes de compatibilité avant de les charger dans leurs systèmes. Les pratiques de nettoyage des données et de normalisation garantissent que les données respectent un format et une structure cohérents, ce qui facilite leur compréhension et leur analyse en aval. Par exemple, les noms de rue contiennent généralement des indications, telles que Nord ou Ouest. La normalisation permet de formater ces valeurs en « N » ou « O ».
Les entreprises évoluant dans des secteurs fortement réglementés (tels que la finance ou la santé) peuvent être soumises à des règles et réglementations supplémentaires en matière de normalisation des données. La loi HIPAA, par exemple, a établi des jeux de données standard pour les diagnostics et les procédures, créant ainsi un langage commun pour les données de santé.
Avant d’acquérir des données, les entreprises doivent déterminer leurs besoins en matière de données et si le coût d’acquisition est justifié. Outre les coûts liés au nettoyage des données et à la normalisation, les entreprises doivent tenir compte des prix, des frais de licence (le cas échéant) et de tous les coûts supplémentaires indiqués dans les contrats d’achat.
Une acquisition efficace des données nécessite également une infrastructure robuste capable de traiter, gérer et stocker les données. Les entreprises peuvent être amenées à investir dans des domaines tels que le stockage, l’analyse, la sécurité et la gouvernance des données afin de garantir que celles-ci sont correctement stockées, gouvernées et utilisées.
Bien que souvent utilisées de manière interchangeable, les notions d’acquisition et de collecte de données ont des significations distinctes.
La collecte de données est le processus qui consiste à recueillir des informations brutes directement auprès de diverses sources, généralement effectué par des data scientists et des analystes de données. En revanche, l’acquisition de données est un terme plus large qui inclut la collecte de données. Cependant, elle implique également l’obtention de données par le biais d’autres méthodes, telles que les partenariats, les accords de licence, l’achat de données et la transformation de données existantes.
Selon 72 % des PDG les plus performants, l’obtention d’un avantage concurrentiel dépend de la mise en place d’une IA générative de pointe. Cependant, même les algorithmes de machine learning les plus sophistiqués ne sont efficaces que dans la mesure où les données sur lesquelles ils sont entraînés le sont également. Des données de haute qualité sont essentielles pour que les systèmes d’IA puissent apprendre, s’adapter et apporter une réelle valeur ajoutée.
Dans la pratique, cependant, il peut être difficile d’acquérir suffisamment de données pertinentes pour entraîner les modèles d’IA. Les préoccupations en matière de confidentialité, les coûts élevés et les contraintes légales ou réglementaires peuvent limiter l’accès à des méthodes et sources d’acquisition de données précieuses, telles que le web scraping ou les jeux de données publics. Dans certains cas, la réglementation peut interdire complètement la collecte de certains types de données pour des cas d’utilisation de l’IA.
Afin de pallier ces obstacles, de nombreuses entreprises se tournent vers les données synthétiques, c’est-à-dire des données générées artificiellement qui imitent les données du monde réel. Créées à l’aide de méthodologies statistiques ou de technologies d’intelligence artificielle avancées telles que l’apprentissage profond et l’IA générative, les données synthétiques offrent plusieurs avantages : une plus grande personnalisation, une acquisition plus efficace, une confidentialité accrue et des données globalement plus riches.
Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.
watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.
1 « Big on data: Study shows why data-driven companies are more profitable than their peers », étude de la Harvard Business Review réalisée pour Google Cloud, 24 mars 2023.
2 « Data Acquisition Methods », The US Geological Survey.