Un jeu de données est une collection de données généralement organisées dans des tableaux, des matrices ou des formats spécifiques (tels que CSV ou JSON) pour en faciliter l’extraction et l’analyse. Les jeux de données sont essentiels pour l’analyse des données, le machine learning (ML), l’intelligence artificielle (AI) et d’autres applications exigeant des données fiables et accessibles.
Les organisations collectent aujourd’hui de vastes volumes de données provenant de diverses sources, notamment les interactions avec les clients, les transactions financières, les appareils IdO et les plateformes de réseaux sociaux.
Pour exploiter la valeur commerciale de toutes ces données, il faut souvent les organiser en jeux de données : des collections structurées qui rendent les informations accessibles à des fins d’analyse et d’application.
Les différents types de jeux de données stockent les données de diverses manières. Ainsi, les ensembles de données structurées organisent souvent les points de données dans des tableaux avec des lignes et des colonnes définies. Les jeux de données non structurés peuvent contenir différents formats tels que des fichiers texte, des images et des fichiers audio.
Bien que tous n’impliquent pas des données structurées, ils présentent toujours une certaine structure générale, qu’il s’agisse de schémas définis ou d’une syntaxe vaguement organisée dans des formats de données semi-structurés tels que JSON ou XML.
Voici quelques exemples de jeux de données :
Les organisations utilisent et maintiennent souvent plusieurs ensembles de données pour soutenir diverses initiatives métier, y compris l’analyse des données et la business intelligence (BI).
Le big data repose en particulier sur des jeux de données massifs et complexes pour apporter de la valeur. Lorsqu’ils sont correctement collectés, gérés et analysés à l’aide de l’analyse big data, ces ensembles de données peuvent aider à découvrir de nouvelles perspectives et favoriser la prise de décision fondée sur les données.
Récemment, l’essor de l’intelligence artificielle (IA) et du machine learning a encore accru l’importance accordée aux jeux de données. Les organisations ont besoin de données d’entraînement étendues et bien organisées pour développer des modèles de machine learning précis et affiner les algorithmes prédictifs.
Selon Gartner, 61 % des organisations déclarent devoir faire évoluer ou repenser leur modèle opérationnel de données et d’analyse en raison de l’impact des technologies d’IA.1
Bien que le terme « jeu de données » soit souvent utilisé au sens large, certaines qualités conditionnent le fait qu’une collection de données constitue un jeu de données. En général, ceux-ci présentent trois caractéristiques fondamentales : les variables, les schémas et les métadonnées.
Toutes les collections de données ne sont pas considérées comme des jeux de données. Les accumulations aléatoires de points de données sans rapport entre eux n’en constituent généralement pas sans une organisation et une structure adéquates pour permettre une analyse significative.
De même, si les interfaces de programmation des applications (API), les bases de données et les feuilles de calcul peuvent interagir avec des jeux de données ou en contenir, elles ne sont pas nécessairement des jeux de données en soi.
Les API permettent aux applications de communiquer entre elles, ce qui implique parfois l’accès à des ensembles de données et leur échange. Les bases de données et les feuilles de calcul sont des conteneurs d’informations, qui peuvent inclure des jeux de données.
Les organisations travaillent généralement avec trois types principaux de jeux de données, classés en fonction du type de données qu’elles traitent :
Les organisations combinent souvent plusieurs types de jeux de données pour soutenir des stratégies complètes d’analyse des données. Ainsi, une entreprise de vente au détail peut analyser des données de vente structurées en même temps que des avis de clients non structurés et des analyses Web semi-structurées pour mieux comprendre le comportement et les préférences de la clientèle.
Les jeux de données structurés organisent les informations dans des formats prédéfinis, généralement des tableaux avec des lignes et des colonnes clairement établies. Ces ensembles de données sont à la base de nombreux processus métier essentiels, tels que la gestion de la relation client (CRM) et la gestion des stocks.
Comme les jeux de données structurés suivent des schémas cohérents, ils permettent une interrogation rapide et une analyse fiable. Ils sont donc parfaits pour les outils de business intelligence et les systèmes de reporting qui exigent des données précises et quantifiables.
Voici quelques exemples de jeux de données structurées :
Les jeux de données non structurées contiennent des informations qui ne sont pas conformes aux modèles de données traditionnels ou à des schémas rigides. Bien qu’ils requièrent des outils de traitement plus sophistiqués, ces ensembles de données contiennent souvent des informations riches que les formats de données structurées ne peuvent pas exploiter.
Les organisations s’appuient sur des jeux de données non structurées pour alimenter les modèles d’intelligence artificielle et de machine learning. Ces ensembles de données fournissent les données diverses et réelles nécessaires pour entraîner les modèles d’IA et développer des capacités d’analyse plus avancées.
Voici quelques exemples de jeux de données non structurées :
Les jeux de données semi-structurées comblent le fossé entre les données structurées et les données non structurées. Bien qu’ils ne suivent pas de schémas rigides, ils intègrent une syntaxe définie ou des marqueurs pour aider à organiser les informations dans des formats flexibles mais analysables.
Cette approche hybride rend les ensembles de données semi-structurées très utiles pour les projets d’intégration de données modernes et les applications qui doivent traiter divers types de données tout en conservant une certaine structure organisationnelle.
Voici quelques exemples de jeux de données semi-structurées :
Les organisations collectent des données à partir de sources multiples pour constituer des jeux de données qui soutiennent diverses initiatives métier. Les sources de données peuvent directement conditionner la qualité et la fonctionnalité des ensembles de données.
Voici quelques-unes des sources de données les plus courantes :
Les référentiels de données sont des magasins centralisés de données. Les référentiels propriétaires abritent souvent des données sensibles ou stratégiques, telles que les dossiers clients, les transactions financières ou les indicateurs opérationnels qui procurent des avantages concurrentiels.
D’autres référentiels de données sont accessibles au public. Par exemple, une plateforme telle que GitHub héberge des jeux de données open source et du code. Les chercheurs et les organisations peuvent exploiter ces ensembles de données publiques pour collaborer ouvertement dans le cadre de modèles de machine learning et de projets de science des données.
Les bases de données sont des référentiels numériques optimisés pour le stockage sécurisé et la récupération aisée des données en cas de besoin.
Une base de données peut contenir un seul ou plusieurs jeux de données. Les utilisateurs peuvent rapidement extraire des points de données pertinents en exécutant des requêtes de base de données qui utilisent des langages spécialisés tels que le langage de requête structuré (SQL).
Les API connectent les applications logicielles afin qu’elles puissent communiquer. Les consommateurs de données peuvent se servir des API pour saisir des données en temps réel à partir de sources connectées, telles que des services Web et des plateformes numériques, et les canaliser vers d’autres applications et référentiels en vue de leur utilisation.
Les data scientists créent souvent des pipelines de collecte de données automatisés à l’aide de langages tels que Python, qui offre des bibliothèques robustes pour l’intégration des API et le traitement des données. Par exemple, un système d’analyse de la vente au détail peut employer ces pipelines automatisés pour collecter en continu les données d’achat des clients et les niveaux de stock des magasins de commerce électronique et des systèmes de gestion des stocks.
Des sites tels que Data.gov et des initiatives de données ouvertes au niveau des villes, comme New York City Open Data, offrent un accès gratuit à des jeux de données comprenant des indicateurs relatifs aux soins de santé, aux transports et à l’environnement. Les chercheurs peuvent les utiliser pour étudier tous les aspects de la vie, des schémas de transport aux tendances en matière de santé publique.
Qu’il s’agisse d’alimenter l’intelligence artificielle ou de permettre une compréhension fondée sur les données, les jeux de données sont au cœur de nombreuses initiatives commerciales et technologiques clés.
Voici quelques-unes des applications les plus courantes des jeux de données :
L’intelligence artificielle (IA) peut devenir un facteur de différenciation essentiel pour de nombreuses organisations.
Selon l’IBM Institute for Business Value, 72 % des PDG les plus performants estiment que leur avantage concurrentiel dépend de leur capacité à disposer de l’IA générative la plus avancée. Ces systèmes d’IA de pointe s’appuient sur de vastes jeux de données (étiquetées et non étiquetées) pour entraîner efficacement les modèles.
Avec des données d’entraînement complètes, les organisations peuvent développer des systèmes d’IA qui effectuent des tâches complexes telles que :
Les data scientists et les analystes utilisent des jeux de données pour extraire des informations précieuses et stimuler la découverte dans toutes les disciplines. Les organisations collectant plus de données que jamais, l’analyse des données est devenue indispensable pour tester des hypothèses, identifier des tendances et déceler des relations favorisant la prise de décisions stratégiques.
Les jeux de données sont souvent utilisés pour faciliter l’analyse des données :
Les organisations ont recours à la business intelligence (BI) pour découvrir les informations contenues dans les jeux de données et prendre des décisions en temps réel.
Les outils de BI peuvent aider à analyser différents types de données afin d’identifier les tendances, de contrôler les performances et de détecter de nouvelles opportunités. Voici quelques exemples d’applications :
Le traitement de jeux de données volumineux et complexes dans le cadre d’une initiative peut soulever plusieurs défis et questions. Ceux-ci incluent notamment :
Tous les liens sont externes au site ibm.com.
1 Organizations are evolving their D&A operating model because of AI technologies, Gartner, 29 avril 2024.
Obtenez des informations uniques sur l’évolution des solutions ABI, mettant en évidence les principales conclusions, hypothèses et recommandations pour les responsables des données et de l’analytique.
Simplifiez l’accès aux données et automatisez la gouvernance des données. Découvrez la puissance de l’intégration d’une stratégie de data lakehouse dans votre architecture de données, notamment l’optimisation des coûts de vos workloads et le dimensionnement de l’IA et des analyses, avec toutes vos données, partout.
Explorez le guide pour les responsables des données sur le développement d’une organisation axée sur les données et d’un avantage métier.
Découvrez comment une approche de type data lakehouse ouvert peut fournir des données fiables et accélérer l’exécution des analyses et des projets d’IA.
Alignez votre stratégie de données et d’analyse sur les objectifs de l’entreprise grâce à ces quatre étapes clés.
Examinez de plus près les raisons pour lesquelles les défis en matière de business intelligence peuvent persister et ce qu’ils signifient pour les utilisateurs au sein d’une organisation.
Pour prospérer, les entreprises doivent exploiter les données pour fidéliser leur clientèle, automatiser les processus métier et innover avec des solutions pilotées par l’IA.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.
Découvrez Cognos Analytics 12.0, des informations alimentées par l’IA pour une prise de décision plus éclairée.