Qu’est-ce qu’un jeu de données ?

10 décembre 2024

Auteurs

Matthew Kosinski

Enterprise Technology Writer

Qu’est-ce qu’un jeu de données ?

Un jeu de données est une collection de données généralement organisées dans des tableaux, des matrices ou des formats spécifiques (tels que CSV ou JSON) pour en faciliter l’extraction et l’analyse. Les jeux de données sont essentiels pour l’analyse des données, le machine learning (ML), l’intelligence artificielle (AI) et d’autres applications exigeant des données fiables et accessibles.

Les organisations collectent aujourd’hui de vastes volumes de données provenant de diverses sources, notamment les interactions avec les clients, les transactions financières, les appareils IdO et les plateformes de réseaux sociaux.

Pour exploiter la valeur commerciale de toutes ces données, il faut souvent les organiser en jeux de données : des collections structurées qui rendent les informations accessibles à des fins d’analyse et d’application.

Les différents types de jeux de données stockent les données de diverses manières. Ainsi, les ensembles de données structurées organisent souvent les points de données dans des tableaux avec des lignes et des colonnes définies. Les jeux de données non structurés peuvent contenir différents formats tels que des fichiers texte, des images et des fichiers audio.

Bien que tous n’impliquent pas des données structurées, ils présentent toujours une certaine structure générale, qu’il s’agisse de schémas définis ou d’une syntaxe vaguement organisée dans des formats de données semi-structurés tels que JSON ou XML.

Voici quelques exemples de jeux de données :

  • Les jeux de données du service client permettent de suivre les interactions et les résolutions en matière d’assistance.
  • Les jeux de données de fabrication surveillent les indicateurs de performance des équipements.
  • Les jeux de données de ventes analysent les schémas de transaction et le comportement des consommateurs.
  • Les jeux de données marketing mesurent l’efficacité et l’engagement des campagnes.

Les organisations utilisent et maintiennent souvent plusieurs ensembles de données pour soutenir diverses initiatives métier, y compris l’analyse des données et la business intelligence (BI).

Le big data repose en particulier sur des jeux de données massifs et complexes pour apporter de la valeur. Lorsqu’ils sont correctement collectés, gérés et analysés à l’aide de l’analyse big data, ces ensembles de données peuvent aider à découvrir de nouvelles perspectives et favoriser la prise de décision fondée sur les données.

Récemment, l’essor de l’intelligence artificielle (IA) et du machine learning a encore accru l’importance accordée aux jeux de données. Les organisations ont besoin de données d’entraînement étendues et bien organisées pour développer des modèles de machine learning précis et affiner les algorithmes prédictifs.

Selon Gartner, 61 % des organisations déclarent devoir faire évoluer ou repenser leur modèle opérationnel de données et d’analyse en raison de l’impact des technologies d’IA.1

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Jeu de données : définition

Bien que le terme « jeu de données » soit souvent utilisé au sens large, certaines qualités conditionnent le fait qu’une collection de données constitue un jeu de données. En général, ceux-ci présentent trois caractéristiques fondamentales : les variables, les schémas et les métadonnées.

  • Les variables représentent les attributs ou caractéristiques spécifiques étudiés dans le jeu de données. Ainsi, les variables d’un jeu de données de ventes comprennent l’identifiant du produit, le prix et la date d’achat. Ces variables servent souvent de données d’entrée pour les algorithmes de machine learning et l’analyse statistique.
  • Les schémas définissent la structure d’un ensemble de données, y compris les relations et la syntaxe entre ses variables. Par exemple, le schéma d’un jeu de données tabulaires peut décrire les formats et les en-têtes de colonne du jeu de données (date, montant, catégorie, etc.). Un schéma JSON peut décrire des structures de données imbriquées telles que des profils de clients avec des attributs tels que le nom, l’adresse électronique et divers objets de l’historique des commandes.
  • Les métadonnées, ou données sur les données, fournissent un contexte essentiel sur le jeu de données, y compris des détails sur son origine, son objectif et les directives d’utilisation. Ces informations permettent de s’assurer que les ensembles de données restent interprétables et s’intègrent efficacement à d’autres systèmes.

Toutes les collections de données ne sont pas considérées comme des jeux de données. Les accumulations aléatoires de points de données sans rapport entre eux n’en constituent généralement pas sans une organisation et une structure adéquates pour permettre une analyse significative.

De même, si les interfaces de programmation des applications (API), les bases de données et les feuilles de calcul peuvent interagir avec des jeux de données ou en contenir, elles ne sont pas nécessairement des jeux de données en soi.

Les API permettent aux applications de communiquer entre elles, ce qui implique parfois l’accès à des ensembles de données et leur échange. Les bases de données et les feuilles de calcul sont des conteneurs d’informations, qui peuvent inclure des jeux de données.

Types de jeux de données

Les organisations travaillent généralement avec trois types principaux de jeux de données, classés en fonction du type de données qu’elles traitent :

  • Jeux de données structurées
  • Jeux de données non structurées
  • Jeux de données semi-structurées

Les organisations combinent souvent plusieurs types de jeux de données pour soutenir des stratégies complètes d’analyse des données. Ainsi, une entreprise de vente au détail peut analyser des données de vente structurées en même temps que des avis de clients non structurés et des analyses Web semi-structurées pour mieux comprendre le comportement et les préférences de la clientèle.

Jeux de données structurées

Les jeux de données structurés organisent les informations dans des formats prédéfinis, généralement des tableaux avec des lignes et des colonnes clairement établies. Ces ensembles de données sont à la base de nombreux processus métier essentiels, tels que la gestion de la relation client (CRM) et la gestion des stocks.

Comme les jeux de données structurés suivent des schémas cohérents, ils permettent une interrogation rapide et une analyse fiable. Ils sont donc parfaits pour les outils de business intelligence et les systèmes de reporting qui exigent des données précises et quantifiables.

Voici quelques exemples de jeux de données structurées :

  • les dossiers financiers organisés dans des feuilles de calcul Excel avec des champs définis pour les dates, les montants et les catégories ;
  • les bases de données clients avec des formats standardisés pour les coordonnées et l’historique des achats ;
  • les systèmes d’inventaire permettant de suivre les quantités, les emplacements et les mouvements des produits ;
  • les flux de données des capteurs fournissant des indicateurs uniformisés pour la surveillance des équipements et la maintenance prédictive.

Jeux de données non structurées

Les jeux de données non structurées contiennent des informations qui ne sont pas conformes aux modèles de données traditionnels ou à des schémas rigides. Bien qu’ils requièrent des outils de traitement plus sophistiqués, ces ensembles de données contiennent souvent des informations riches que les formats de données structurées ne peuvent pas exploiter.

Les organisations s’appuient sur des jeux de données non structurées pour alimenter les modèles d’intelligence artificielle et de machine learning. Ces ensembles de données fournissent les données diverses et réelles nécessaires pour entraîner les modèles d’IA et développer des capacités d’analyse plus avancées.

Voici quelques exemples de jeux de données non structurées :

  • les documents textuels, tels que les e-mails, les rapports et les pages Web ;
  • les images et les vidéos employées pour entraîner les modèles de machine learning ;
  • les enregistrements audio d’applications réelles ;
  • les journaux de conversation et les transcriptions du service client.

Jeux de données semi-structurées

Les jeux de données semi-structurées comblent le fossé entre les données structurées et les données non structurées. Bien qu’ils ne suivent pas de schémas rigides, ils intègrent une syntaxe définie ou des marqueurs pour aider à organiser les informations dans des formats flexibles mais analysables.

Cette approche hybride rend les ensembles de données semi-structurées très utiles pour les projets d’intégration de données modernes et les applications qui doivent traiter divers types de données tout en conservant une certaine structure organisationnelle.

Voici quelques exemples de jeux de données semi-structurées : 

  • les fichiers JSON, HTML et XML utilisés dans les applications Web et les API ;
  • les fichiers journaux contenant à la fois des champs formatés et du texte libre ;
  • les jeux de données publiques regroupant plusieurs formats de données pour une accessibilité accrue.
Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Les sources des jeux de données

Les organisations collectent des données à partir de sources multiples pour constituer des jeux de données qui soutiennent diverses initiatives métier. Les sources de données peuvent directement conditionner la qualité et la fonctionnalité des ensembles de données.

Voici quelques-unes des sources de données les plus courantes :

  • Référentiels de données
  • Bases de données
  • Interfaces de programmation des applications (API)
  • Plateformes de données publiques

Référentiels de données

Les référentiels de données sont des magasins centralisés de données. Les référentiels propriétaires abritent souvent des données sensibles ou stratégiques, telles que les dossiers clients, les transactions financières ou les indicateurs opérationnels qui procurent des avantages concurrentiels.

D’autres référentiels de données sont accessibles au public. Par exemple, une plateforme telle que GitHub héberge des jeux de données open source et du code. Les chercheurs et les organisations peuvent exploiter ces ensembles de données publiques pour collaborer ouvertement dans le cadre de modèles de machine learning et de projets de science des données.

Bases de données

Les bases de données sont des référentiels numériques optimisés pour le stockage sécurisé et la récupération aisée des données en cas de besoin.

Une base de données peut contenir un seul ou plusieurs jeux de données. Les utilisateurs peuvent rapidement extraire des points de données pertinents en exécutant des requêtes de base de données qui utilisent des langages spécialisés tels que le langage de requête structuré (SQL).

Interfaces de programmation des applications (API)

Les API connectent les applications logicielles afin qu’elles puissent communiquer. Les consommateurs de données peuvent se servir des API pour saisir des données en temps réel à partir de sources connectées, telles que des services Web et des plateformes numériques, et les canaliser vers d’autres applications et référentiels en vue de leur utilisation.

Les data scientists créent souvent des pipelines de collecte de données automatisés à l’aide de langages tels que Python, qui offre des bibliothèques robustes pour l’intégration des API et le traitement des données. Par exemple, un système d’analyse de la vente au détail peut employer ces pipelines automatisés pour collecter en continu les données d’achat des clients et les niveaux de stock des magasins de commerce électronique et des systèmes de gestion des stocks.

Plateformes de données publiques

Des sites tels que Data.gov et des initiatives de données ouvertes au niveau des villes, comme New York City Open Data, offrent un accès gratuit à des jeux de données comprenant des indicateurs relatifs aux soins de santé, aux transports et à l’environnement. Les chercheurs peuvent les utiliser pour étudier tous les aspects de la vie, des schémas de transport aux tendances en matière de santé publique.

Cas d’utilisation des jeux de données

Qu’il s’agisse d’alimenter l’intelligence artificielle ou de permettre une compréhension fondée sur les données, les jeux de données sont au cœur de nombreuses initiatives commerciales et technologiques clés.

Voici quelques-unes des applications les plus courantes des jeux de données :

  • Intelligence artificielle (IA) et machine learning (ML)
  • Analyse et informations sur les données
  • Business intelligence (BI)

Intelligence artificielle (IA) et machine learning (ML)

L’intelligence artificielle (IA) peut devenir un facteur de différenciation essentiel pour de nombreuses organisations.

Selon l’IBM Institute for Business Value, 72 % des PDG les plus performants estiment que leur avantage concurrentiel dépend de leur capacité à disposer de l’IA générative la plus avancée. Ces systèmes d’IA de pointe s’appuient sur de vastes jeux de données (étiquetées et non étiquetées) pour entraîner efficacement les modèles.

Avec des données d’entraînement complètes, les organisations peuvent développer des systèmes d’IA qui effectuent des tâches complexes telles que :

  • Traitement automatique du langage naturel (NLP) : les modèles NLP s’appuient sur des jeux de données en anglais et multilingues pour appréhender le langage humain et alimenter des applications telles que les grands modèles de langage (LLM), les chatbots, les services de traduction et les outils d’analyse de texte. Ainsi, un chatbot de service client peut analyser des ensembles de données de conversations d’assistance antérieures pour apprendre à répondre aux questions les plus fréquentes.
  • Vision par ordinateur : grâce à des jeux de données d’images étiquetées, l’IA peut apprendre à reconnaître des objets, des visages et des formes visuelles. La vision par ordinateur contribue à l’innovation dans les domaines des véhicules autonomes, de l’analyse de l’imagerie médicale, et plus encore. Par exemple, les systèmes d’IA dans le domaine de la santé peuvent analyser des jeux de données de scanners médicaux pour détecter avec une grande précision les signes précoces d’une maladie.
  • Analyse prédictive : l’analyse prédictive s’appuie sur des ensembles de données structurées pour entraîner des modèles permettant de prévoir des résultats dans le monde réel, tels que les prix de l’immobilier et la demande des consommateurs. Ces modèles de régression analysent les tendances des données historiques pour émettre des prévisions précises, par exemple en analysant des années de données de vente pour prévoir la demande saisonnière et optimiser les niveaux de stock.
  • Recherche : les systèmes d’IA peuvent traiter de vastes jeux de données de recherche afin de révéler de nouvelles informations et d’accélérer l’innovation. Les entreprises pharmaceutiques peuvent notamment exploiter l’IA pour analyser des ensembles de données moléculaires et identifier de nouveaux médicaments prometteurs plus rapidement qu’avec les méthodes traditionnelles.

Analyse et informations sur les données

Les data scientists et les analystes utilisent des jeux de données pour extraire des informations précieuses et stimuler la découverte dans toutes les disciplines. Les organisations collectant plus de données que jamais, l’analyse des données est devenue indispensable pour tester des hypothèses, identifier des tendances et déceler des relations favorisant la prise de décisions stratégiques.

Les jeux de données sont souvent utilisés pour faciliter l’analyse des données :

  • Reconnaissance des modèles : l’analyse avancée de vastes jeux de données peut révéler des tendances invisibles, des corrélations et des anomalies que les entreprises peuvent exploiter pour identifier les opportunités et atténuer les risques. Les entreprises de vente au détail peuvent ainsi découvrir des tendances d’achat pendant les fêtes de fin d’année en analysant les données relatives aux transactions.
  • Visualisation des données : les outils de visualisation transforment des jeux de données complexes en informations claires et exploitables à l’aide de diagrammes, de graphiques et de tableaux de bord afin de rendre les données plus accessibles. Une entreprise peut, par exemple, se servir de tableaux de bord interactifs pour afficher les tendances en matière de ventes et de revenus, permettant ainsi aux cadres de comprendre rapidement les indicateurs de performance et de prendre des décisions éclairées.
  • Analyse statistique : à l’aide de méthodes statistiques rigoureuses, les data scientists peuvent convertir des jeux de données brutes en informations quantifiables qui contribuent à mesurer l’importance des résultats et à les valider. Ainsi, les analystes financiers peuvent calculer des indicateurs clés à partir d’ensembles de données afin d’évaluer les performances du marché.
  • Tests d’hypothèses : les data scientists peuvent se servir de jeux de données expérimentales pour valider des théories et évaluer des solutions potentielles, fournissant ainsi des preuves à l’appui des décisions commerciales et de recherche. Par exemple, une société pharmaceutique peut analyser des ensembles de données d’essais cliniques pour déterminer l’efficacité d’un nouveau médicament.

Business intelligence (BI)

Les organisations ont recours à la business intelligence (BI) pour découvrir les informations contenues dans les jeux de données et prendre des décisions en temps réel.

Les outils de BI peuvent aider à analyser différents types de données afin d’identifier les tendances, de contrôler les performances et de détecter de nouvelles opportunités. Voici quelques exemples d’applications :

  • Surveillance en temps réel : grâce aux jeux de données et aux indicateurs clés de performance (KPI), les organisations peuvent bénéficier d’une vision continue de l’efficacité opérationnelle et de la performance du système. Ainsi, les entreprises de logistique se servent de la surveillance en temps réel pendant les périodes de pointe des fêtes de fin d’année pour suivre les délais de livraison et remédier rapidement aux retards.
  • Analyse du comportement des clients : les jeux de données sur les transactions et l’engagement peuvent aider à dévoiler les habitudes d’achat et les préférences des clients. Les organisations peuvent ensuite exploiter ces informations pour élaborer des stratégies de marketing ciblées et améliorer l’expérience client à tous les points de contact.
  • Analyse des séries temporelles : grâce aux jeux de données séquentielles et historiques, les entreprises sont plus à même de suivre les tendances et les modèles de performance au fil du temps. Les fournisseurs d’énergie, par exemple, analysent les données temporelles pour prévoir les pics de demande d’électricité et y répondre, améliorant ainsi la fiabilité du réseau et le service client.
  • Optimisation de la chaîne d’approvisionnement : les jeux de données intégrés peuvent aider les entreprises à rationaliser la logistique et la gestion des fournisseurs. Les détaillants peuvent notamment analyser les niveaux de stock, les données d’expédition et les indicateurs de performance des fournisseurs afin d’optimiser les calendriers de réapprovisionnement et de réduire les coûts de transport.

Considérations relatives aux jeux de données

Le traitement de jeux de données volumineux et complexes dans le cadre d’une initiative peut soulever plusieurs défis et questions. Ceux-ci incluent notamment :

  • La qualité des données : la préservation de l’intégrité et de la qualité des jeux de données est essentielle. Des données incomplètes ou inexactes peuvent en effet conduire à des résultats trompeurs. Par exemple, un nouvel ensemble de données dont les formats ne sont pas cohérents d’une colonne à l’autre peut perturber les workflows et fausser l’analyse. Les techniques de validation telles que la standardisation des formats et la suppression des doublons peuvent contribuer à garantir l’exactitude et la cohérence des données à mesure qu’elles évoluent.
  • L’interopérabilité et l’intégration des données : l’intégration de jeux de données provenant de sources ou de formats différents peut représenter un défi, comme la fusion de fichiers CSV avec des données JSON. La création d’un schéma unifié ou la standardisation des formats de données peut aider à relever ces défis et à harmoniser les structures de données afin de garantir la compatibilité des systèmes.
Notes de bas de page

Tous les liens sont externes au site ibm.com.

Organizations are evolving their D&A operating model because of AI technologies, Gartner, 29 avril 2024. 

Solutions connexes
Outils et solutions d’analyse

Pour prospérer, les entreprises doivent exploiter les données pour fidéliser leur clientèle, automatiser les processus métier et innover avec des solutions pilotées par l’IA.

Explorer les solutions d’analytique
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
IBM Cognos Analytics

Découvrez Cognos Analytics 12.0, des informations alimentées par l’IA pour une prise de décision plus éclairée.

Découvrir Cognos Analytics
Passez à l’étape suivante

Pour prospérer, les entreprises doivent exploiter les données pour fidéliser leur clientèle, automatiser les processus métier et innover avec des solutions pilotées par l’IA.

Explorer les solutions d’analytique Découvrir les services d’analytique