Qu'est-ce que la science des données ?
Découvrez comment la science des données peut débloquer des informations commerciales, accélérer la transformation numérique et permettre une prise de décision basée sur les données
Un scientifique utilisant un ordinateur en laboratoire
Qu'est-ce que la science des données ?

La science des données associe les mathématiques et les statistiques, la programmation spécialisée, l'analyse avancée, l'intelligence artificielle (IA) et l'apprentissage automatique à une expertise dans un domaine spécifique afin de découvrir des informations exploitables cachées dans les données d'une organisation. Ces connaissances peuvent être utilisées pour guider la prise de décision et la planification stratégique.

L'accélération du volume des sources de données, et par conséquent des données, a fait de la science des données l'un des domaines dont la croissance est la plus rapide dans tous les secteurs. Pas étonnant, dès lors, que le rôle du spécialiste des données ait été qualifié de « job le plus sexy du 21e siècle » par la Harvard Business Review (lien externe à IBM). Les organisations comptent de plus en plus sur les spécialistes des données pour interpréter les données et fournir des recommandations exploitables afin d'améliorer les résultats commerciaux.

Le cycle de vie de la science des données implique divers rôles, outils et processus pour permettre aux analystes d'obtenir des informations exploitables. En général, un projet de science des données passe par les étapes suivantes :

  • Ingestion de données : Le cycle de vie commence par la collecte de données – des données brutes, structurées et non structurées, provenant de toutes les sources pertinentes et utilisant diverses méthodes. Ces méthodes peuvent inclure la saisie manuelle, l'extraction de données sur Internet et la diffusion en temps réel de données provenant de systèmes et de dispositifs. Les sources de données peuvent inclure des données structurées, telles que les données clients, ainsi que des données non structurées comme les fichiers journaux, la vidéo, l'audio, les images, l'Internet des objets (IoT), les médias sociaux, etc.
  • Stockage et traitement des données : Étant donné que les données peuvent avoir différents formats et structures, les entreprises doivent envisager différents systèmes de stockage en fonction du type de données à capturer. Les équipes de gestion des données contribuent à définir des normes en matière de stockage et de structure des données, ce qui facilite les flux de travail autour des modèles d'analyse, d'apprentissage automatique et d'apprentissage en profondeur. Cette étape comprend le nettoyage des données, la déduplication, la transformation et la combinaison des données à l'aide de tâches ETL (extract, transform, load) ou d'autres technologies d'intégration de données. Cette préparation des données est essentielle pour promouvoir la qualité des données avant leur chargement dans un entrepôt de données, un lac de données ou un autre référentiel.
  • Analyse des données : Les spécialistes des données effectuent une analyse exploratoire des données afin d'examiner les biais, les modèles, les plages et les distributions des valeurs au sein des données. Cette exploration de l'analyse des données permet de générer des hypothèses pour les tests a/b. Elle permet également aux analystes de déterminer la pertinence des données pour une utilisation dans le cadre des efforts de modélisation pour l'analyse prédictive, l'apprentissage automatique et/ou l'apprentissage en profondeur. En fonction de la précision d'un modèle, les organisations peuvent s'appuyer sur ces informations pour prendre des décisions commerciales, ce qui leur permet d'être plus évolutives.
  • Communication : Enfin, les informations sont présentées sous forme de rapports et d'autres visualisations de données qui facilitent la compréhension des informations – et de leur impact sur l'activité – par les analystes commerciaux et les autres décideurs. Un langage de programmation de science des données tel que R ou Python comprend des composants pour générer des visualisations. Les spécialistes des données peuvent également utiliser des outils de visualisation dédiés.
La science des données et les spécialistes des données

La science des données est considérée comme une discipline, tandis que les spécialistes des données sont les praticiens de ce domaine. Les spécialistes des données ne sont pas nécessairement directement responsables de tous les processus impliqués dans le cycle de vie de la science des données. Par exemple, les pipelines de données sont généralement gérés par les ingénieurs de données, mais le spécialiste des données peut faire des recommandations sur le type de données utiles ou nécessaires. Si les spécialistes des données peuvent construire des modèles d'apprentissage automatique, la mise à l'échelle de ces efforts à un niveau plus important nécessite davantage de compétences en ingénierie logicielle pour optimiser un programme afin qu'il s'exécute plus rapidement. Par conséquent, il est fréquent qu'un spécialiste des données s'associe à des ingénieurs en apprentissage automatique pour mettre à l'échelle les modèles d'apprentissage automatique.

Les responsabilités du spécialiste des données peuvent communément se chevaucher avec celles d'un analyste de données, notamment en ce qui concerne l'analyse exploratoire des données et la visualisation des données. Cependant, les compétences d'un spécialiste des données sont généralement plus larges que celles d'un analyste de données ordinaire. En comparaison, les spécialistes des données utilisent des langages de programmation courants, tels que R et Python, pour effectuer davantage d'inférences statistiques et de visualisation de données.

Pour accomplir ces tâches, les spécialistes des données doivent posséder des compétences en informatique et en sciences pures qui dépassent celles d'un analyste commercial ou d'un analyste de données typique. Le spécialiste des données doit également comprendre les spécificités de l'entreprise, comme la construction automobile, le commerce électronique ou les soins de santé.

En bref, un spécialiste des données doit être capable de :

  • Connaître suffisamment l'entreprise pour poser des questions pertinentes et identifier ses points sensibles.
  • Appliquer les statistiques et l'informatique, ainsi que les connaissances commerciales, à l'analyse des données.
  • Utiliser un large éventail d'outils et de techniques pour préparer et extraire des données, depuis les bases de données et le langage SQL jusqu'aux méthodes d'intégration des données, en passant par l'exploration des données.
  • Extraire des informations à partir de données volumineuses en utilisant l'analyse prédictive et l'intelligence artificielle (IA), notamment les modèles d'apprentissage automatiquele traitement du langage naturel et l'apprentissage en profondeur.
  • Écrire des applications qui automatisent le traitement des données et les calculs.
  • Raconter et illustrer des histoires qui transmettent clairement le sens des résultats aux décideurs et aux parties prenantes à tous les niveaux de connaissances et de compréhension techniques.
  • Expliquer comment ces résultats peuvent être utilisés pour résoudre des problèmes commerciaux.
  • Collaborer avec d'autres membres de l'équipe de science des données, tels que les analystes de données et les analystes commerciaux, les architectes informatiques, les ingénieurs de données et les développeurs d'applications.

Ces compétences sont très demandées et, par conséquent, beaucoup de personnes qui se lancent dans une carrière en science des données explorent une variété de programmes de science des données, tels que des programmes de certification, des cours de science des données et des programmes menant à un diplôme offerts par des établissements d'enseignement.

La science des données et l'aide à la décision

La « science des données » et « l'aide à la décision » (ou business intelligence) sont faciles à confondre, car les deux se rapportent aux données d'une entreprise et à l'analyse de ces données. Cependant, leurs objectifs diffèrent.

L'aide à la décision est un terme générique désignant la technologie qui met en œuvre la préparation, l'exploration, la gestion et la visualisation des données. Les outils et processus d'aide à la décision permettent aux utilisateurs finaux d'identifier des informations exploitables à partir de données brutes, facilitant ainsi une prise de décision déterminée par les données dans les entreprises de différents secteurs d'activité. Si les outils de science des données se recoupent en grande partie à cet égard, l'aide à la décision se concentre davantage sur les données du passé, et les informations fournies par ses outils sont de nature plus descriptive. Elle utilise les données pour comprendre ce qui s'est passé auparavant afin de définir un plan d'action. L'aide à la décision est axée sur des données statiques (non changeantes), généralement structurées. Si la science des données utilise des données descriptives, elle s'en sert généralement pour déterminer des variables prédictives, qui sont ensuite utilisées pour catégoriser les données ou faire des prévisions.

La science des données et l'aide à la décision ne s'excluent pas mutuellement. Les entreprises avisées utilisent les deux pour comprendre pleinement leurs données et en extraire de la valeur.

Outils de science des données

Les spécialistes des données s'appuient sur des langages de programmation populaires pour effectuer des analyses de données exploratoires et des régressions statistiques. Ces outils open source prennent en charge les modèles statistiques préconstruits, l'apprentissage automatique et les capacités graphiques. Ces langages sont les suivants (pour en savoir plus, consultez la page « Différence entre Python et R ») :

  • R Studio : Langage de programmation et environnement open source pour le développement de l'informatique et des graphiques statistiques.
  • Python : Langage de programmation dynamique et flexible. Le langage Python comprend de nombreuses bibliothèques, telles que NumPy, Pandas, Matplotlib, pour analyser rapidement les données.

Pour faciliter le partage du code et d'autres informations, les spécialistes des données peuvent utiliser GitHub et les notebooks Jupyter.

Certains spécialistes des données peuvent préférer une interface utilisateur. Voici deux outils communs d'entreprise pour l'analyse statistique :

  • SAS : Une suite d'outils complète, comprenant des visualisations et des tableaux de bord interactifs, pour l'analyse, la création de rapports, l'exploration de données et la modélisation prédictive.
  • IBM SPSS : Offre une analyse statistique avancée, une grande bibliothèque d'algorithmes d'apprentissage automatique, une analyse de texte, l'extensibilité de l'open source, l'intégration au big data et le déploiement transparent dans les applications.

Les spécialistes des données acquièrent également des compétences dans l'utilisation des plateformes de traitement des données volumineuses, telles que Apache Spark, le cadre open source Apache Hadoop et les bases de données NoSQL. Ils maîtrisent également une large gamme d'outils de visualisation de données, y compris les outils graphiques simples inclus avec les applications de présentation d'entreprise et de tableur, les outils de visualisation commerciaux intégrés tels que Tableau et IBM Cognos, et les outils open source tels que D3.js (une bibliothèque JavaScript pour créer des visualisations de données interactives) et des graphiques RAW. Pour créer des modèles d'apprentissage automatique, les spécialistes des données se tournent fréquemment vers plusieurs cadres de travail comme PyTorch, TensorFlow, MXNet et Spark MLib.

Compte tenu de la courbe d'apprentissage abrupte de la science des données, de nombreuses entreprises cherchent à accélérer le retour sur investissement de leurs projets d'IA ; elles ont souvent du mal à recruter les talents nécessaires pour réaliser le plein potentiel des projets de science des données. Pour combler cette lacune, elles se tournent vers les plateformes de science des données et d'apprentissage automatique (DSML) multipersonnelles, donnant naissance au rôle de « citoyen spécialiste des données ».

Les plateformes DSML multipersonnelles utilisent l'automatisation, les portails en libre-service et les interfaces utilisateur à faible code ou sans code afin que les personnes ayant peu ou pas de connaissances en technologie numérique ou en science des données experte puissent créer de la valeur commerciale en utilisant la science des données et l'apprentissage automatique. Ces plateformes soutiennent également les spécialistes des données experts en offrant une interface plus technique. L'utilisation d'une plateforme DSML multipersonnelle encourage la collaboration au sein de l'entreprise.

Science des données et cloud computing

Le cloud computing permet de mettre à l'échelle la science des données en donnant accès à une puissance de traitement, un stockage et d'autres outils supplémentaires nécessaires aux projets de science des données.

Étant donné que la science des données s'appuie fréquemment sur de grands ensembles de données, il est extrêmement important de disposer d'outils capables de s'adapter à la taille des données, en particulier pour les projets sensibles au facteur temps. Les solutions de stockage dans le cloud, telles que les lacs de données, donnent accès à une infrastructure de stockage capable d'ingérer et de traiter facilement de gros volumes de données. Ces systèmes de stockage offrent une certaine flexibilité aux utilisateurs finaux, en leur permettant de créer de grands clusters selon leurs besoins. Ils peuvent également ajouter des nœuds de calcul supplémentaires pour accélérer les travaux de traitement des données, ce qui permet à l'entreprise de faire des compromis à court terme pour un résultat plus important à long terme. Les plateformes cloud proposent généralement différents modèles de tarification comme le paiement à l'utilisation ou les abonnements pour répondre aux besoins de l'utilisateur final, qu'il s'agisse d'une grande entreprise ou d'une petite start-up.

Les technologies open source sont largement utilisées dans les ensembles d'outils de science des données. Lorsqu'elles sont hébergées dans le cloud, les équipes n'ont pas besoin de les installer, de les configurer, de les maintenir ou de les mettre à jour localement. Plusieurs fournisseurs de services cloud, dont IBM Cloud®, proposent également des kits d'outils pré-modularisés qui permettent aux spécialistes des données de créer des modèles sans avoir à coder, ce qui démocratise davantage l'accès aux innovations technologiques et à la connaissance des données. 

Cas d'utilisation de la science des données

Les entreprises peuvent tirer de nombreux avantages de la science des données. Elles peuvent par exemple optimiser leurs processus grâce à l'automatisation intelligente ou de mieux cibler leurs clients pour leur offrir une meilleure expérience. Mais il existe beaucoup d'autres cas d'utilisation.

Voici quelques cas d'utilisation représentatifs de la science des données et de l'intelligence artificielle :

  • Une banque internationale offre des services de prêt plus rapides grâce à une application mobile utilisant des modèles de risque de crédit basés sur l'apprentissage automatique et une architecture de cloud hybride à la fois puissante et sécurisée.
  • Une firme d'électronique développe des capteurs ultra-puissants imprimés en 3D qui guideront les véhicules autonomes de demain. La solution s'appuie sur des outils de science des données et d'analyse pour améliorer ses capacités de détection d'objets en temps réel.
  • Un fournisseur de solutions d'automatisation des processus robotiques (RPA) a développé une solution d'exploration de processus métier cognitive qui réduit les temps de traitement des incidents entre 15 % et 95 % pour ses entreprises clientes. La solution est formée pour comprendre le contenu et le sentiment des e-mails des clients, en dirigeant les équipes de service pour hiérarchiser ceux qui sont les plus pertinents et les plus urgents.
  • Une entreprise technologique spécialisée dans les médias numériques a créé une plateforme d'analyse d'audience qui permet à ses clients de savoir ce qui intéresse les téléspectateurs à qui l'on propose une gamme croissante de canaux numériques. La solution utilise des analyses approfondies et un apprentissage automatique pour recueillir des informations en temps réel sur le comportement des téléspectateurs.
  • Un service de police urbain a créé des outils d'analyse statistique des incidents pour aider les agents à comprendre quand et où déployer des ressources afin de prévenir la criminalité. La solution basée sur les données crée des rapports et des tableaux de bord pour augmenter l'appréciation de la situation pour les agents de terrain.
  • Shanghai Changjiang Science and Technology Development a utilisé la technologie IBM® Watson® pour créer une plateforme d'évaluation médicale basée sur l'IA qui peut analyser les dossiers médicaux existants pour classer les patients en fonction de leur risque de subir un accident vasculaire cérébral et qui peut prédire le taux de réussite de différents plans de traitement.
Solutions connexes
ModelOps

Synchronisez DevOps et ModelOps. Créez et mettez à l'échelle des modèles d'IA avec vos applications natives du cloud sur pratiquement n'importe quel cloud.

Explorer ModelOps
IA explicable

Améliorez l'interprétabilité de l'IA. Évaluez et atténuez les risques liés à l'IA. Déployez l'IA en toute confiance.

En savoir plus sur l'IA explicable
AutoAI

Créez et entraînez rapidement des modèles prédictifs de grande qualité. Simplifiez la gestion du cycle de vie de l'IA.

Explorer AutoAI
Ressources Autostrade per l'Italia

Autostrade per l'Italia a mis en œuvre plusieurs solutions IBM pour une transformation numérique complète afin d'améliorer sa façon de surveiller et de gérer son vaste éventail d'actifs d'infrastructure.

MANA Community

MANA Community s'est associé à IBM Garage pour créer une plateforme d'IA permettant d'exploiter d'énormes volumes de données environnementales provenant de multiples canaux numériques et de milliers de sources.

Pour aller plus loin

Le portefeuille de produits de science des données et de cycle de vie de l'IA d'IBM repose sur notre engagement de longue date envers les technologies open source et comprend une gamme de solutions qui permettent aux entreprises de libérer la valeur de leurs données sous de nouvelles formes. AutoAI, une nouvelle fonctionnalité de développement automatisé puissante dans IBM Watson® Studio, accélère la préparation des données, le développement de modèles et les étapes d'ingénierie des fonctionnalités du cycle de vie de la science des données. Elle permet aux spécialistes des données d'être plus efficaces et les aide à prendre des décisions plus éclairées sur les modèles les plus performants dans des cas d'utilisation réels. AutoAI simplifie la science des données d'entreprise dans n'importe quel environnement cloud.

Essayer IBM Watson® Studio