Qu’est-ce que la diffusion de données en continu ?

Photographie aérienne de plusieurs rivières dans un paysage

Auteurs

Annie Badman

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

Qu’est-ce que la diffusion de données en continu ?

La diffusion de données en continu est le flux continu de données en temps réel provenant de diverses sources. Contrairement au traitement par lots, qui traite les jeux de données à intervalles réguliers, les données en continu sont traitées dès leur arrivée pour obtenir des informations immédiates en temps réel.

Les entreprises génèrent aujourd’hui de grands volumes de données sur tous les sujets, des appareils de l’Internet des objets (IdO) aux transactions de commerce électronique. Également appelée « streaming de données » ou « streaming de données en temps réel », la diffusion en continu de données permet aux entreprises de traiter ces flux de données continus dès leur arrivée.

En voici quelques exemples :

  • Données des marchés financiers qui suivent les cours des actions et l’activité de trading
  • Les relevés des capteurs IdO surveillent les performances des équipements
  • Les flux d’activité des réseaux sociaux capturent l’engagement des utilisateurs
  • Données de parcours de navigation sur les sites Web révélant les habitudes de comportement des visiteurs

Les entreprises se servent souvent des données en continu pour soutenir des initiatives commerciales qui reposent sur des données en temps réel pour une prise de décision rapide et fondée sur les données, telles que l’analyse des données et la business intelligence (BI).

Les données en continu font souvent partie des efforts de collecte et de traitement du big data. Ainsi, les entreprises peuvent analyser des flux de données continus à l’aide de l’analyse du big data pour mieux comprendre l’efficacité opérationnelle, les tendances de consommation et l’évolution de la dynamique du marché.

Parce qu’elles circulent en continu, ces données exigent des méthodes de traitement différentes de celles du traitement par lots traditionnel. Celles-ci incluent souvent des architectures de streaming évolutives et des processeurs de flux qui gèrent l’ingestion, le traitement et l’analyse des données tout en assurant des performances optimales.

Ces dernières années, l’essor de l’intelligence artificielle (IA) et du machine learning a encore renforcé l’intérêt pour les capacités de diffusion de données en continu. Ces technologies s’appuient souvent sur le traitement des données en continu pour générer des informations et des prévisions en temps réel.

Selon Gartner, 61 % des organisations déclarent devoir faire évoluer ou repenser leur modèle opérationnel de données et d’analyse en raison de l’impact des technologies d’IA.1

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets. 

Diffusion de données en continu et traitement par lots

Les organisations peuvent traiter les données de deux manières principales : le traitement par lots ou la diffusion en continu des données.

Si les deux méthodes permettent de traiter de grands volumes de données, elles servent des cas d’utilisation différents et impliquent des architectures distinctes.

Les principales différences sont les suivantes :

  • Modèle de traitement : le traitement par lots regroupe et analyse les jeux de données par lots à intervalles fixes, tandis que la diffusion en continu des données s’appuie sur des outils de traitement des données en temps réel pour traiter les données à mesure qu’elles affluent. Cela signifie que les systèmes de diffusion en continu peuvent fournir des informations et prendre des mesures immédiatement, tandis que les systèmes par lots fonctionnent au rythme d’un calendrier périodique.

  • Besoins en infrastructure : les systèmes par lots emploient souvent des outils traditionnels de stockage et d’analyse des données tels que les entrepôts de données, tandis que la diffusion en continu exige des cadres spécialisés et des plateformes de diffusion en continu de données conçues pour gérer les flux de données en temps réel.

  • Exigences de performance : les systèmes par lots peuvent optimiser l’utilisation des ressources pendant les exécutions planifiées, tandis que le traitement en continu nécessite des systèmes tolérants aux pannes et à faible latence. En d’autres termes, les systèmes de streaming doivent traiter les données en temps réel sans délai, même lorsque les volumes de données sont importants ou que des problèmes surviennent.

Les entreprises choisissent généralement entre le traitement par lots et le traitement en continu en fonction des volumes de données, de leurs besoins en matière de latence et de leurs objectifs métier. Beaucoup combinent les deux approches au sein d’une data fabric unifiée pour gérer différents types de tâches.

Par exemple, une entreprise de commerce électronique peut employer le traitement par lots pour générer des rapports de vente quotidiens, tout en utilisant la diffusion de données en continu et des systèmes d’analytique en temps réel pour surveiller les indicateurs clés de son site Web.  

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Fonctionnement de la diffusion des données en continu

Globalement, la diffusion de données en continu consiste à recueillir, traiter et analyser en continu des flux de données en temps réel provenant de diverses sources. Ce processus comporte quatre étapes clés :

  • Ingestion de données
  • Traitement de flux
  • L’analyse des données
  • Stockage de données

Ingestion de données

La première étape consiste à saisir les flux de données entrants provenant de diverses sources. Les outils modernes d’ingestion de données tels qu’Apache Kafka mettent en mémoire tampon et standardisent ces flux à mesure qu’ils arrivent, ce qui contribue à garantir à la fois l’évolutivité et la cohérence des données.

Les entreprises intègrent généralement les outils d’ingestion de données à d’autres composants pour créer des workflows unifiés. Les outils d’intégration de données peuvent également harmoniser des types de données disparates dans un format standardisé pour le traitement, garantissant ainsi que les données provenant de sources multiples peuvent être efficacement compilées et analysées.

Traitement de flux

Lors de l’étape de traitement, les cadres de traitement de flux tels qu’Apache Flink analysent et convertissent les données en temps réel. Grâce à ces cadres, les entreprises peuvent :

  • Traitement des événements complexes en temps réel

  • Agrégation de données à grande échelle, par exemple pour calculer des moyennes, compter des événements ou additionner des valeurs de transaction

  • Appliquer des transformations (telles que le filtrage, l’enrichissement ou le formatage des données) à mesure que les données circulent dans le pipeline de données.

Analyse et visualisation des données

À ce stade, les entreprises tirent des informations métier exploitables de la diffusion des données en continu grâce à la visualisation des données et à d’autres outils d’analyse.

Voici quelques-unes des principales applications :

  • Tableaux de bord en temps réel fournissant des indicateurs et des KPI essentiels

  • Applications opérationnelles qui automatisent les workflows et optimisent les processus

  • Modèles de machine learning qui analysent les tendances pour prédire les résultats

Stockage de données

Lorsqu’elles stockent des données en continu, les organisations doivent trouver un équilibre entre la nécessité d’accéder rapidement aux données pour une utilisation en temps réel et le stockage, la rentabilité et la conformité des données à long terme.

De nombreuses organisations utilisent des data lakes et des data lakehouses pour stocker des données en continu, car ces solutions offrent des environnements de stockage flexibles et peu coûteux pour de gros volumes de données. Une fois les données en continu recueillies, elles peuvent être envoyées vers un entrepôt de données, où elles peuvent être nettoyées et préparées en vue de leur utilisation.  

Les organisations mettent souvent en œuvre plusieurs solutions de stockage de données au sein d’une data fabric unifiée. Les institutions financières, par exemple, peuvent faire appel à des data lakes pour stocker les flux de transactions brutes, tout en s’appuyant sur des entrepôts pour l’analyse et le reporting.

Types de diffusion de données en continu

Les entreprises peuvent exploiter de nombreux types de données en continu pour prendre des décisions et réaliser des analyses en temps réel. Voici quelques-uns des flux de données en continu les plus courants :

Flux d’événements

Les flux d’événements capturent les actions ou les changements du système au fur et à mesure qu’ils se produisent, tels que les appels d’interface de programmation des applications (API), les clics sur les sites Web ou les entrées de journal d’application. Les flux d’événements sont fréquemment employés pour suivre les activités en temps réel dans les systèmes, ce qui permet de réagir instantanément aux interactions des utilisateurs ou aux événements système.

Données de transaction en temps réel

Les données transactionnelles en temps réel capturent les flux continus de transactions commerciales, telles que les paiements numériques ou les achats en ligne. Celles-ci alimentent des applications telles que la détection des fraudes et la prise de décision instantanée.

Données IdO et de capteur

Les données IdO et de capteur comprennent des informations sur les conditions environnementales, les performances des équipements et les processus physiques. Ces flux de données permettent souvent de surveiller les équipements et d’automatiser les processus en temps réel.

Cas d’utilisation de la diffusion de données en continu

Grâce à la diffusion de données en continu, les organisations peuvent traiter de grands volumes d’informations en temps réel pour en tirer des enseignements et prendre des mesures immédiates.

Les applications courantes incluent :

Services financiers

Les institutions financières s’appuient fréquemment sur l’analyse en continu pour traiter les données de marché, les transactions et les interactions avec les clients.

Par exemple, les émetteurs de cartes bancaires s’appuient sur la diffusion de données en continu pour détecter les fraudes. Les plateformes de diffusion de données en continu permettent à ces entreprises d’analyser des milliers de transactions par seconde pour détecter toute activité inhabituelle et signaler ou bloquer les transactions suspectes.

Fabrication

Les usines modernes utilisent souvent des capteurs IdO et le traitement des données en temps réel pour améliorer leur efficacité opérationnelle. 

Par exemple, une usine automobile peut surveiller des milliers de capteurs sur la chaîne de montage, en suivant des indicateurs tels que la température, les vibrations et les performances. Ces données peuvent aider les opérateurs à détecter rapidement les inefficacités et à planifier la maintenance préventive pour éviter les temps d’arrêt.

Soins de santé

Les professionnels de santé dépendent des applications de diffusion en continu pour traiter les données provenant des dispositifs médicaux et des systèmes de surveillance des patients.

Dans les unités de soins intensifs, par exemple, des moniteurs de chevet transmettent les signes vitaux par des pipelines de données à des processeurs centraux. Ces derniers peuvent alors identifier des schémas suspects et alerter automatiquement le personnel médical lorsqu’une intervention est nécessaire.

Vente au détail et e-commerce

Les détaillants et les entreprises de commerce électronique utilisent les données en continu provenant des systèmes de point de vente, des capteurs d’inventaire et des plateformes en ligne pour optimiser leurs opérations.

Par exemple, une grande plateforme d’e-commerce peut utiliser Apache Kafka pour traiter les flux de clics de millions d’acheteurs afin d’évaluer la demande et de personnaliser l’expérience client.

Transport et logistique

Les entreprises de transport ont souvent recours à l’analyse en continu pour traiter les données GPS et les relevés des capteurs IdO afin d’optimiser leur flotte.

Un prestataire logistique peut par exemple intégrer des données en temps réel provenant de milliers de véhicules avec des jeux de données météorologiques et de trafic. Les processeurs de flux peuvent alors permettre une optimisation automatisée des itinéraires avec une latence minimale pour aider les conducteurs à éviter les retards. 

Cybersécurité

La diffusion de données en continu contribue à soutenir les mesures de cybersécurité telles que la détection automatisée des anomalies. Les systèmes d’IA et de machine learning peuvent analyser les flux de données provenant des outils de surveillance de l’ensemble du système afin d’identifier des schémas inhabituels ou des comportements suspects, pour une réponse immédiate aux problèmes potentiels. 

IA et machine learning

Les données en continu jouent également un rôle essentiel dans l’IA et le machine learning. Ainsi, les cadres de traitement des flux peuvent prendre en charge la formation continue des modèles d’IA afin que les algorithmes de machine learning puissent s’adapter aux changements de modèles en temps quasi réel.

Les systèmes de machine learning peuvent également apprendre de manière incrémentale, à partir de sources de données en continu, grâce à un processus appelé « apprentissage en ligne ». Ce dernier consiste à s’appuyer sur des algorithmes spécialisés pour améliorer la précision du modèle sans avoir à l’entraîner à nouveau.

Outils et technologies de diffusion de données en continu

Grâce aux solutions de diffusion de données open source et commerciales, les entreprises peuvent créer des pipelines de données évolutifs et tolérants aux pannes, c’est-à-dire capables de se remettre des défaillances sans perte de données ni temps d’arrêt.

Deux types de technologies clés sous-tendent la plupart des implémentations de diffusion de données en continu : les cadres de traitement des flux et les plateformes de diffusion de données en continu.

Cadres de traitement de flux

Les cadres de traitement des flux servent de base à la gestion des flux de données en continu. Ils aident les entreprises à créer des pipelines de données haute performance qui traitent rapidement et de manière fiable de grands volumes de données.

Trois cadres open source dominent le paysage de la diffusion en continu :

  • Apache Kafka
  • Apache Flink
  • Apache Spark

Apache Kafka

Plateforme de streaming de premier plan, Kafka peut traiter des volumes de données massifs avec une latence de l’ordre de la milliseconde. Les entreprises l’utilisent souvent pour créer des pipelines de suivi d’activité, de surveillance opérationnelle et d’agrégation de journaux. 

Apache Flink

Apache Flink se spécialise dans le traitement d’événements complexes et les calculs avec état. Cet outil est précieux pour l’analytique en temps réel, la détection des fraudes et la maintenance prédictive, où la compréhension du contexte des événements dans le temps est essentielle.

Apache Spark

Connu pour ses capacités d’analyse unifiée, Spark peut traiter simultanément des données par lots et en diffusion continue. Cette capacité le rend utile dans les scénarios où les organisations ont besoin d’analyser des données historiques en même temps que des données en direct.

Plateformes et services de diffusion de données en continu

Les plateformes de données en continu proposent divers outils et fonctionnalités pour prendre en charge l’ensemble du cycle de vie des données en continu, de l’ingestion et du traitement au stockage et à l’intégration.

De nombreux grands fournisseurs de cloud proposent des solutions de diffusion en continu de données qui permettent aux organisations de mettre en place plus facilement des applications de diffusion de données à haut volume. Des services tels qu’Amazon Kinesis d’Amazon Web Services (AWS), Microsoft Azure Stream Analytics, Dataflow de Google Cloud et IBM Event Streams fournissent des outils prêts à l’emploi. Les entreprises n’ont ainsi pas besoin de construire une infrastructure complexe à partir de zéro.

Ces services peuvent également s’intégrer à des outils de streaming sur site pour créer des architectures hybrides qui peuvent aider à équilibrer les besoins de performance avec les exigences de confidentialité des données

Les organisations peuvent également faire appel à des outils tels qu’IBM StreamSets et Confluent pour créer des pipelines de données en flux continu adaptés à leurs écosystèmes informatiques uniques.

Défis liés à la diffusion de données en continu

Si la diffusion de données en continu peut offrir de nombreux avantages, les organisations sont parfois confrontées à des défis lors de la conception des architectures de données nécessaires pour prendre en charge ce type d’applications.

Voici certains défis fréquents :

  • Évolutivité de l’architecture des données : le traitement des données en continu implique souvent la gestion de volumes considérables de données provenant de nombreuses sources. Les entreprises peuvent rencontrer des difficultés si leurs architectures de diffusion en continu ne peuvent pas évoluer efficacement pour traiter de gros volumes de données.

  • Tolérance aux pannes : les systèmes de diffusion en continu doivent être tolérants aux pannes tout en traitant potentiellement des millions d’événements par seconde. Sinon, les entreprises risquent de perdre des données en raison de dysfonctionnements et de mauvais comportements du système.

  • Surveillance de la performance : les applications en temps réel requièrent une surveillance constante des indicateurs (latence, débit et utilisation des ressources) pour garantir une performance optimale. Cette exigence peut mettre à mal les systèmes de traitement déjà surchargés.

  • Mise en œuvre de la gouvernance des données : les organisations doivent réfléchir à la manière dont elles stockent et traitent les données en continu qui contiennent des données personnelles (PII) ou d’autres informations sensibles relevant du Règlement général sur la protection des données (RGPD), de la California Consumer Privacy Act (CCPA) ou d’autres exigences en matière de gouvernance des données.
Solutions connexes
Solutions de plateformes DataOps

Organisez vos données avec les solutions de plateformes IBM DataOps pour en garantir la fiabilité et les préparer pour l’IA.

Découvrir les solutions DataOps
IBM Databand

Découvrez IBM Databand, le logiciel d’observabilité pour les pipelines de données. Il collecte automatiquement les métadonnées pour établir des lignes de base historiques, détecter les anomalies et créer des workflows afin de résoudre les problèmes de qualité des données.

Découvrir Databand
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Organisez vos données avec les solutions de plateformes IBM DataOps pour en garantir la fiabilité et les préparer pour l’IA.

Découvrir les solutions DataOps Découvrir les services d’analytique