Observabilité des pipelines de données : un modèle pour les ingénieurs des données

Vue aérienne des personnes travaillant dans un bureau moderne

Auteur

Eitan Chazbani

L’observabilité d’un pipeline de données est votre capacité à surveiller et à comprendre son état à tout moment. Plus précisément, l’observabilité fournit des informations sur les états internes du pipeline et sur la façon dont ils interagissent avec les sorties du système.

Nous pensons que les pipelines de données du monde entier ont besoin d'une meilleure observabilité. Mais malheureusement, très peu de choses qui se passent aujourd’hui dans le domaine de l’ingénierie des données sont observables. La plupart des pipelines de données sont conçus pour se déplacer mais pas pour être surveillés. Pour mesurer, mais pas pour suivre. Pour transformer, mais pas pour raconter. Le résultat est le fameux cas de la boîte noire.

Les dernières actualités technologiques, étayées par des avis d’experts

Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.

Merci ! Vous êtes abonné(e).

Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.

Méfiez-vous du scénario de boîte noire

Vous savez ce qu’on y met. Vous savez ce qui en ressort. Mais que se passe-t-il entre les deux ? Pourquoi cette divergence ? Malheureusement, il s’agit là de mystères que la plupart des pipelines n’ont pas été conçus pour résoudre. La plupart ont été pensés pour le meilleur scénario possible.
Pourtant, la réalité est davantage régie par la loi de Murphy, et du côté sortie de la boîte noire, vous verrez souvent une multitude de valeurs étranges et de colonnes manquantes énigmatiques. Les ingénieurs des données se creusent la tête et réalisent que pour corriger, ils doivent d’abord observer.

Ce guide abordera les points suivants :

  1. Qu’est-ce que l’observabilité des données ?
  2. Qu’est-ce que l’observabilité des pipelines de données ?
  3. Pourquoi l’observabilité des données est-elle importante pour les pipelines ?
  4. Comment mettez-vous en œuvre l’observabilité de vos pipelines de données ?
  5. Comment les plateformes d’observabilité des données peuvent-elles aider ?
AI Academy

La gestion des données est-elle le secret de l’IA générative ?

Découvrez pourquoi des données de haute qualité sont essentielles pour une utilisation réussie de l’IA générative.

Qu’est-ce que l’observabilité des données ?

« Observabilité » est devenu un peu un mot à la mode, il vaut donc probablement mieux le définir : l’observabilité des données est le terme générique pour surveiller et améliorer la santé des données au sein des applications et systèmes comme les pipelines de données.

Observabilité des données et surveillance : quelle est la différence ?

La « surveillance des données » vous permet de connaître l’état actuel de votre pipeline de données ou de vos données. Elle vous indique si les données sont complètes, exactes et à jour, si vos pipelines ont réussi ou échoué. La surveillance des données peut vous montrer si les choses fonctionnent ou pas, mais elle ne vous donne pas beaucoup de contexte en dehors de cela.

La surveillance n’est donc qu’une des fonctions de l’observabilité. La notion d’observabilité des données englobe les éléments suivants :

  • Surveillance : un tableau de bord qui fournit une vue opérationnelle de votre pipeline ou de votre système
  • Alertes : tant pour les événements prévus que pour les anomalies
  • Suivi : la possibilité de définir et de suivre certains événements
  • Comparaisons : surveillance au fil du temps, avec alertes en cas d’anomalie
  • Analyse : détection automatique des problèmes, qui s’adapte à votre pipeline et à l’état de vos données
  • Meilleure mesure à prendre : actions recommandées pour corriger les erreurs

En n’englobant pas une seule activité, la surveillance, mais un ensemble d’activités, l’observabilité est bien plus utile aux ingénieurs. L’observabilité des données ne se limite pas à décrire le problème. Il fournit un contexte et des suggestions pour aider à résoudre le problème.

« L’observabilité des données va plus loin que la surveillance en ajoutant plus de contexte aux indicateurs du système, en fournissant une vue plus approfondie des opérations du système et en indiquant si les ingénieurs doivent intervenir et appliquer une correction », explique Evgeny Shulman, cofondateur et directeur/directrice technique d’IBM Databand . « En d’autres termes, alors que la surveillance vous indique qu’un microservice consomme une quantité donnée de ressources, l’observabilité vous indique que son état actuel est associé à des pannes critiques, et que vous devez intervenir. »

Cette approche proactive est particulièrement importante lorsqu’il s’agit de pipelines de données.

Qu’est-ce que l’observabilité des pipelines de données ?

L’observabilité d’un pipeline de données fait référence à la capacité de surveiller et de comprendre l’état d’un pipeline de données à tout moment, en particulier en ce qui concerne ses états internes, sur la base des sorties du système. Elle va au-delà de la surveillance de base pour fournir une compréhension plus approfondie de la façon dont les données se déplacent et sont transformées dans un pipeline, et est souvent associée aux indicateurs, à la journalisation et à la traçabilité des pipelines de données.

Les pipelines de données impliquent souvent une série d’étapes où les données sont collectées, transformées et stockées. Cela peut inclure des processus tels que l’extraction de données à partir de différentes sources, le nettoyage des données, la transformation des données (comme l’agrégation) et le chargement des données dans une base de données ou un entrepôt de données. Chacune de ces étapes peut présenter des comportements différents et des problèmes potentiels qui peuvent impacter la qualité des données, la fiabilité et la performance globale du système.

L’observabilité fournit des informations sur le fonctionnement de chaque étape du pipeline de données, et sur la manière dont son fonctionnement interne est corrélé à des types spécifiques de sorties — en particulier celles qui n’offrent pas les niveaux requis de performance, de qualité ou de précision. Ces informations permettent aux équipes d’ingénierie des données de comprendre ce qui a mal tourné et de le corriger.

Pourquoi l’observabilité des données est-elle si importante pour les pipelines ?

L’observabilité des pipelines de données est importante parce que les pipelines sont devenus de plus en plus complexes – de nombreux systèmes concurrents à de nombreux systèmes interdépendants.

Les pipelines sont essentiels dans un secteur en pleine expansion

Il est plus probable que jamais que les applications ne bénéficient pas uniquement de pipelines de données : elles en dépendent. Tout comme les utilisateurs finaux. Lorsque de grands fournisseurs comme AWS connaissent des pannes et que les tableaux de bord des applications du monde entier disparaissent, vous pouvez voir tout autour de vous les signes indiquant que la complexité crée des dépendances dangereuses.

À l’heure actuelle, le secteur de l’analytique enregistre un taux de croissance annuel combiné de 12 % par an. Selon Gartner, il représentera une valeur stupéfiante de 105 milliards de dollars d’ici 2027, soit à peu près la taille de l’économie ukrainienne. À ce rythme, le volume de données des entreprises augmente actuellement de 62 % chaque mois. Toutes ces entreprises qui stockent et analysent toutes ces données ? Ils misent leur entreprise là-dessus et sur le fait que les pipelines de données qui la font fonctionner continueront de fonctionner.

Le contexte est crucial (et souvent manquant)

L’une des causes principales des problèmes de qualité des données et des échecs des pipelines est la transformation de ces pipelines. Aujourd’hui, la plupart des architectures de données sont opaques : il est impossible de savoir ce qui s’y passe. Des transformations sont en cours, mais lorsque les choses ne se passent pas comme prévu, les ingénieurs des données ne savent pas exactement pourquoi.

Trop d’équipes DataOps passent beaucoup trop de temps à essayer de diagnostiquer des problèmes sans contexte. Et si vous suivez votre premier instinct et utilisez un outil de gestion de la performance des applications pour surveiller un pipeline DataOps, cela fonctionne rarement.

L’observabilité permet aux ingénieurs de rester synchronisés (et confiants)

« Les pipelines de données se comportent très différemment des applications logicielles et des infrastructures », explique M. Shulman. « Les équipes d’ingénierie des données peuvent obtenir un aperçu des statuts de tâches de haut niveau (ou DAG) et de la performance résumée des bases de données, mais manqueront de visibilité sur le bon niveau d’information nécessaire pour gérer leurs pipelines. Cette lacune oblige de nombreuses équipes à passer beaucoup de temps à suivre les problèmes ou à travailler dans un état de paranoïa constante. »

Disposer d’une équipe plus importante et plus spécialisée dans les données peut s’avérer utile, mais un manque de coordination peut nuire. Un plus grand nombre de personnes accédant aux données et exécutant leurs propres pipelines et leurs propres transformations provoquent des erreurs et ont un impact sur la stabilité des données.

De plus en plus d’ingénieurs s’inquiètent aujourd’hui de la stabilité des données et de leur capacité à être utilisées par les consommateurs, au sein ou en dehors de l’entreprise. De plus en plus d’équipes s’intéressent à l’observabilité des données.

Comment mettez-vous en œuvre l’observabilité de vos pipelines de données ?

L’observabilité des données s’intègre à votre pipeline de données en fournissant des informations sur la manière dont vos données circulent et sont traitées du début à la fin. Voici comment fonctionne l’observabilité des données dans le pipeline de données :

  • Ingestion de données : l’observabilité commence au point où les données sont ingérées dans le pipeline. Vous pouvez contrôler la quantité de données ingérées, la rapidité de leur traitement et l’absence d’erreurs ou de retards.
  • Traitement de données : au fur et à mesure que les données se déplacent par différentes étapes de traitement, les outils d’observabilité peuvent surveiller le fonctionnement de chaque étape. Il s’agit notamment de surveiller les défaillances, de mesurer la latence, de suivre l’utilisation des ressources et de s’assurer que les données sont transformées correctement.
  • Stockage et livraison de données : l’observabilité continue dans la phase de stockage et de livraison. Il peut contrôler la vitesse à laquelle les données sont écrites dans la base de données ou l’entrepôt de données, s’assurer que les données sont livrées aux bonnes destinations et vous alerter en cas de problème.
  • Suivi et dépannage des erreurs : les outils d’observabilité peuvent aider à identifier l’emplacement des erreurs, leurs causes profondes et même suggérer des actions de résolution. Ceci est critique pour minimiser les temps d’arrêt et garantir la fiabilité de votre pipeline de données.
  • Optimisation des performances : en surveillant les performances de votre pipeline de données, les outils d’observabilité peuvent aider à identifier les goulets d’étranglement et les possibilités d’optimisation. Cela peut conduire à une utilisation plus efficace des ressources et à des délais de traitement plus rapides.
  • Détection des anomalies : l’observabilité peut aider à identifier les anomalies susceptibles d’indiquer des problèmes potentiels ou des domaines à améliorer. Par exemple, si le traitement des données prend beaucoup plus de temps que d’habitude, cela peut indiquer un problème à une étape particulière du pipeline.
  • Alertes et rapports : les outils d’observabilité incluent souvent des fonctionnalités d’alerte qui peuvent vous informer des problèmes potentiels en temps réel, ce qui permet de réagir rapidement. Ils proposent également souvent des fonctionnalités de reporting complètes qui peuvent vous aider à comprendre la santé et la performance de votre pipeline de données.

Comment les plateformes d’observabilité des données peuvent aider

Les plateformes d’observabilité des données fournissent des informations que les outils de surveillance seuls ne peuvent pas fournir. Ils vous indiquent non seulement ce qui ne va pas, mais aussi les problèmes qu’il a provoqués, et vous proposent des indices et même les meilleures mesures à prendre pour y remédier. Il poursuit cette démarche en continu, sans que vous ayez à repenser l’architecture de vos pipelines actuels ou à « modifier le moteur en cours de vol », comme c’était le cas.

Pourquoi les ingénieurs adoptent des plateformes d’observabilité

  • Vos pipelines de données sont des systèmes complexes. Ils nécessitent une architecture d’observabilité des données qui effectue des recherches constantes.
  • Vous devez savoir où les choses ont échoué et pourquoi. Une plateforme d’observabilité assure un suivi de bout en bout dans ce but précis.
  • Vous avez besoin d’un moyen de suivre les dépendances en aval. Vous devez savoir, et non espérer, que votre correctif a résolu le problème de fond.

Composants d’une plateforme d’observabilité des pipelines de données efficace

Vos pipelines de données sont des systèmes complexes qui nécessitent une architecture d’observabilité des données qui effectue des recherches constantes. Vous avez besoin d’une plateforme d’observabilité pour un suivi de bout en bout afin de savoir où les choses ont échoué et pourquoi. Vous avez besoin d’un moyen de suivre les dépendances en aval, et vous devez savoir, et non espérer, que votre correctif a résolu le problème de fond.

Une plateforme d’observabilité des données doit inclure :

  • Configuration simple : faut-il modifier votre pipeline ?
  • Suivi de bout en bout : peut-elle surveiller les dépendances en aval ?
  • Architecture d’observabilité : va-t-elle au-delà de la simple surveillance ?
  • Paramétrage du seuil : peut-elle effectuer sa propre détection d’anomalies ?
  • Administration : peut-elle surveiller les données au repos ?
  • Observabilité des données open source : fournit-elle des composants open source que vous pouvez ajuster ?
  • Observabilité des systèmes distribués : pouvez-vous également observer les systèmes distribués ?

La plateforme devrait également proposer de nombreux conseils précis. Le domaine de l’observabilité des données et de l’ingénierie des données évolue rapidement, et c’est l’une des meilleures façons de trouver une plateforme qui évolue aussi vite que vos problèmes. Il ne suffit plus de surveiller. Vous devez observer, suivre, alerter et réagir.

Découvrez comment IBM Databand assure la surveillance des pipelines de données pour détecter rapidement les incidents, tels que les tâches ou les exécutions ayant échoué, afin de pouvoir gérer la croissance des pipelines. Si vous êtes prêt à aller plus loin, réservez une démo dès aujourd’hui.

Solutions connexes
IBM StreamSets

Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.

Découvrir StreamSets
IBM watsonx.data

watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.

Découvrir watsonx.data
Services de conseil pour les données et les analyses

Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.

Découvrir les services d’analytique
Passez à l’étape suivante

Élaborez une stratégie de gestion des données qui élimine les silos, réduit la complexité et améliore la qualité des données pour offrir une expérience client et collaborateur exceptionnelle.

Découvrir les solutions de gestion des données Découvrir watsonx.data