L’observabilité d’un pipeline de données est votre capacité à surveiller et à comprendre son état à tout moment. Plus précisément, l’observabilité fournit des informations sur les états internes du pipeline et sur la façon dont ils interagissent avec les sorties du système.
Nous pensons que les pipelines de données du monde entier ont besoin d'une meilleure observabilité. Mais malheureusement, très peu de choses qui se passent aujourd’hui dans le domaine de l’ingénierie des données sont observables. La plupart des pipelines de données sont conçus pour se déplacer mais pas pour être surveillés. Pour mesurer, mais pas pour suivre. Pour transformer, mais pas pour raconter. Le résultat est le fameux cas de la boîte noire.
Newsletter sectorielle
Restez au fait des tendances les plus étonnantes du secteur dans le domaine de l’IA, de l’automatisation, des données et bien d’autres avec la newsletter Think. Consultez la Déclaration de confidentialité d’IBM.
Vous recevrez votre abonnement en anglais. Vous trouverez un lien de désabonnement dans chaque newsletter. Vous pouvez gérer vos abonnements ou vous désabonner ici. Consultez la Déclaration de confidentialité d’IBM pour plus d’informations.
Vous savez ce qu’on y met. Vous savez ce qui en ressort. Mais que se passe-t-il entre les deux ? Pourquoi cette divergence ? Malheureusement, il s’agit là de mystères que la plupart des pipelines n’ont pas été conçus pour résoudre. La plupart ont été pensés pour le meilleur scénario possible.
Pourtant, la réalité est davantage régie par la loi de Murphy, et du côté sortie de la boîte noire, vous verrez souvent une multitude de valeurs étranges et de colonnes manquantes énigmatiques. Les ingénieurs des données se creusent la tête et réalisent que pour corriger, ils doivent d’abord observer.
Ce guide abordera les points suivants :
« Observabilité » est devenu un peu un mot à la mode, il vaut donc probablement mieux le définir : l’observabilité des données est le terme générique pour surveiller et améliorer la santé des données au sein des applications et systèmes comme les pipelines de données.
La « surveillance des données » vous permet de connaître l’état actuel de votre pipeline de données ou de vos données. Elle vous indique si les données sont complètes, exactes et à jour, si vos pipelines ont réussi ou échoué. La surveillance des données peut vous montrer si les choses fonctionnent ou pas, mais elle ne vous donne pas beaucoup de contexte en dehors de cela.
La surveillance n’est donc qu’une des fonctions de l’observabilité. La notion d’observabilité des données englobe les éléments suivants :
En n’englobant pas une seule activité, la surveillance, mais un ensemble d’activités, l’observabilité est bien plus utile aux ingénieurs. L’observabilité des données ne se limite pas à décrire le problème. Il fournit un contexte et des suggestions pour aider à résoudre le problème.
« L’observabilité des données va plus loin que la surveillance en ajoutant plus de contexte aux indicateurs du système, en fournissant une vue plus approfondie des opérations du système et en indiquant si les ingénieurs doivent intervenir et appliquer une correction », explique Evgeny Shulman, cofondateur et directeur/directrice technique d’IBM Databand . « En d’autres termes, alors que la surveillance vous indique qu’un microservice consomme une quantité donnée de ressources, l’observabilité vous indique que son état actuel est associé à des pannes critiques, et que vous devez intervenir. »
Cette approche proactive est particulièrement importante lorsqu’il s’agit de pipelines de données.
L’observabilité d’un pipeline de données fait référence à la capacité de surveiller et de comprendre l’état d’un pipeline de données à tout moment, en particulier en ce qui concerne ses états internes, sur la base des sorties du système. Elle va au-delà de la surveillance de base pour fournir une compréhension plus approfondie de la façon dont les données se déplacent et sont transformées dans un pipeline, et est souvent associée aux indicateurs, à la journalisation et à la traçabilité des pipelines de données.
Les pipelines de données impliquent souvent une série d’étapes où les données sont collectées, transformées et stockées. Cela peut inclure des processus tels que l’extraction de données à partir de différentes sources, le nettoyage des données, la transformation des données (comme l’agrégation) et le chargement des données dans une base de données ou un entrepôt de données. Chacune de ces étapes peut présenter des comportements différents et des problèmes potentiels qui peuvent impacter la qualité des données, la fiabilité et la performance globale du système.
L’observabilité fournit des informations sur le fonctionnement de chaque étape du pipeline de données, et sur la manière dont son fonctionnement interne est corrélé à des types spécifiques de sorties — en particulier celles qui n’offrent pas les niveaux requis de performance, de qualité ou de précision. Ces informations permettent aux équipes d’ingénierie des données de comprendre ce qui a mal tourné et de le corriger.
L’observabilité des pipelines de données est importante parce que les pipelines sont devenus de plus en plus complexes – de nombreux systèmes concurrents à de nombreux systèmes interdépendants.
Il est plus probable que jamais que les applications ne bénéficient pas uniquement de pipelines de données : elles en dépendent. Tout comme les utilisateurs finaux. Lorsque de grands fournisseurs comme AWS connaissent des pannes et que les tableaux de bord des applications du monde entier disparaissent, vous pouvez voir tout autour de vous les signes indiquant que la complexité crée des dépendances dangereuses.
À l’heure actuelle, le secteur de l’analytique enregistre un taux de croissance annuel combiné de 12 % par an. Selon Gartner, il représentera une valeur stupéfiante de 105 milliards de dollars d’ici 2027, soit à peu près la taille de l’économie ukrainienne. À ce rythme, le volume de données des entreprises augmente actuellement de 62 % chaque mois. Toutes ces entreprises qui stockent et analysent toutes ces données ? Ils misent leur entreprise là-dessus et sur le fait que les pipelines de données qui la font fonctionner continueront de fonctionner.
L’une des causes principales des problèmes de qualité des données et des échecs des pipelines est la transformation de ces pipelines. Aujourd’hui, la plupart des architectures de données sont opaques : il est impossible de savoir ce qui s’y passe. Des transformations sont en cours, mais lorsque les choses ne se passent pas comme prévu, les ingénieurs des données ne savent pas exactement pourquoi.
Trop d’équipes DataOps passent beaucoup trop de temps à essayer de diagnostiquer des problèmes sans contexte. Et si vous suivez votre premier instinct et utilisez un outil de gestion de la performance des applications pour surveiller un pipeline DataOps, cela fonctionne rarement.
« Les pipelines de données se comportent très différemment des applications logicielles et des infrastructures », explique M. Shulman. « Les équipes d’ingénierie des données peuvent obtenir un aperçu des statuts de tâches de haut niveau (ou DAG) et de la performance résumée des bases de données, mais manqueront de visibilité sur le bon niveau d’information nécessaire pour gérer leurs pipelines. Cette lacune oblige de nombreuses équipes à passer beaucoup de temps à suivre les problèmes ou à travailler dans un état de paranoïa constante. »
Disposer d’une équipe plus importante et plus spécialisée dans les données peut s’avérer utile, mais un manque de coordination peut nuire. Un plus grand nombre de personnes accédant aux données et exécutant leurs propres pipelines et leurs propres transformations provoquent des erreurs et ont un impact sur la stabilité des données.
De plus en plus d’ingénieurs s’inquiètent aujourd’hui de la stabilité des données et de leur capacité à être utilisées par les consommateurs, au sein ou en dehors de l’entreprise. De plus en plus d’équipes s’intéressent à l’observabilité des données.
L’observabilité des données s’intègre à votre pipeline de données en fournissant des informations sur la manière dont vos données circulent et sont traitées du début à la fin. Voici comment fonctionne l’observabilité des données dans le pipeline de données :
Les plateformes d’observabilité des données fournissent des informations que les outils de surveillance seuls ne peuvent pas fournir. Ils vous indiquent non seulement ce qui ne va pas, mais aussi les problèmes qu’il a provoqués, et vous proposent des indices et même les meilleures mesures à prendre pour y remédier. Il poursuit cette démarche en continu, sans que vous ayez à repenser l’architecture de vos pipelines actuels ou à « modifier le moteur en cours de vol », comme c’était le cas.
Vos pipelines de données sont des systèmes complexes qui nécessitent une architecture d’observabilité des données qui effectue des recherches constantes. Vous avez besoin d’une plateforme d’observabilité pour un suivi de bout en bout afin de savoir où les choses ont échoué et pourquoi. Vous avez besoin d’un moyen de suivre les dépendances en aval, et vous devez savoir, et non espérer, que votre correctif a résolu le problème de fond.
Une plateforme d’observabilité des données doit inclure :
La plateforme devrait également proposer de nombreux conseils précis. Le domaine de l’observabilité des données et de l’ingénierie des données évolue rapidement, et c’est l’une des meilleures façons de trouver une plateforme qui évolue aussi vite que vos problèmes. Il ne suffit plus de surveiller. Vous devez observer, suivre, alerter et réagir.
Découvrez comment IBM Databand assure la surveillance des pipelines de données pour détecter rapidement les incidents, tels que les tâches ou les exécutions ayant échoué, afin de pouvoir gérer la croissance des pipelines. Si vous êtes prêt à aller plus loin, réservez une démo dès aujourd’hui.
Créez et gérez des pipelines intelligents de diffusion de données en continu via une interface graphique intuitive, facilitant ainsi une intégration fluide des données dans les environnements hybrides et multicloud.
watsonx.data vous permet d’adapter le dimensionnement des analyses et de l’IA à toutes vos données, où qu’elles se trouvent, grâce à un entrepôt de données ouvert, hybride et gouverné.
Avec IBM Consulting, exploitez les données de votre entreprise et développez une organisation basée sur les informations pour tirer des avantages métier.