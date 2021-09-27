Spark est essentiel à la pile de données moderne. Il est donc extrêmement important d’avoir le bon niveau d’observabilité dans vos environnements Spark. Il existe de nombreuses options pour surveiller Spark, notamment des programmes SaaS qui fournissent des tableaux de bord préconfigurés pour les indicateurs Spark et Spark SQL. Et si cela ne suffisait pas ?

Une configuration typique de l’application Spark, qu’il s’agisse d’une solution auto-hébergée ou gérée, inclut des tableaux de bord pour surveiller l’état des clusters. Bien que ces tableaux de bord soient très utiles, ils fournissent une vue d’ensemble de l’infrastructure, et non les indicateurs réels liés aux données. Oui, on peut supposer qu’il y a un problème avec l’application lorsque le CPU a augmenté son utilisation ou que le cluster manque de RAM, mais cela ne sert à rien si la source a modifié le schéma ou que les données provenant d’un autre service sont cassées. La plupart des problèmes rencontrés par les ingénieurs sont causés par les données, et non par l’infrastructure sous-jacente. Ils doivent donc passer beaucoup de temps à reproduire les problèmes ou à bricoler autour des fichiers et des compartiments comme des détectives. C’est là qu’une véritable surveillance des applications peut vous être utile.

Chaque situation exige un niveau de visibilité différent, et les ingénieurs de données doivent être en mesure d’aller au-delà des indicateurs d’exécution. Sinon, vous risquez de passer beaucoup de temps à déboguer les problèmes de qualité des données dans Spark.

Dans ce guide, vous découvrirez comment atteindre des niveaux élevés et faibles d’observabilité des données pour Spark. Pour le haut niveau, vous utiliserez les systèmes internes de Spark, tels que les API Listener et les Query Execution Listeners. Pour le niveau bas, vous apprendrez à utiliser des bibliothèques pour suivre les indicateurs de qualité des données.

Après avoir appris à faire les deux, vous pourrez choisir celle qui convient le mieux au problème que vous tentez de résoudre.