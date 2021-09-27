يُعد Spark مكوّناً محورياً في مجموعة البيانات الحديثة. على هذا النحو، من المهم للغاية توفير مستوى مناسب من قابلية الملاحظة لبيئات Spark لديك. توجد العديد من خيارات مراقبة Spark، بما في ذلك برامج SaaS التي توفّر لوحات معلومات جاهزة لمقاييس Spark وSpark SQL. لكن ماذا لو لم يكن ذلك كافياً؟

يشتمل إعداد تطبيق Spark النموذجي، سواء كان مُستضافاً ذاتياً أو مُداراً، على عدد من لوحات المعلومات التشغيلية لمراقبة سلامة المجموعات. ورغم فائدة هذه اللوحات، فإنها لا تقدّم سوى عرض عام للبنية التحتية، ولا تُظهر المقاييس الفعلية المرتبطة بالبيانات نفسها. قد يشير ارتفاع استهلاك وحدة المعالجة المركزية أو اقتراب مجموعة Spark من استنفاد الذاكرة إلى وجود مشكلة في التطبيق، لكن هذا النوع من المؤشرات لا يفيد عندما يكون مصدر البيانات قد غيّر مخطط البيانات (schema) أو كانت البيانات الواردة من قسم آخر تالفة. معظم المشكلات التي يواجهها المهندسون تعود إلى البيانات لا إلى البنية التحتية؛ لذا يضطرّون إلى قضاء وقت طويل في إعادة إنتاج المشكلة أو التنقّل بين الملفات وحاويات التخزين (buckets) وكأنهم يحققون في قضية. وهنا تبرز أهمية مراقبة التطبيق نفسها.

كل حالة تتطلّب مستوى مختلفاً من الرؤية، ويحتاج مهندسو البيانات إلى القدرة على التعمّق أبعد من مجرد مقاييس التنفيذ. وإلا فقد تقضي وقتاً طويلاً في تتبّع مشكلات جودة البيانات وتصحيحها في Spark.

في هذا الدليل، ستتعرّف على كيفية تحقيق مستويات مختلفة من إمكانية ملاحظة البيانات في Spark، سواء على مستوى الصورة العامة أو على مستوى التفاصيل الدقيقة. على مستوى الصورة العالية، ستعتمد على الأنظمة الداخلية في Spark، مثل واجهات Listener APIs وQuery Execution Listeners. أما على المستوى التفصيلي، فستتعلّم كيف تستخدم المكتبات لتتبّع مقاييس جودة البيانات.

وبعد إتقان الطريقتين، سيكون بإمكانك اختيار الأسلوب الأنسب لطبيعة المشكلة التي تحاول معالجتها.