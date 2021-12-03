يُعد Airflow بمثابة “حصان عمل كادح يضع غمامات على عينيه”. فهو لا يتخذ أي إجراء لتصحيح المسار إذا حدث خطأ ما في البيانات، بل يقتصر دوره على إدارة خط المعالجة—فقط. وقد مرّ كل مستخدم تقريبًا بتجربة يُعطيه فيها Airflow إشعارًا بأن المهمة قد اكتملت بنجاح، ليفاجَأ عند فحص البيانات بأن هناك عمودًا مفقودًا وأن النتيجة خاطئة تمامًا، أو أنه لم يتم تمرير أي بيانات فعليًا عبر الأنظمة.

ينطبق هذا بشكل خاص عندما تصل مؤسسة البيانات إلى مرحلة النضج، وتنتقل من إدارة 10 رسوم بيانية موجهة غير دورية (DAGs) إلى الآلاف. ففي هذه الحالة، من المرجح أنك تستخدم هذه الرسوم البيانية الموجهة غير الدورية لاستيعاب البيانات من مصادر خارجية وواجهات برمجة التطبيقات (APIs)، ما يجعل التحكم في جودة البيانات داخل Airflow أكثر صعوبة. إذ لا يمكنك “تنظيف” مجموعة البيانات في المصدر نفسه أو تطبيق سياسات الحوكمة الخاصة بك هناك.

على الرغم من أنه يمكنك إنشاء تنبيهات Slack للتحقق من كل تشغيل يدويًا، لتضمين Airflow كجزء مفيد من مجموعة هندسة البيانات لديك وتحقيق اتفاقيات مستوى الخدمة (SLA)، فإنك بحاجة إلى أتمتة عمليات فحص الجودة. وللقيام بذلك، تحتاج إلى إمكانية الرؤية، ليس فقط لمعرفة ما إذا كانت المهمة قيد التشغيل أم لا، ولكن لمعرفة ما إذا كانت تعمل بشكل صحيح. ولمعرفة سبب ومكان نشأة الخطأ إذا لم يتم تشغيلها بشكل صحيح. وإلا، فستجد نفسك عالقًا في حلقة مفرغة تتكرر فيها المشكلات نفسها يوميًا، أشبه بأحداث فيلم Groundhog Day.

هذا ليس تحديًا بسيطًا، وإذا كنا صريحين، فهذا هو السبب وراء إنشاء IBM® Databand . لم يتم تصميم معظم أدوات قابلية الملاحظة مثل Datadog وNew Relic لتحليل المسارات ولا يمكنها عزل موضع بدء المشكلات أو تجميع المشكلات المتزامنة لاقتراح السبب الأساسي أو اقتراح الإصلاحات.

ومع ذلك، فإن الحاجة إلى قابلية الملاحظة لا تزال غير مفهومة تمامًا، حتى داخل مجتمع Airflow. اليوم، يقول 32% فقط إنهم طبقوا قياس جودة البيانات، رغم أن سؤال صانعي الاستبيان هو مؤشر على التحسن. ولم يطرحوا هذا السؤال في استطلاعات عام 2019 أو 2020.

كيف يمكننا مراقبة جودة البيانات في Airflow ؟ في الحقيقة، Airflow يوصلك إلى منتصف الطريق. كما يشير القائمون على صيانته، “عندما يتم تعريف مسارات العمل على أنها تعليمات برمجية، فإنها تصبح أكثر قابلية للصيانة والإصدار والاختبار والتعاون.”

يقدم Airflow هذا التمثيل الرسمي للتعليمات البرمجية. ما تحتاجه هو أداة قابلية الملاحظة مصممة خصيصًا لمراقبة مسارات البيانات. تعد تلك المصممة لمراقبة المنتجات إجراءً في منتصف الطريق، ولكنها عادة ما تكون جزءًا من الرحلة لأنها تمتلك بالفعل تلك التراخيص.

نجد أن هناك العديد من المراحل التي تمر بها المؤسسات الهندسية في رحلتها نحو تحقيق النضج الكامل لقابلية الملاحظة: