تُعد الأسباب الأساسية هي نهاية الطريق. ويجب أن تكون هي الحدث الأصلي في سلسلة السببية—أول قطعة دومينو كما كانت —وتُفسر المشكلة بشكل أساسي. إذا لم يحدث ذلك السبب الأساسي لمشكلة البيانات، فلا ينبغي أن يحدث أي من الأسباب المباشرة أيضًا. فهذه علاقة سببية مباشرة لهم جميعًا.
بطبيعة الحال، الأسباب الأساسية ليست واضحة دائمًا، كما أن الارتباطات ليست دقيقة دائمًا. إذا لم تكن واثقًا بإجابتك، فهناك طريقة احتمالية لمعرفة درجة ثقتك الحقيقية وهي تجربة فكرية: لنفترض أن رئيسك في العمل أخبرك أن فريقك سيتبنى فرضيتك بالكامل ولن يقوم أحد بالتحقق منها قبل طرحها في الإنتاج، وسيكون اسمك مكتوبًا عليها. إذا كان الأمر خطأ، فهذا خطؤك بالكامل. ما درجة الثقة التي تعطيها لفرضيتك من 0 إلى 100؟ إذا كانت أقل من 70، فاستمر في التحقيق.
تشمل مشكلات البيانات الشائعة الأساسية ما يلي:
1. خطأ المستخدم: سنبدأ بأخطاء المستخدم لأنها شائعة. ربما أدخل شخص ما مخططًا خطأ أو قيمة خطأ، ما يعني أن مسار العمل لا يقرأ البيانات، أو أجرى العملية الصحيحة بقيم غير صحيحة، والآن لديك مهمة فاشلة.
2. تسمية البيانات بشكل غير صحيح: في بعض الأحيان تنتقل الصفوف على الجدول ويتم تطبيق التسميات الصحيحة على الأعمدة الخطأ.
3. فشل شريك البيانات في التسليم: شائع جدًا أيضًا. يمكنك بناء نظام مقاوم للرصاص، ولكن لا يمكنك التحكم فيما لا تراه، وإذا كانت مشكلات البيانات موجودة في مصدر البيانات، فسوف تتسبب في حدوث خلل في مسارات البيانات السليمة تمامًا.
4. يوجد خطأ في التعليمات البرمجية: يُعد هذا أمرًا شائعًا عند وجود إصدار جديد من مسار البيانات. ويمكنك معرفة ذلك بسرعة باستخدام برامج إدارة الإصدارات مثل Git أو GitLab. قارن رمز الإنتاج بإصدار سابق وقم بإجراء اختبار مع ذلك الإصدار السابق.
5. خطأ في بيانات التعرف البصري على الحروف: يقرأ الماسح الضوئي الخاص بك البيانات بشكل خطأ، ما يؤدي إلى ظهور قيم غريبة (أو مفقودة).
6. مشكلة بيانات التضاؤل: مجموعة بيانات قديمة جدًا لدرجة أنها لم تعد صالحة.
7. مشكلة بيانات مكررة: في كثير من الأحيان، لم يتمكن المورّد من توفير البيانات، لذا استمر تشغيل مسار بيانات الأسبوع الماضي.
8. مشكلة الإذن: فشل مسار البيانات لأن النظام لم يكن لديه الإذن لسحب البيانات أو إجراء تحويل.
9. خطأ في البنية التحتية: ربما تكون قد استنفدت الذاكرة المتاحة أو حد استدعاء واجهة برمجة التطبيقات، أو لم تعمل مجموعة Apache Spark الخاصة بك، أو أن مستودع البيانات الخاص بك يعمل ببطء غير معتاد، لذا استمر التشغيل من دون البيانات.
10. تغييرات الجدول: غير شخص ما (أو شيء ما) الجدول الزمني وتسبب ذلك في تعطل مسار العمل أو عدم تشغيله.
11. مجموعة البيانات المتحيزة: من الصعب جدًا تصنيفها. إذ لا توجد طريقة جيدة للتحقق من ذلك سوى إجراء بعض الاختبارات لمعرفة ما إذا كانت البيانات غريبة مقارنة بمجموعة بيانات حقيقية مماثلة، أو معرفة كيفية جمعها أو إنشائها.
12. فشل المنسق: فشلت جدولة المسارات في جدولة المهمة أو تشغيلها.
13. الشبح في الآلة (آلة منبع البيانات): إنه حقًا غير معروف. من الصعب الاعتراف بأن هذا هو الحال، ولكن هذا صحيح في بعض الأشياء. أفضل ما يمكنك فعله هو التوثيق والاستعداد في المرة القادمة عندما تتمكن من جمع المزيد من البيانات والبدء في رسم الارتباطات.
ثم، بالطبع هناك حالات لا يكون فيها السبب الأساسي واضحًا تمامًا. فثمة العديد من الأمور المترابطة، وربما تكون متداخلة، ولكن لا توجد إجابة واحدة واضحة — وبعد إجراء التغييرات، تكون قد أصلحت مشكلة البيانات، على الرغم من أنك لست متأكدًا من السبب.
في هذه الحالات، كما هو الحال مع أي حالة، دون فرضيتك في السجل، وعندما تتمكن من العودة إليها، واصل اختبار البيانات التاريخية وكن على اطلاع على المشكلات الجديدة والأسباب الأكثر تفسيرًا.