قائمة بأكثر 13 مشكلةً تتعلق ببيانات المسارات شيوعًا (مع أمثلة)

سيدة أعمال تقرأ تقريرًا

ربما يكون الجزء الأكثر تعقيدًا بشأن إدارة مسارات البيانات هو فهم الأشياء الشبحية في الجهاز —وهي آلة تصنيع البيانات ، إذا صح التعبير.

تمتلك العديد من مسارات البيانات ما يشبه الشخصيات. فإنها متقلبة. وتتحطم بشكل غامض عندما يكون الطقس سيئًا. وتولد مخرجات خطأ باستمرار وأوقات غير متسقة بشكل جنوني. تبدو بعض المشكلات غير قابلة للحل تمامًا.

وهذا هو السبب الرئيسي وراء وجود ®IBM® Databand —لمنح مهندسي البيانات القدرة على رؤية مشكلات البيانات. يريد الجميع إجابات أسرع عن أسئلة مثل “لماذا حصلنا على خطأ في وقت التشغيل؟” أو “لماذا لا تزال المهمة عالقة في قائمة الانتظار؟ في كثير من الأحيان، لا أحد يعرف.

ولكن مع منصة قابلية الملاحظة، يمكنك معرفة ذلك. يمكنك أخيرًا إجراء تحليل شامل للأسباب الأساسية (RCA) في الوقت الحالي — من دون إضافة تذكرة أخرى إلى قائمة المهام المتراكمة أو ترك بيانات متأخرة تعلم أنها ستعود لتؤثر فيك سلبًا.

في هذا الدليل، سنشارك بعضًا من أكثر مشكلات البيانات شيوعًا التي نراها عندما يشغل الأشخاص المسارات، وبعض الأسباب الأساسية التي كانت وراءها.

 

أحدث الأخبار التقنية، مدعومة برؤى خبراء

ابقَ على اطلاع دائم على أبرز الاتجاهات في مجالات الذكاء الاصطناعي، والأتمتة، والبيانات، وغيرها الكثير من خلال رسالة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.

شكرًا لك! أنت مشترك.

سيصلك محتوى الاشتراك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك من هنا. لمزيد من المعلومات، راجع بيان خصوصية IBM.

مقارنة بين الأسباب القريبة والأساسية لمشكلات البيانات

كيف تحل مشكلات جودة البيانات؟ يبدأ الأمر بالوعي بأن ما يميز مهندسي البيانات المتميزين عن الآخرين هو قدرتهم على البحث عن السبب الأساسي لمشكلات البيانات. ويمكن لأي شخص إعادة ضبط المسارات وتجاهل العمل واستئنافه. تؤدي قلة قليلة فقط دور المحقق للوصول إلى جذور المشكلة، رغم أن هذا ما هو مطلوب.

هذا هو الاختلاف بين الرضا بالأسباب المباشرة أو الأسباب الأساسية. الأسباب المباشرة هي الأشياء التي يبدو أنها قد حدثت بشكل خطأ—مثل خطأ في وقت التشغيل. السبب الأساسي هو الشيء الذي أدى إلى السبب المباشر، ويصعب تحديده. تكون الأسباب المباشرة أحيانًا أسبابًا أساسية، ولكن نادرًا ما يحدث ذلك.

فكر في الأسباب المباشرة باعتبارها مجرد تنبيهات. إنهم يخبرونك أن ثمة خطأً جذريًا في مسار عملك. تجاهلها على مسؤوليتك الخاصة، لأن ديون البيانات تتراكم.

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

الأسباب القريبة الشائعة (أمثلة شائعة لمشكلات البيانات)

عندما تمطر، تتساقط الأمطار، وعندما تكون لديك مشكلة واحدة، تميل إلى أن يكون لديك الكثير. فيما يلي الاحتمالات الشائعة لمشكلات البيانات المباشرة—وهذه المشكلات ليست مستبعدة، والقائمة بعيدة عن أن تكون شاملة:

  • تم تغيير الجدول
  • انتهت مهلة المسار
  • لقد توقفت وظيفة في قائمة الانتظار
  • حدث تحول غير متوقع
  • فشل تشغيل محدد (ربما يفشل بشكل صحيح عند بدايته)
  • استغرق الجري وقتًا طويلاً بشكل غير طبيعي
  • حدث فشل على مستوى النظام بأكمله
  • حدث خطأ في التحول
  • فشلت العديد من الوظائف في الليلة السابقة
  • تم استقبال حجم إدخال غير معتاد
  • تم استقبال حجم إخراج غير معتاد
  • حدث وقت تشغيل غير معتاد
  • توقفت مهمة بشكل غير متوقع
  • حدث خطأ في وقت التشغيل

ولكن هذا ليس كل شيء، أليس كذلك؟ مرة أخرى، هذه ليست مشكلات، بل إشارات. هذه هي جميع الأشياء التي يمكن أن تسوء والتي تشير إلى حدوث شيء أكثر إثارة للقلق. سيظهر الكثير في وقت واحد.
ويمكن أن تكون منصة قابلية الملاحظة مفيدة حقًا في الفرز من خلالها. سيسمح لك بتجميع المشكلات المتزامنة لفهمها.

يمكنك أيضًا تجميع المشكلات وفقًا لبُعد جودة البيانات التي يتم تجميعها—مثل الملاءمة أو النسب أو الحوكمة أو الاستقرار. ويُظهر لك تجميع مشكلات البيانات بهذه الطريقة الأبعاد التي تواجه بها معظم المشكلات، ويمكن أن يضع ما يبدو وكأنه مشكلات معزولة في سياقها.

وبالطبع، لا داعي للانتظار حتى تفشل في وظيفة ما لتجرب هذا الأمر. إذا كان لديك Databand، فإنه يتيح لك التحقيق في الحالات غير الطبيعية بأثر رجعي (حيث يسجل جميع البيانات الوصفية التاريخية) حتى تتمكن من التمييز بوضوح بين ما هو عرضي وما هو مجرد ارتباط.

هكذا يمكنك تمييز مشكلة مثل تعثر المهمة من بين عشرات الأخطاء، واختبار العديد من المشكلات التي قد يكون السبب الأساسي فيها هو فشل توفير المجموعة. وهذه هي الطريقة التي يجب أن تنظر بها إلى الأمر. ابحث دائمًا عن السبب الأساسي لمشكلة البيانات.

الأسباب الأساسية الخمسة عشر الأكثر شيوعًا

تُعد الأسباب الأساسية هي نهاية الطريق. ويجب أن تكون هي الحدث الأصلي في سلسلة السببية—أول قطعة دومينو كما كانت —وتُفسر المشكلة بشكل أساسي. إذا لم يحدث ذلك السبب الأساسي لمشكلة البيانات، فلا ينبغي أن يحدث أي من الأسباب المباشرة أيضًا. فهذه علاقة سببية مباشرة لهم جميعًا.

بطبيعة الحال، الأسباب الأساسية ليست واضحة دائمًا، كما أن الارتباطات ليست دقيقة دائمًا. إذا لم تكن واثقًا بإجابتك، فهناك طريقة احتمالية لمعرفة درجة ثقتك الحقيقية وهي تجربة فكرية: لنفترض أن رئيسك في العمل أخبرك أن فريقك سيتبنى فرضيتك بالكامل ولن يقوم أحد بالتحقق منها قبل طرحها في الإنتاج، وسيكون اسمك مكتوبًا عليها. إذا كان الأمر خطأ، فهذا خطؤك بالكامل. ما درجة الثقة التي تعطيها لفرضيتك من 0 إلى 100؟ إذا كانت أقل من 70، فاستمر في التحقيق.

تشمل مشكلات البيانات الشائعة الأساسية ما يلي:

1. خطأ المستخدم: سنبدأ بأخطاء المستخدم لأنها شائعة. ربما أدخل شخص ما مخططًا خطأ أو قيمة خطأ، ما يعني أن مسار العمل لا يقرأ البيانات، أو أجرى العملية الصحيحة بقيم غير صحيحة، والآن لديك مهمة فاشلة.

2. تسمية البيانات بشكل غير صحيح: في بعض الأحيان تنتقل الصفوف على الجدول ويتم تطبيق التسميات الصحيحة على الأعمدة الخطأ.

3. فشل شريك البيانات في التسليم: شائع جدًا أيضًا. يمكنك بناء نظام مقاوم للرصاص، ولكن لا يمكنك التحكم فيما لا تراه، وإذا كانت مشكلات البيانات موجودة في مصدر البيانات، فسوف تتسبب في حدوث خلل في مسارات البيانات السليمة تمامًا.

4. يوجد خطأ في التعليمات البرمجية: يُعد هذا أمرًا شائعًا عند وجود إصدار جديد من مسار البيانات. ويمكنك معرفة ذلك بسرعة باستخدام برامج إدارة الإصدارات مثل Git أو GitLab. قارن رمز الإنتاج بإصدار سابق وقم بإجراء اختبار مع ذلك الإصدار السابق.

5. خطأ في بيانات التعرف البصري على الحروف: يقرأ الماسح الضوئي الخاص بك البيانات بشكل خطأ، ما يؤدي إلى ظهور قيم غريبة (أو مفقودة).

6. مشكلة بيانات التضاؤل: مجموعة بيانات قديمة جدًا لدرجة أنها لم تعد صالحة.

7. مشكلة بيانات مكررة: في كثير من الأحيان، لم يتمكن المورّد من توفير البيانات، لذا استمر تشغيل مسار بيانات الأسبوع الماضي.

8. مشكلة الإذن: فشل مسار البيانات لأن النظام لم يكن لديه الإذن لسحب البيانات أو إجراء تحويل.

9. خطأ في البنية التحتية: ربما تكون قد استنفدت الذاكرة المتاحة أو حد استدعاء واجهة برمجة التطبيقات، أو لم تعمل مجموعة Apache Spark الخاصة بك، أو أن مستودع البيانات الخاص بك يعمل ببطء غير معتاد، لذا استمر التشغيل من دون البيانات.

10. تغييرات الجدول: غير شخص ما (أو شيء ما) الجدول الزمني وتسبب ذلك في تعطل مسار العمل أو عدم تشغيله.

11. مجموعة البيانات المتحيزة: من الصعب جدًا تصنيفها. إذ لا توجد طريقة جيدة للتحقق من ذلك سوى إجراء بعض الاختبارات لمعرفة ما إذا كانت البيانات غريبة مقارنة بمجموعة بيانات حقيقية مماثلة، أو معرفة كيفية جمعها أو إنشائها.

12. فشل المنسق: فشلت جدولة المسارات في جدولة المهمة أو تشغيلها.

13. الشبح في الآلة (آلة منبع البيانات): إنه حقًا غير معروف. من الصعب الاعتراف بأن هذا هو الحال، ولكن هذا صحيح في بعض الأشياء. أفضل ما يمكنك فعله هو التوثيق والاستعداد في المرة القادمة عندما تتمكن من جمع المزيد من البيانات والبدء في رسم الارتباطات.

ثم، بالطبع هناك حالات لا يكون فيها السبب الأساسي واضحًا تمامًا. فثمة العديد من الأمور المترابطة، وربما تكون متداخلة، ولكن لا توجد إجابة واحدة واضحة — وبعد إجراء التغييرات، تكون قد أصلحت مشكلة البيانات، على الرغم من أنك لست متأكدًا من السبب.

في هذه الحالات، كما هو الحال مع أي حالة، دون فرضيتك في السجل، وعندما تتمكن من العودة إليها، واصل اختبار البيانات التاريخية وكن على اطلاع على المشكلات الجديدة والأسباب الأكثر تفسيرًا.

وضعه موضع التنفيذ للحد من مشكلات البيانات

تُعد الصفة التي تميز مهندس البيانات الهاوي عن الخبير أكثر من غيرها هي قدرته على فرز الأسباب الجذرية، وراحته في التعامل مع الإجابات الملتبسة. تكون الأسباب المباشرة أحيانًا الأسباب الأساسية، ولكن ليس دائمًا. فترتبط الأسباب الأساسية أحيانًا بأسباب مباشرة محددة، ولكن ليس دائمًا. ولا يوجد تمييز أحيانًا بين تحيز البيانات والخطأ البشري.

يعلم مهندسو البيانات الممتازون أن مسارات البيانات متقلبة، ولها أحيانًا سمات أو 'شخصيات' خاصة بها. ولكنهم متنبهون لها ولديهم أدوات لقياسها، ودائمًا ما يبحثون عن تفسير أكثر موثوقية.

اكتشف كيف يوفر IBM Databand مراقبة مسارات البيانات للكشف بسرعة عن حوادث البيانات مثل الوظائف الفاشلة وعمليات التشغيل حتى تتمكن من التعامل مع نمو المسارات. إذا كنت مستعدًا لإلقاء نظرة أعمق، فاحجز عرضًا توضيحيًا اليوم.

حلول ذات صلة
منصة IBM StreamSets

إنشاء أنظمة تدفق البيانات الذكية وإدارتها من خلال واجهة رسومية سهلة الاستخدام، ما يسهِّل تكامل البيانات بسلاسة عبر البيئات الهجينة ومتعددة السحابة.

استكشف StreamSets
IBM watsonx.data

يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.

اكتشف watsonx.data
خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة مع IBM® Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.

اكتشف خدمات التحليلات
اتخِذ الخطوة التالية

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

استكشف حلول إدارة البيانات اكتشف watsonx.data