تُشير إمكانية ملاحظة البيانات إلى ممارسة مراقبة البيانات وإدارتها وصيانتها بما يضمن جودتها وتوافرها وموثوقيتها عبر مختلَف العمليات والأنظمة ومسارات المعالجة داخل المؤسسة.
تتعلق إمكانية ملاحظة البيانات بالفهم الحقيقي لسلامة بياناتك وحالتها عبر منظومة البيانات لديك. ويشمل ذلك مجموعة متنوعة من الأنشطة التي تتجاوز المراقبة التقليدية، والتي تصف المشكلة فقط. إذ يمكن أن تساعد إمكانية ملاحظة البيانات على تحديد مشكلات البيانات واستكشاف الأخطاء وإصلاحها في زمن شبه حقيقي.
يُعَد استخدام أدوات ملاحظة البيانات أمرًا ضروريًا للتغلب على مشكلات البيانات السيئة، والتي تشكِّل جوهر موثوقية البيانات. تُتيح هذه الأدوات المراقبة الآلية، وتنبيهات الفرز، والتتبع، والمقارنات، وتحليل السبب الأساسي، والتسجيل، وتتبُّع دورة حياة البيانات واتفاقية مستوى الخدمة (SLA)، وكلها تعمل معًا لمساعدة الممارسين على فهم جودة البيانات بشكل شامل - بما في ذلك موثوقية البيانات.
يُعَد تنفيذ حل إمكانية ملاحظة البيانات أمرًا مهمًا بشكل خاص بالنسبة لفرق البيانات الحديثة، حيث تُستخدم البيانات لاكتساب الرؤى وتطوير نماذج التعلم الآلي ودفع الابتكار. ويضمن ذلك أن تظل البيانات بمثابة أصل قيِّم وليس مسؤولية محتملة.
يجب دمج إمكانية ملاحظة البيانات بشكل متسق طوال دورة حياة البيانات من البداية إلى النهاية. بهذه الطريقة، تكون جميع أنشطة إدارة البيانات المعنية موحدة ومركزية عبر الفرق للحصول على رؤية واضحة وغير منقطعة للمشكلات والتأثيرات عبر المؤسسة.
تُعَد إمكانية ملاحظة البيانات التطور الطبيعي لحركة جودة البيانات، والتي تجعل ممارسة عمليات البيانات ممكنة.
بشكل واضح وبسيط، تعتقد معظم المؤسسات أن بياناتها غير موثوق بها:
لا يمكن الاستهانة بتأثير هذه البيانات السيئة. في مايو 2022، اكتشفت Unity Software أنها كانت تستوعب بيانات سيئة من عميل كبير، ما أدى إلى انخفاض بنسبة 30% في أسهم الشركة3 وكلَّف الشركة في النهاية 110 ملايين دولار أمريكي من الإيرادات المفقودة4.
تقليديًا، كان من الصعب تحديد البيانات السيئة إلا بعد فوات الأوان. على عكس ما يحدث عندما يتعطل التطبيق ويؤثر في آلاف المستخدمين على الفور، يمكن للشركات العمل على بيانات سيئة دون علم لبعض الوقت. على سبيل المثال، سيعرف فريق المبيعات على الفور إذا لم يتم تحميل لوحة معلومات Salesforce، ولكن لا يمكن معرفة كم من الوقت سيستغرقهم الأمر لمعرفة أن لوحة المعلومات تعرِض بيانات غير صحيحة.
تُعَد إمكانية ملاحظة البيانات أفضل دفاع ضد وصول البيانات السيئة. فهي تراقب مسارات البيانات لضمان تسليم البيانات بشكل كامل ودقيق وفي الوقت المناسب حتى تتمكن فرق البيانات من منع فترة التعطل، والوفاء باتفاقيات مستوى الخدمة الخاصة بالبيانات والحفاظ على ثقة الشركة في البيانات التي تراها.
توفِّر أنظمة البيانات الحديثة مجموعة متنوعة من الوظائف، ما يسمح للمستخدمين بتخزين بياناتهم والاستعلام عنها بعدة طرق مختلفة. بالطبع كلما زادت الوظائف التي تضيفها، أصبح الأمر أكثر تعقيدًا لضمان عمل نظامك بشكل صحيح. وتتضمن هذه المضاعفات ما يلي:
في الماضي، تم إنشاء البنية التحتية للبيانات للتعامل مع كميات صغيرة من البيانات -عادةً البيانات التشغيلية من عدد قليل من مصادر البيانات الداخلية- ولم يكن من المتوقع أن تتغير البيانات كثيرًا. الآن، تعتمد العديد من منتجات البيانات على البيانات من مصادر داخلية وخارجية، ويمكن أن يتسبب الحجم الهائل والسرعة التي تتم بها جمع هذه البيانات في حدوث انجراف غير متوقع وتغييرات في المخطط وتحولات وتأخيرات.
يعني المزيد من البيانات التي يتم استيعابها من مصادر البيانات الخارجية أنك بحاجة إلى تحويل كل هذه البيانات وهيكلتها وتجميعها في جميع التنسيقات الأخرى لجعلها كلها قابلة للاستخدام. والأسوأ من ذلك، أن أي تغيير في تلك التنسيقات قد يؤدي إلى سلسلة من الأعطال المتتابعة (تأثير الدومينو)، إذ تفشل المنطقية المشفّرة بشكل صارم في التكيُّف مع المخطط الجديد.
أدت مسارات استيعاب البيانات المعقدة إلى ظهور أدوات جديدة تهدف إلى تبسيط العملية بشكل شامل، عبر أتمتة معظم عمليات والاستخراج، والتحويل، والتحميل (ETL)، أو الاستخراج، والتحميل، والتحويل (ELT) ومن خلال جمعهما معًا، تحصل على منصة بيانات أطلقت عليها صناعة التحليلات اسم "مجموعة البيانات الحديثة" أو MDS. الهدف من MDS هو تقليل مقدار الوقت الذي تستغرقه البيانات لتصبح قابلة للاستخدام للمستخدمين النهائيين (عادةً المحللين) حتى يتمكنوا من البدء بالاستفادة من هذه البيانات بشكل أسرع. ومع ذلك، كلما زادت الأتمتة لديك، قلَّ تحكمك في كيفية تسليم البيانات. تحتاج هذه المؤسسات إلى إنشاء مسارات بيانات مخصصة حتى تتمكن من ضمان تسليم البيانات بالشكل المتوقع بشكل أفضل.
تُعَد عمليات البيانات (DataOps) سير عمل يُتيح مسار تسليم سريعًا وحلقة تعليقات حتى تتمكن الشركات من إنشاء منتجاتها وصيانتها بكفاءة أكبر. تُتيح DataOps للشركات استخدام الأدوات والاستراتيجية نفسها في جميع مراحل مشاريع التحليلات، بدءًا من وضع النماذج الأولية وحتى نشر المنتج.
تحدِّد دورة DataOps الأنشطة الأساسية اللازمة لتحسين إدارة البيانات ضمن سير عمل DataOps. تتكون هذه الدورة من ثلاث مراحل متميزة: الكشف والوعي والتكرار.
من المهم أن تبدأ هذه الدورة بالكشف؛ لأن أساس حركة DataOps يعتمد على مبادرة جودة البيانات.
تركِّز هذه المرحلة الأولى من دورة DataOps على التحقق من الصحة. يتضمن ذلك نفس عمليات التحقق من جودة البيانات التي تم استخدامها منذ إنشاء مستودع البيانات. لقد كانوا يبحثون في مخطط العمود والتحقق من صحة مستوى الصف. في الأساس، عليك التأكد من أن جميع مجموعات البيانات تلتزم بقواعد العمل في نظام البيانات.
يُعد إطار عمل جودة البيانات الذي يعيش في مرحلة الكشف أمرًا مهمًا ولكنه رد فعل بطبيعته. فهو يمنحك القدرة على معرفة إذا ما كانت البيانات مخزنة بالفعل في بحيرة البيانات أو مستودع البيانات (ومن المحتمل أن تكون مستخدمة بالفعل) بالشكل الذي تتوقعه.
من المهم أيضًا ملاحظة أنك تتحقق من صحة مجموعات البيانات واتباع قواعد العمل التي تعرفها. إذا كنت لا تعرف أسباب المشكلات، فلا يمكنك وضع قواعد عمل أعمال جديدة لمهندسيك لاتباعها. يعزز هذا الإدراك الحاجة إلى تبني نهج مستمر لإمكانية ملاحظة البيانات، يرتبط بشكل مباشر بجميع مراحل دورة حياة البيانات، بدءًا من البيانات المصدرية.
الوعي هو مرحلة تركِّز على الرؤية في مرحلة DataOps. وهنا يأتي دور المحادثة حول حوكمة البيانات وتقديم نهج يضع البيانات الوصفية أولًا. يؤدي تركيز البيانات الوصفية لمسارات ومجموعات البيانات وتوحيدها عبر منظومة البيانات إلى منح الفرق رؤية للمشكلات داخل المؤسسة بأكملها.
تُعَد مركزية البيانات الوصفية أمرًا بالغ الأهمية لمنح المؤسسة الوعي بالسلامة الشاملة لبياناتها. يُتيح لك ذلك الانتقال إلى نهج أكثر استباقية لحل مشكلات البيانات. إذا كانت هناك بيانات سيئة تدخل "المجال" الخاص بك، فيمكنك تتبُّع الخطأ إلى نقطة معينة في المنبع في نظام بياناتك. على سبيل المثال، يمكن لفريق هندسة البيانات "أ" الآن أن يطلع على مسارات فريق هندسة البيانات "ب" وأن يكون قادرًا على فهم ما يحدث والتعاون معه لإصلاح المشكلة.
ينطبق العكس أيضًا. يمكن لفريق هندسة البيانات "ب" اكتشاف المشكلة وتتبُّع تأثيرها على التبعيات اللاحقة. وهذا يعني أن فريق هندسة البيانات "أ" سيعرف أن المشكلة ستحدث ويمكنه اتخاذ أي تدابير ضرورية لاحتوائها.
هنا، تركِّز الفرق على البيانات كتعليمات برمجية. وهذه المرحلة من الدورة تركِّز على العمليات. تعمل الفرق على ضمان وجود معايير قابلة للتكرار والاستدامة والتي سيتم تطبيقها على جميع عمليات تطوير البيانات لضمان حصولهم على البيانات الموثوق بها نفسها في نهاية تلك المسارات.
أصبح التحسين التدريجي للسلامة العامة لمنصة البيانات ممكنًا الآن من خلال اكتشاف المشكلات والوعي بالأسباب الجذرية الأولية والعمليات الفعَّالة للتكرار.
يمكن لاستراتيجية إمكانية ملاحظة البيانات التي يتم تنفيذها بشكل جيد أن توفِّر مجموعة من الفوائد التي تساهم في تحسين جودة البيانات واتخاذ القرارات والموثوقية والأداء التنظيمي العام. ويشمل ذلك:
تُتيح إمكانية ملاحظة البيانات للفرق اكتشاف المشكلات مثل القيم المفقودة أو السجلات المكررة أو التنسيقات غير المتسقة في وقت مبكر قبل أن تؤثر في التبعيات اللاحقة. وبفضل البيانات عالية الجودة، يتم تمكين المؤسسات من اتخاذ قرارات أفضل قائمة على البيانات تؤدي إلى تحسين العمليات ورضا العملاء والأداء العام.
تُتيح إمكانية ملاحظة البيانات للفرق إمكانية تحديد الأخطاء أو الانحرافات في البيانات بسرعة من خلال الكشف عن الحالات الشاذة والمراقبة في الوقت الفعلي والتنبيهات. يساعد استكشاف الأخطاء وإصلاحها وحل المشكلات بشكل أسرع على تقليل تكلفة وشدة فترة التعطل.
من خلال استخدام لوحات المعلومات المشتركة التي توفرها منصات إمكانية ملاحظة البيانات، يمكن للأطراف المعنية المختلفة الحصول على رؤية واضحة لحالة مجموعات البيانات المهمة، ما قد يعزز التعاون بشكل أفضل بين الفرق.
تساعد أدوات إمكانية ملاحظة البيانات على تحديد العوائق ومشاكل الأداء، ما يُتيح للمهندسين تحسين أنظمتهم لتحسين استخدام الموارد وأوقات المعالجة بشكل أسرع. بالإضافة إلى ذلك، تقلل الأتمتة من الوقت والجهد اللازمين للحفاظ على سلامة بياناتك، ما يسمح لمهندسي البيانات والمحللين وعلماء البيانات بتركيز جهودهم على استخلاص القيمة من البيانات.
يمكن لإمكانية ملاحظة البيانات أن تساعد المؤسسة في الصناعات شديدة التنظيم مثل التمويل والرعاية الصحية والاتصالات على ضمان تلبية بياناتها للمعايير اللازمة للدقة والاتساق والأمان. وهذا يقلل من مخاطر عدم الامتثال والعقوبات المرتبطة به.
تُعَد البيانات عالية الجودة ضرورية لفهم احتياجات العملاء وتفضيلاتهم وسلوكياتهم، والتي بدورها تمكِّن المؤسسات من تقديم تجربة أكثر تخصيصًا وملاءمة. يمكن أن تساعد إمكانية ملاحظة البيانات المؤسسات في الحفاظ على بيانات دقيقة ومحدثة للعملاء، ما يؤدي إلى تحسين رضا العملاء وولائهم.
من خلال تحسين جودة البيانات باستخدام إمكانية الملاحظة، يمكن للمؤسسات اكتشاف رؤى جديدة وتحديد التوجهات واكتشاف فرص محتملة لتوليد الإيرادات. ومن خلال الاستفادة القصوى من أصول بياناتها، يمكن للمؤسسات زيادة إيراداتها ونموها.
توفِّر الركائز الخمس لإمكانية ملاحظة البيانات مجتمعةً رؤى قيِّمة لجودة بياناتك وموثوقيتها.
تصف الحداثة مدى تحديث بياناتك ومدى تكرار تحديثها. يحدث ثبات البيانات عندما تكون هناك فجوات مهمة في الوقت الذي لا يتم فيه تحديث البيانات. في كثير من الأحيان، عندما يحدث خلل في مسارات البيانات، يكون ذلك بسبب مشكلة في الحداثة.
يُعَد التوزيع مؤشرًا على سلامة بياناتك على مستوى الحقل، ويشير إلى إذا ما كانت البيانات تقع ضمن نطاق مقبول أم لا. قد تُشير الانحرافات عن التوزيع المتوقع إلى وجود مشكلات في جودة البيانات أو أخطاء أو تغييرات في مصادر البيانات الأساسية.
يشير الحجم إلى كمية البيانات التي يتم إنشاؤها واستيعابها وتحويلها ونقلها من خلال العمليات والمسارات المختلفة. كما يشير إلى اكتمال جداول بياناتك. يُعَد الحجم مؤشرًا رئيسيًا لمعرفة إذا ما كان استهلاك البيانات الخاص بك يُلبي الحدود المتوقعة أم لا.
يصِف المخطط تنظيم بياناتك. غالبًا ما تؤدي تغييرات المخطط إلى تلف البيانات. تساعد إمكانية ملاحظة البيانات على ضمان تنظيم بياناتك بشكل متسق ومتوافق عبر الأنظمة المختلفة والحفاظ على سلامتها طوال دورة حياتها.
الغرض من دورة الحياة هو الإجابة عن السؤال "أين؟" عندما يحدث خلل في البيانات. فهي تبحث في البيانات من مصدرها إلى موقعها النهائي وتلاحظ أي تغييرات، بما في ذلك ما تغيَّر، ولماذا تغيَّر وكيف تغيَّر على طول الطريق. وفي أغلب الأحيان يتم تمثيل دورة الحياة بصريًا.
تدعم إمكانية ملاحظة البيانات جودة البيانات، ولكن الاثنين يمثلان جوانب مختلفة لإدارة البيانات.
في حين أن ممارسات إمكانية ملاحظة البيانات قد تُشير إلى مشاكل الجودة في مجموعات البيانات، إلا أنها لا تستطيع بمفردها ضمان جودة البيانات الجيدة. يتطلب ذلك جهودًا لإصلاح مشكلات البيانات ومنع حدوثها في المقام الأول. من ناحية أخرى، يمكن للمؤسسة أن تتمتع بجودة البيانات حتى لو لم تنفِّذ إمكانية ملاحظة البيانات.
تقيس مراقبة جودة البيانات إذا ما كانت حالة مجموعات البيانات جيدة بما يكفي لاستخداماتها المقصودة في التطبيقات التشغيلية والتحليلية. لاتخاذ هذا القرار، يتم فحص البيانات بناءً على أبعاد مختلفة للجودة، مثل الدقة والاكتمال والاتساق والصلاحية والموثوقية وحُسن التوقيت.
تُعَد إمكانية ملاحظة البيانات وحوكمة البيانات عمليتين متكاملتين تدعمان بعضهما.
تهدف حوكمة البيانات إلى ضمان توفر بيانات المؤسسة وإمكانية استخدامها وتناسقها وأمانها، واستخدامها بما يتوافق مع المعايير والسياسات الداخلية. غالبًا ما تتضمن برامج الحوكمة جهود تحسين جودة البيانات أو ترتبط بها ارتباطًا وثيقًا.
يساعد وجود برنامج قوي لحوكمة البيانات على التخلص من صوامع البيانات ومشاكل تكامل البيانات وجودة البيانات الرديئة التي يمكن أن تَحُد من قيمة ممارسات إمكانية ملاحظة البيانات
.
يمكن أن تساعد إمكانية ملاحظة البيانات برنامج الحوكمة من خلال مراقبة التغيُّرات في جودة البيانات وتوافرها ودورة حياتها.
ليست جميع أدوات إمكانية ملاحظة البيانات متساوية. يعتمد مستوى السياق الذي يمكنك تحقيقه على البيانات الوصفية التي يمكنك جمعها وتوفير الرؤية لها. وهذا ما يُعرف بإمكانية ملاحظة البيانات. كل مستوى يشكِّل أساسًا للمستوى الذي يليه، ما يُتيح لك الوصول إلى درجات أدق من إمكانية الملاحظة.
يُعَد الحصول على رؤية واضحة لسلامة العمليات ومجموعة البيانات أساسًا قويًا لأي إطار عمل لإمكانية ملاحظة البيانات.
تُشير مراقبة سلامة مجموعة البيانات إلى مراقبة مجموعة البيانات الخاصة بك ككل. أنت تحصل على الوعي بحالة بياناتك أثناء وجودها في موقع ثابت، وهو ما يُشار إليه باسم "البيانات في حالة السكون".
تجيب مراقبة مجموعة البيانات عن أسئلة مثل:
تُشير المراقبة التشغيلية إلى مراقبة حالة المسارات. يمنحك هذا النوع من المراقبة وعيًا بحالة بياناتك أثناء تحولها وانتقالها عبر المسارات. ويُشار إلى حالة البيانات هذه باسم "البيانات المتحركة".
تجيب مراقبة المسارات عن أسئلة مثل:
على الرغم من أن مراقبة مجموعة البيانات ومسارات البيانات عادةً ما يتم فصلها إلى نشاطين مختلفين، فمن الضروري إبقاؤهما مرتبطَين لتحقيق أساس متين من إمكانية الملاحظة. هاتان الحالتان مترابطتان للغاية وتعتمدان على بعضهما. ويؤدي عزل هذَين النشاطَين في أدوات أو فرق عمل مختلفة إلى زيادة صعوبة الحصول على رؤية عالية المستوى لسلامة بياناتك.
يُعَد التحليل على مستوى الأعمدة مفتاحًا لهذا التسلسل الهرمي. وبمجرد وضع أساس متين لذلك، يمنحك التحليل على مستوى الأعمدة الرؤى التي تحتاجها لإنشاء قواعد عمل جديدة لمؤسستك وتطبيق القواعد الحالية على مستوى العمود بدلًا من مستوى الصف فقط.
يُتيح لك هذا المستوى من الوعي تحسين إطار جودة البيانات لديك بطريقة قابلة للتنفيذ بشكل فعَّال.
ويجيب عن أسئلة مثل:
من هنا، يمكنك الانتقال إلى المستوى النهائي لإمكانية الملاحظة: التحقق على مستوى الصفوف. يبحث هذا في قيم البيانات في كل صف ويتحقق من صحتها.
يبحث هذا النوع من إمكانية الملاحظة فيما يلي:
عندما تركِّز المؤسسات تركيزًا مفرطًا على التحقق من صحة الصفوف الفردية، يصبح من الصعب رؤية الصورة الكاملة. من خلال بناء إطار عمل للمراقبة يبدأ بمراقبة العمليات ومجموعات البيانات، يمكنك الحصول على فهم شامل لسلامة بياناتك، مع القدرة على التركيز على الأسباب الأساسية للمشكلات وتأثيراتها اللاحقة.
فيما يلي الخطوات الرئيسية التي يتم تضمينها عادةً في بناء مسار ناجح لإمكانية الملاحظة. تتضمن العملية تكامل أدوات وتقنيات مختلفة، بالإضافة إلى تعاون الفرق المختلفة داخل المؤسسة.
يُعَد بناء مسار إمكانية الملاحظة عملية مستمرة من التعلم والتطوير. من المهم أن تبدأ على نطاق صغير، وتتعلم من التجربة وتوسِّع قدراتك على الملاحظة بشكل تدريجي.
تقدم IBM حلول جودة بيانات تعمل على تحسين الأبعاد الرئيسية مثل الدقة والاكتمال والاتساق.
يتيح IBM Databand مراقبة جودة البيانات في الوقت الفعلي لاكتشاف مشكلات جودة البيانات السيئة وضمان جودة أفضل للبيانات.
استفِد من قيمة بيانات المؤسسة مع IBM Consulting لبناء مؤسسة تعتمد على الرؤى لتحقيق ميزة تنافسية في الأعمال.
1 Data Integrity Trends: Chief Data Officer Perspectives in 2021, Precisely, June 2021
2 The data powered enterprise: Why organizations must strengthen their data mastery, Capgemini, February 2021
3 Unity Software's stock plunges nearly 30% on weak revenue guidance, MarketWatch, 10 May 2022
4 2 Reasons Unity Software’s Virtual World is Facing a Stark Reality, The Motley Fool, 17 July 2022