وفقا لتقرير Gartner، تشير البيانات المظلمة إلى الأصول المعلوماتية التي تجمعها المجموعات وتعالجها وتخزنها في أثناء الأنشطة التجارية الروتينية، ولكنها تفشل عمومًا في استخدامها لأغراض أخرى، مثل التحليلات والعلاقات التجارية وتحقيق الربح المباشر.1
تخزن معظم الشركات اليوم كميات هائلة من البيانات المظلمة. في استطلاع بحثي عالمي أجرته Splunk وشمل أكثر من 1,300 من صناع القرار في مجال الأعمال وتكنولوجيا المعلومات، أفاد 60 بالمائة من المستجيبين أن نصف بيانات مجموعاتهم أو أكثر تُعد بيانات مظلمة. كما أفاد ثلث المستجيبين بأن هذه النسبة تصل إلى 75 بالمائة أو أكثر.2
تتراكم البيانات المظلمة لأن المنظمات تتبنى فكرة أن تخزين جميع المعلومات الممكن جمعها في بحيرات البيانات الكبيرة ذو قيمة. ويرجع ذلك جزئيا إلى ظهور حلول التخزين منخفضة التكلفة، مما يجعل من السهل تبرير تخزين الكثير من البيانات - على أمل أن تصبح ذات قيمة في يوم من الأيام.
لكن في النهاية، لا تستخدم معظم الشركات حتى جزءًا صغيرًا مما تخزنه، إما لأن مستودعات التخزين لا توثق البيانات الوصفية بشكل مناسب، أو لأن بعض البيانات موجودة بتنسيقات لا تستطيع الأدوات المدمجة قراءتها، أو لأن البيانات لا يمكن استرجاعها من خلال الاستعلامات.
تعد البيانات المظلمة عاملًا رئيسيًا يحد من إنتاج تحليل بيانات دقيق، لأن جودة أي تحليل للبيانات تعتمد على حجم المعلومات المتاحة لأدوات التحليل، بشكل كامل وفي الوقت المناسب.
من بين المشكلات الأخرى المتعلقة بالبيانات المظلمة أنها تزيد من المسؤوليات، وتؤدي إلى تكاليف تخزين كبيرة، وتفوت الفرص بسبب عدم إدراك الفرق للبيانات التي يحتمل أن تكون متاحة لهم.
هناك عدة أسباب تجعل بيانات المنظمة تتحول إلى بيانات مظلمة، منها:
بالنسبة إلى قابليتها للاكتشاف لأغراض مبادرات تحليل البيانات الكاملة في الوقت المناسب، قد تكون البيانات المظلمة إما بيانات منظمة أو بيانات غير منظمة أو بيانات شبه منظمة.
البيانات المنظمة هي المعلومات التي تضاف إلى جدول بيانات أو حقول قاعدة بيانات محددة بوضوح قبل تخزينها.
تُعد ملفات سجل الخادم وبيانات أجهزة استشعار إنترنت الأشياء (IoT) وقواعد بيانات إدارة علاقات العملاء (CRM) وأنظمة تخطيط موارد المؤسسة (ERP) من الأمثلة على البيانات المظلمة التي يتم إنشاؤها من مصادر البيانات المنظمة.
على الرغم من أن معظم أشكال البيانات الحساسة، مثل كشوف الحسابات المصرفية الإلكترونية والسجلات الطبية وبيانات العملاء المشفرة تكون عادةً في شكل منظم، إلا أن عرضها وتصنيفها يصبح صعبًا بسبب مشاكل في الحصول على الأذونات.
على عكس البيانات المنظمة، تشمل البيانات غير المنظمة المعلومات التي لا يمكن تنظيمها في قواعد البيانات أو جداول البيانات للتحليل دون تحويلها وترميزها وتصنيفها وهيكلتها.
تشمل أمثلة البيانات المظلمة الناشئة عن مصادر بيانات غير منظمة: مراسلات البريد الإلكتروني، ملفات PDF، الوثائق النصية، منشورات وسائل التواصل الاجتماعي، تسجيلات مركز الاتصالات، سجلات المحادثات، ولقطات فيديو المراقبة.
البيانات شبه المنظمة هي بيانات غير منظمة تحتوي على بعض المعلومات في حقول بيانات محددة. على الرغم من أنها ليست سهلة الاكتشاف مثل البيانات المنظمة، إلا أنه يمكن البحث عنها أو فهرستها.
ومن الأمثلة على ذلك كود HTML والفواتير والرسوم البيانية والجداول ومستندات XML.
تتعدى تكاليف تخزين البيانات المظلمة إلى ما هو أكثر من التكلفة المالية المباشرة لتخزينها. تشمل التكاليف المباشرة وغير المباشرة ما يلي:
يتطلب تخزين البيانات، حتى إذا لم تكن مستخدمة بنشاط، بنية تحتية للتخزين سواء كانت مادية أو رقمية. وتشمل هذه الحلول، الخوادم ومراكز البيانات وحلول التخزين السحابي وأنظمة النسخ الاحتياطي. فكلما زاد عدد البيانات في نظامك البنائي، زادت الحاجة إلى سعة تخزين بيانات، ما يؤدي إلى زيادة تكاليف البنية التحتية.
أدخلت الحكومات مجموعة من قوانين الخصوصية العالمية على مدى السنوات العديدة الماضية، والتي تنطبق على جميع البيانات - حتى البيانات غير المستخدمة في مستودعات التحليلات.
تفقد العديد من الشركات الفرص نيجة عدم استخدام هذه البيانات . على الرغم من أنه من الجيد التخلص من البيانات المظلمة غير القابلة للاستخدام - بسبب المخاطر والتكاليف المرتبطة بها - إلا أنه من المفيد أولًا تحليل البيانات المتاحة لتحديد ما يمكن الاستفادة منه.
يمكن أن تؤدي إدارة كميات كبيرة من البيانات، بما في ذلك البيانات المظلمة، إلى إبطاء عمليات استرجاع البيانات وتحليلها. قد يضطر الموظفون إلى قضاء وقت أطول في البحث عن المعلومات ذات الصلة، مما يؤدي إلى تقليل الإنتاجية وزيادة تكاليف العمالة.
تشكل البيانات المظلمة مخاطر تتعلق بعدم كفاية الأمن السيبراني واختراق أمن البيانات وانتهاكات الامتثال وفقدان البيانات. ويمكن أن تؤدي هذه المخاطر إلى الإضرار بالسمعة وتبعات مالية كبيرة.
في بعض الأحيان يتم إنشاء البيانات المظلمة بسبب مشكلات في جودة البيانات.
على سبيل المثال، يتم إنشاء نسخة مكتوبة من تسجيل صوتي تلقائيا، لكن الذكاء الاصطناعي الذي أنشأ النسخة المكتوبة يرتكب بعض الأخطاء في النص. يحتفظ شخص ما بهذه النسخة معتقدًا أنه سيصلحها في وقت لاحق، لكنه لا يفعل ذلك أبدًا.
عندما تحاول المنظمات تنظيف البيانات ذات الجودة السيئة، فإنها تفشل أحيانا في تحديد السبب الأساسي للمشكلة. بدون الفهم الصحيح، يصبح من المستحيل ضمان عدم تكرار مشكلة جودة البيانات في المستقبل.
ثم يصبح هذا الوضع دوريًا، لأنه بدلًا من مجرد اتباع سياسات الحذف للبيانات المظلمة غير المستخدمة على الإطلاق، تتركها المنظمات تتراكم، مما يساهم في زيادة مشكلة جودة البيانات.
لحسن الحظ، هناك ثلاث خطوات يمكن للمنظمات اتباعها لإدارة جودة البيانات والتخفيف من هذه المشكلة:
على الرغم من كل التكاليف ومشكلات جودة البيانات الخاصة بالبيانات المظلمة، إلا أن هناك إيجابيات لها. كما أشارت Splunk، "قد تكون البيانات المظلمة واحدة من أكبر الموارد غير المستغلة في المجموعة".3
من خلال اتباع نهج استباقي لإدارة البيانات المظلمة، يمكن للمنظمات تسليط الضوء على هذه البيانات. وهذا لا يقلل من المسؤوليات والتكاليف فحسب، بل يوفر أيضًا للفرق الموارد التي يحتاجونها لاكتشاف معارف جديدة من البيانات المخفية.
عندما يتعلق الأمر بالتعامل مع البيانات المظلمة وإمكانية استخدامها لاتخاذ قرارات أفضل قائمة على البيانات، هناك العديد من أفضل الممارسات التي يجب اتباعها:
غالبًا ما تنشأ البيانات المظلمة بسبب الصوامع داخل المجموعة. يقوم أحد الفريقين بإنشاء بيانات قد تكون مفيدة لفريق آخر، لكن هذا الفريق الآخر لا يدرك وجودها. ويؤدي تفكيك تلك الصوامع إلى إتاحة تلك البيانات للفريق الذي يحتاج إليها. ما يحولها من بيانات غير مستخدمة إلى بيانات ذات قيمة كبيرة.
من الضروري فهم البيانات الموجودة داخل المجموعة. ويبدأ هذا الجهد بتصنيف جميع البيانات داخل المجموعة للحصول على رؤية كاملة ودقيقة. من هناك، يمكن للفرق تنظيم بياناتها بشكل أفضل بهدف تسهيل وصول الأفراد في الفرق إلى البيانات التي يحتاجون إليها واستخدامها.
يمكن أن يساعد تقديم سياسة إدارة البيانات على تحسين هذا التحدي على المدى الطويل. ويجب أن تغطي هذه السياسة كيفية تقييم جميع البيانات الجديدة وتقديم إرشادات واضحة حول ما يجب الاحتفاظ به (وتنظيمه للحفاظ على إدارة واضحة للبيانات) أو أرشفته أو إتلافه. جزء مهم من هذه السياسة هو الالتزام الصارم بإتلاف البيانات التي يجب إتلافها وتحديد الوقت المناسب لذلك. يمكن أن يساعد تطبيق إدارة البيانات وممارسات التقييمات بانتظام على تقليل كمية البيانات المظلمة التي لن يتم استخدامها أبدًا.
يمكن لأدوات التعلم الآلي (ML) والذكاء الاصطناعي (AI) أن تؤدي دورًا كبيرًا في اكتشاف البيانات المظلمة من خلال إجراء تحليل للبيانات وتصنيفها لاستخراج معارف قيّمة. بالإضافة إلى ذلك، يمكن لأتمتة التعلم الآلي أن تساعد في لوائح الامتثال لقوانين خصوصية البيانات عن طريق إزالة المعلومات الحساسة تلقائيا من البيانات المخزنة.
صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.
يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.
استفِد من قيمة بيانات المؤسسة باستخدام IBM Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.
1 Gartner Glossary، مجموعة Gartner
2 حالة البيانات المظلمة، مجموعة Splunk، عام 2019
3 البيانات المظلمة: اكتشاف فوائد البيانات المخفية واستخدامها، مجموعة Splunk، في 3 أغسطس 2023