ما هي البيانات المظلمة؟

ثلاثة مبرمجين يجلسون في مكتب مشترك ويتحدثون

ما هي البيانات المظلمة؟

وفقا لتقرير Gartner، تشير البيانات المظلمة إلى الأصول المعلوماتية التي تجمعها المجموعات وتعالجها وتخزنها في أثناء الأنشطة التجارية الروتينية، ولكنها تفشل عمومًا في استخدامها لأغراض أخرى، مثل التحليلات والعلاقات التجارية وتحقيق الربح المباشر.1

تخزن معظم الشركات اليوم كميات هائلة من البيانات المظلمة. في استطلاع بحثي عالمي أجرته Splunk وشمل أكثر من 1,300 من صناع القرار في مجال الأعمال وتكنولوجيا المعلومات، أفاد 60 بالمائة من المستجيبين أن نصف بيانات مجموعاتهم أو أكثر تُعد بيانات مظلمة. كما أفاد ثلث المستجيبين بأن هذه النسبة تصل إلى 75 بالمائة أو أكثر.2

تتراكم البيانات المظلمة لأن المنظمات تتبنى فكرة أن تخزين جميع المعلومات الممكن جمعها في بحيرات البيانات الكبيرة ذو قيمة. ويرجع ذلك جزئيا إلى ظهور حلول التخزين منخفضة التكلفة، مما يجعل من السهل تبرير تخزين الكثير من البيانات - على أمل أن تصبح ذات قيمة في يوم من الأيام.

لكن في النهاية، لا تستخدم معظم الشركات حتى جزءًا صغيرًا مما تخزنه، إما لأن مستودعات التخزين لا توثق البيانات الوصفية بشكل مناسب، أو لأن بعض البيانات موجودة بتنسيقات لا تستطيع الأدوات المدمجة قراءتها، أو لأن البيانات لا يمكن استرجاعها من خلال الاستعلامات.

تعد البيانات المظلمة عاملًا رئيسيًا يحد من إنتاج تحليل بيانات دقيق، لأن جودة أي تحليل للبيانات تعتمد على حجم المعلومات المتاحة لأدوات التحليل، بشكل كامل وفي الوقت المناسب.

من بين المشكلات الأخرى المتعلقة بالبيانات المظلمة أنها تزيد من المسؤوليات، وتؤدي إلى تكاليف تخزين كبيرة، وتفوت الفرص بسبب عدم إدراك الفرق للبيانات التي يحتمل أن تكون متاحة لهم.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

أسباب تحويل البيانات إلى بيانات مظلمة

هناك عدة أسباب تجعل بيانات المنظمة تتحول إلى بيانات مظلمة، منها:

  • نقص الوعي: غالبًا ما تتحول البيانات التي يتم جمعها أثناء العمليات التجارية الروتينية إلى بيانات مظلمة لأن المنظمات إما لا تدرك وجودها، أو لا تدرك قيمتها أو أهميتها.

  • البيانات المعزولة في صوامع: عندما تجمع الأقسام المختلفة داخل المنظمة البيانات وتخزنها بشكل مستقل، يمكن أن يؤدي ذلك إلى تجزئة البيانات وعزلها. قد لا يكون الوصول إلى صوامع البيانات هذه متاحًا أو مرئيًا للفرق الأخرى، التي من المحتمل أن تجد البيانات ذات قيمة كبيرة.

  • نقص إدارة البيانات: من دون وجود إطار عمل قوي لإدارة البيانات ، قد تكافح المجموعات في إدارة البيانات وتتبعها بفعالية عبر نظامها البنائي. ويؤدي هذا إلى عدم تنظيم البيانات وفقدانها وعدم استخدامها.

  • الأنظمة القديمة: عندما تقوم المنظمات بترقية البرمجيات والأجهزة، قد يتم إهمال الأنظمة القديمة أو تصبح أقل أهمية. تصبح البيانات المخزّنة في هذه الأنظمة القديمة مظلمة إذا لم يكن بالإمكان دمجها مع أدوات التحليلات الحديثة للمنظمة.

  • تكامل البيانات غير المكتملة: يمكن أن تؤدي عمليات تكامل البيانات غير المكتملة أو غير الفعالة إلى فجوات وتناقضات في البيانات. ما قد يؤدي إلى عدم إمكانية الوصول إلى بعض مجموعات البيانات أو عدم ربطها بشكل صحيح بمصادر البيانات الأخرى.

  • تغيّر أولويات العمل: مع تطور أولويات العمل، قد تصبح بعض مجموعات البيانات أقل أهمية أو يتم تجاهلها. وقد يتم تجاهل البيانات التي كانت تُستخدم بفعالية سابقًا مع تحوّل أهداف المنظمة.

  • محدودية الموارد ونقص المعرفة بالبيانات: قد تفضل المنظمات ذات الموارد المحدودة جمع البيانات وتخزينها على تحليلها. كما أن نقص المعرفة بالبيانات بين الموظفين يمكن أن يعيق اكتشاف البيانات القيّمة والاستفادة منها.

  • مشكلات جودة البيانات: يمكن أن تؤدي جودة البيانات الرديئة، مثل البيانات غير الدقيقة أو غير المكتملة، إلى استبعاد البيانات أو تجاهلها. فالبيانات التي يُنظر إليها على أنها غير موثوقة تصبح أقل استخدامًا، ما يجعلها فعليًا بيانات مظلمة.

  • أغراض الامتثال التنظيمي: تفرض العديد من معايير الامتثال والمعايير الحاكمة على المنظمات اتباع لوائح صارمة فيما يتعلق بالمدة التي يجب أن تخزن فيها البيانات الحساسة. غالبًا ما تجد المنظمات نفسها تخزن هذه البيانات لفترة أطول من المطلوب لأنها لا تتمكن من تتبع البيانات الحساسة التي يجب إتلافها.

  • البيانات الزائدة والمتقادمة والتافهة (ROT): يتم إنشاء هذه البيانات عندما يقوم الموظفون بحفظ نسخ متعددة من نفس المعلومات، أو معلومات قديمة، أو معلومات غير ذات صلة لا تساعد المنظمة على تحقيق أهدافها.
Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

أنواع البيانات المظلمة

بالنسبة إلى قابليتها للاكتشاف لأغراض مبادرات تحليل البيانات الكاملة في الوقت المناسب، قد تكون البيانات المظلمة إما بيانات منظمة أو بيانات غير منظمة أو بيانات شبه منظمة.

البيانات المنظمة هي المعلومات التي تضاف إلى جدول بيانات أو حقول قاعدة بيانات محددة بوضوح قبل تخزينها.

تُعد ملفات سجل الخادم وبيانات أجهزة استشعار إنترنت الأشياء (IoT) وقواعد بيانات إدارة علاقات العملاء (CRM) وأنظمة تخطيط موارد المؤسسة (ERP) من الأمثلة على البيانات المظلمة التي يتم إنشاؤها من مصادر البيانات المنظمة.

على الرغم من أن معظم أشكال البيانات الحساسة، مثل كشوف الحسابات المصرفية الإلكترونية والسجلات الطبية وبيانات العملاء المشفرة تكون عادةً في شكل منظم، إلا أن عرضها وتصنيفها يصبح صعبًا بسبب مشاكل في الحصول على الأذونات.

على عكس البيانات المنظمة، تشمل البيانات غير المنظمة  المعلومات التي لا يمكن تنظيمها في قواعد البيانات أو جداول البيانات للتحليل دون تحويلها وترميزها وتصنيفها وهيكلتها.

تشمل أمثلة البيانات المظلمة الناشئة عن مصادر بيانات غير منظمة: مراسلات البريد الإلكتروني، ملفات PDF، الوثائق النصية، منشورات وسائل التواصل الاجتماعي، تسجيلات مركز الاتصالات، سجلات المحادثات، ولقطات فيديو المراقبة.

البيانات شبه المنظمة هي بيانات غير منظمة تحتوي على بعض المعلومات في حقول بيانات محددة. على الرغم من أنها ليست سهلة الاكتشاف مثل البيانات المنظمة، إلا أنه يمكن البحث عنها أو فهرستها.

ومن الأمثلة على ذلك كود HTML والفواتير والرسوم البيانية والجداول ومستندات XML.

تكاليف البيانات المظلمة

تتعدى تكاليف تخزين البيانات المظلمة إلى ما هو أكثر من التكلفة المالية المباشرة لتخزينها. تشمل التكاليف المباشرة وغير المباشرة ما يلي:

تكاليف تخزين البيانات

يتطلب تخزين البيانات، حتى إذا لم تكن مستخدمة بنشاط، بنية تحتية للتخزين سواء كانت مادية أو رقمية. وتشمل هذه الحلول، الخوادم ومراكز البيانات وحلول التخزين السحابي وأنظمة النسخ الاحتياطي. فكلما زاد عدد البيانات في نظامك البنائي، زادت الحاجة إلى سعة تخزين بيانات، ما يؤدي إلى زيادة تكاليف البنية التحتية.

تكلفة المسؤولية

أدخلت الحكومات مجموعة من قوانين الخصوصية العالمية على مدى السنوات العديدة الماضية، والتي تنطبق على جميع البيانات - حتى البيانات غير المستخدمة في مستودعات التحليلات.

تكاليف الفرص

تفقد العديد من الشركات الفرص نيجة عدم استخدام هذه البيانات . على الرغم من أنه من الجيد التخلص من البيانات المظلمة غير القابلة للاستخدام - بسبب المخاطر والتكاليف المرتبطة بها - إلا أنه من المفيد أولًا تحليل البيانات المتاحة لتحديد ما يمكن الاستفادة منه.

تكاليف عدم الكفاءة

يمكن أن تؤدي إدارة كميات كبيرة من البيانات، بما في ذلك البيانات المظلمة، إلى إبطاء عمليات استرجاع البيانات وتحليلها. قد يضطر الموظفون إلى قضاء وقت أطول في البحث عن المعلومات ذات الصلة، مما يؤدي إلى تقليل الإنتاجية وزيادة تكاليف العمالة.

تكلفة المخاطر

تشكل البيانات المظلمة مخاطر تتعلق بعدم كفاية الأمن السيبراني واختراق أمن البيانات وانتهاكات الامتثال وفقدان البيانات. ويمكن أن تؤدي هذه المخاطر إلى الإضرار بالسمعة وتبعات مالية كبيرة.

مشكلات جودة البيانات والبيانات المظلمة

في بعض الأحيان يتم إنشاء البيانات المظلمة بسبب مشكلات في جودة البيانات.

على سبيل المثال، يتم إنشاء نسخة مكتوبة من تسجيل صوتي تلقائيا، لكن الذكاء الاصطناعي الذي أنشأ النسخة المكتوبة يرتكب بعض الأخطاء في النص. يحتفظ شخص ما بهذه النسخة معتقدًا أنه سيصلحها في وقت لاحق، لكنه لا يفعل ذلك أبدًا.

عندما تحاول المنظمات تنظيف البيانات ذات الجودة السيئة، فإنها تفشل أحيانا في تحديد السبب الأساسي للمشكلة. بدون الفهم الصحيح، يصبح من المستحيل ضمان عدم تكرار مشكلة جودة البيانات في المستقبل.

ثم يصبح هذا الوضع دوريًا، لأنه بدلًا من مجرد اتباع سياسات الحذف للبيانات المظلمة غير المستخدمة على الإطلاق، تتركها المنظمات تتراكم، مما يساهم في زيادة مشكلة جودة البيانات.

لحسن الحظ، هناك ثلاث خطوات يمكن للمنظمات اتباعها لإدارة جودة البيانات والتخفيف من هذه المشكلة:

  1. تحليل وتحديد الوضع الحالي "كما هو": لتحديد أولويات المشكلات، يجب أولًا التعرف على جميع المشكلات الحالية، ومعايير البيانات القائمة، وتأثيرها على الأعمال.

  2. منع تكرار البيانات السيئة: بعد ذلك، يجب تقييم السبب الأساسي لكل مشكلة، وتخصيص الموارد لحل المشكلة بطريقة مستدامة حتى لا تتكرر مرة أخرى.

  3. التواصل المستمر طوال العملية:  يجب مشاركة ما يحدث، وما يقوم به الفريق، وتأثير هذا العمل، وكيفية ارتباط هذه الجهود بأهداف العمل.

كيفية تسليط الضوء على البيانات المظلمة

على الرغم من كل التكاليف ومشكلات جودة البيانات الخاصة بالبيانات المظلمة، إلا أن هناك إيجابيات لها. كما أشارت Splunk، "قد تكون البيانات المظلمة واحدة من أكبر الموارد غير المستغلة في المجموعة".3

من خلال اتباع نهج استباقي لإدارة البيانات المظلمة، يمكن للمنظمات تسليط الضوء على هذه البيانات. وهذا لا يقلل من المسؤوليات والتكاليف فحسب، بل يوفر أيضًا للفرق الموارد التي يحتاجونها لاكتشاف معارف جديدة من البيانات المخفية.

عندما يتعلق الأمر بالتعامل مع البيانات المظلمة وإمكانية استخدامها لاتخاذ قرارات أفضل قائمة على البيانات، هناك العديد من أفضل الممارسات التي يجب اتباعها:

تفكيك صوامع البيانات

غالبًا ما تنشأ البيانات المظلمة بسبب الصوامع داخل المجموعة. يقوم أحد الفريقين بإنشاء بيانات قد تكون مفيدة لفريق آخر، لكن هذا الفريق الآخر لا يدرك وجودها. ويؤدي تفكيك تلك الصوامع إلى إتاحة تلك البيانات للفريق الذي يحتاج إليها. ما يحولها من بيانات غير مستخدمة إلى بيانات ذات قيمة كبيرة.

تحسين إدارة البيانات

من الضروري فهم البيانات الموجودة داخل المجموعة. ويبدأ هذا الجهد بتصنيف جميع البيانات داخل المجموعة للحصول على رؤية كاملة ودقيقة. من هناك، يمكن للفرق تنظيم بياناتها بشكل أفضل بهدف تسهيل وصول الأفراد في الفرق إلى البيانات التي يحتاجون إليها واستخدامها.

وضع سياسات إدارة البيانات

يمكن أن يساعد تقديم سياسة إدارة البيانات على تحسين هذا التحدي على المدى الطويل. ويجب أن تغطي هذه السياسة كيفية تقييم جميع البيانات الجديدة وتقديم إرشادات واضحة حول ما يجب الاحتفاظ به (وتنظيمه للحفاظ على إدارة واضحة للبيانات) أو أرشفته أو إتلافه. جزء مهم من هذه السياسة هو الالتزام الصارم بإتلاف البيانات التي يجب إتلافها وتحديد الوقت المناسب لذلك. يمكن أن يساعد تطبيق إدارة البيانات وممارسات التقييمات بانتظام على تقليل كمية البيانات المظلمة التي لن يتم استخدامها أبدًا.

استخدم أدوات التعلم الآلي والذكاء الاصطناعي لتحليل البيانات

يمكن لأدوات التعلم الآلي (ML) والذكاء الاصطناعي (AI) أن تؤدي دورًا كبيرًا في اكتشاف البيانات المظلمة من خلال إجراء تحليل للبيانات وتصنيفها لاستخراج معارف قيّمة. بالإضافة إلى ذلك، يمكن لأتمتة التعلم الآلي أن تساعد في لوائح الامتثال لقوانين خصوصية البيانات عن طريق إزالة المعلومات الحساسة تلقائيا من البيانات المخزنة.

حلول ذات صلة
برمجيات وحلول إدارة البيانات

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

استكشف حلول إدارة البيانات
IBM watsonx.data

يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.

اكتشف watsonx.data
خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة باستخدام IBM Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.

اكتشف خدمات التحليلات
اتخِذ الخطوة التالية

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

استكشف حلول إدارة البيانات اكتشف watsonx.data
الحواشي

1 Gartner Glossary، مجموعة Gartner

2 حالة البيانات المظلمة، مجموعة Splunk، عام 2019

3 البيانات المظلمة: اكتشاف فوائد البيانات المخفية واستخدامها، مجموعة Splunk، في 3 أغسطس 2023