أحدث الأخبار التقنية، مدعومة برؤى خبراء
ابقَ على اطلاع دائم على أبرز الاتجاهات في مجالات الذكاء الاصطناعي، والأتمتة، والبيانات، وغيرها الكثير من خلال رسالة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.
البيانات المظلمة هي المعلومات التي تجمعها المؤسسات لكنها غالبا لا تستخدمها أبدا للتحليلات أو اتخاذ القرار.
تخزن معظم الشركات اليوم كميات هائلة من البيانات المظلمة. في استطلاع بحثي عالمي أجرته Splunk وشمل أكثر من 1,300 من صناع القرار في مجال الأعمال وتقنية المعلومات، أفاد 60 بالمائة من المستجيبين أن نصف بيانات منظماتهم أو أكثر تعتبر بيانات مظلمة. كما أفاد ثلث المستجيبين بأن هذه النسبة تصل إلى 75 بالمائة أو أكثر.1
تتراكم البيانات المظلمة لأن المنظمات تتبنى فكرة أن تخزين جميع المعلومات الممكن جمعها في بحيرات البيانات الضخمة ذو قيمة في بحيرات البيانات الضخمة. ويرجع ذلك جزئيًا إلى ظهور التخزين الرخيص، الذي جعل من السهل تبرير تخزين هذا الكم الكبير من البيانات، في حال أصبحت ذات قيمة يوما ما.
في النهاية، معظم الشركات لا تستخدم حتى جزءًا بسيطًا مما تخزنه لأن خزان التخزين لا يوثق تسميات البيانات الوصفية بشكل مناسب، أو أن بعض البيانات تكون بصيغة لا تستطيع الأدوات المدمجة قراءتها أو لا يمكن استرجاعها عبر الاستعلام.
تعد البيانات المظلمة عاملًا رئيسيًا يحد من إنتاج تحليل بيانات دقيق، لأن جودة أي تحليل للبيانات تعتمد على حجم المعلومات المتاحة لأدوات التحليل، بشكل كامل وفي الوقت المناسب.
من بين المشكلات الأخرى المتعلقة بالبيانات المظلمة أنها تزيد من المسؤوليات، وتؤدي إلى تكاليف تخزين كبيرة، وتفوت الفرص بسبب عدم إدراك الفرق للبيانات التي يحتمل أن تكون متاحة لهم.
هناك عدة أسباب تجعل بيانات المنظمة تتحول إلى بيانات مظلمة، منها:
ابقَ على اطلاع دائم على أبرز الاتجاهات في مجالات الذكاء الاصطناعي، والأتمتة، والبيانات، وغيرها الكثير من خلال رسالة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.
من حيث قابليتها للاكتشاف لمبادرات التحليلات الكاملة وفي الوقت المناسب، يمكن أن تكون البيانات المظلمة بيانات منظمة أو بيانات غير منظمة أو شبه منظمة.
البيانات المنظمة هي معلومات تضاف إلى حقول جدول بيانات أو قاعدة بيانات قبل تخزينها.
تعد ملفات سجل الخادم وبيانات أجهزة إنترنت الأشياء (IoT) وقواعد بيانات إدارة علاقات العملاء (CRM) وأنظمة تخطيط موارد المؤسسات (ERP) من الأمثلة على البيانات المظلمة التي يتم إنشاؤها من مصادر البيانات المنظمة.
على الرغم من أن معظم أشكال البيانات الحساسة - مثل كشوف الحسابات المصرفية الإلكترونية والسجلات الطبية وبيانات العملاء المشفرة - عادةً ما تكون في شكل منظم، إلا أنه من الصعب عرضها وتصنيفها بسبب مشكلات الأذونات.
على عكس البيانات المنظمة، تشمل البيانات غير المنظمة معلومات لا يمكن تنظيمها في قواعد البيانات أو جدول بيانات للتحليل دون التحويل أو الترميز أو التصنيف أو الهيكلة.
تشمل أمثلة البيانات المظلمة الناشئة عن مصادر بيانات غير منظمة: مراسلات البريد الإلكتروني، ملفات PDF، الوثائق النصية، منشورات وسائل التواصل الاجتماعي، تسجيلات مركز الاتصالات، سجلات المحادثات، ولقطات فيديو المراقبة.
البيانات شبه المنظمة هي بيانات غير منظمة تحتوي على بعض المعلومات في حقول بيانات محددة. على الرغم من أنها ليست سهلة الاكتشاف مثل البيانات المنظمة، إلا أنه يمكن البحث عنها أو فهرستها.
ومن الأمثلة على ذلك كود HTML والفواتير والرسوم البيانية والجداول ومستندات XML.
تتعدى تكاليف تخزين البيانات المظلمة إلى ما هو أكثر من التكلفة المالية المباشرة لتخزينها. تشمل التكاليف المباشرة وغير المباشرة ما يلي:
تخزين البيانات، حتى لو لم تكن مستخدمة بنشاط، يتطلب بنية تحتية للتخزين الفيزيائي أو الرقمي. يمكن أن يشمل ذلك الخوادم، مركز البيانات، وحلول التخزين السحابي، وأنظمة النسخ الاحتياطي. كلما زاد عدد البيانات في نظامك البنائي، زادت الحاجة إلى سعة تخزين البيانات، مما يؤدي إلى زيادة تكاليف البنية التحتية.
أدخلت الحكومات مجموعة من قوانين الخصوصية العالمية على مدى السنوات العديدة الماضية، والتي تنطبق على جميع البيانات - حتى البيانات غير المستخدمة في مستودعات التحليلات.
تفقد العديد من الشركات الفرص نتيجة عدم استخدام هذه البيانات . على الرغم من أنه من الجيد التخلص من البيانات المظلمة غير القابلة للاستخدام- بسبب المخاطر والتكاليف- إلا أنه من المفيد أولاً تحليل البيانات المتاحة لتحديد ما يمكن أن يكون قابلاً للاستخدام.
يمكن أن تؤدي إدارة كميات كبيرة من البيانات، بما في ذلك البيانات المظلمة، إلى إبطاء عمليات استرجاع البيانات وتحليلها. قد يقضي الموظفون وقتًا أطول في البحث عن المعلومات ذات الصلة، مما يؤدي إلى انخفاض الإنتاجية وزيادة تكاليف العمالة.
تشكل البيانات المظلمة مخاطر تتعلق بعدم كفاية الأمن السيبراني واختراق أمن البيانات وانتهاكات الامتثال وفقدان البيانات. ويمكن أن تؤدي هذه المخاطر إلى الإضرار بالسمعة وتبعات مالية كبيرة.
في بعض الأحيان يتم إنشاء بيانات مظلمة بسبب مشكلات في جودة البيانات.
على سبيل المثال، يتم إنشاء نسخة مكتوبة من تسجيل صوتي تلقائيا، لكن الذكاء الاصطناعي الذي أنشأ النسخة المكتوبة يرتكب بعض الأخطاء في النص. ومع ذلك، يحتفظ شخص ما بالنسخة النصية، معتقدًا أنه سيحلها في مرحلة ما، وهو ما لا يفعله.
عندما تحاول مجموعة تنظيف البيانات ذات الجودة الرديئة، فإنها في بعض الأحيان تغفل عن سبب المشكلة. بدون الفهم الصحيح، يصبح من المستحيل ضمان عدم تكرار مشكلة جودة البيانات في المستقبل.
ثم يصبح هذا الوضع دوريًا، لأنه بدلًا من مجرد اتباع سياسات الحذف للبيانات المظلمة غير المستخدمة على الإطلاق، تتركها المنظمات تتراكم، مما يساهم في زيادة مشكلة جودة البيانات.
لحسن الحظ، هناك ثلاث خطوات تخص إدارة جودة البيانات يمكن للمؤسسات اتخاذها للمساعدة في التخفيف من هذه المشكلة:
على الرغم من كل التكاليف ومشاكل جودة البيانات الخاصة بالبيانات المظلمة، إلا أن هناك إيجابيات لها. وكما تقول Splunk، "قد تكون البيانات المظلمة أحد أكبر الموارد غير المستغلة لدى المؤسسات"2.
من خلال اتباع نهج استباقي لإدارة البيانات المظلمة، يمكن للمنظمات تسليط الضوء على هذه البيانات. وهذا لا يقلل من المسؤوليات والتكاليف فحسب، بل يوفر أيضًا للفرق الموارد التي يحتاجونها لاكتشاف معارف جديدة من البيانات المخفية.
عند التعامل مع البيانات المظلمة وربما استخدامها لاتخاذ قرارات أفضل قائم على البيانات، هناك العديد من أفضل الممارسات التي يجب اتباعها:
غالبًا ما تنشأ البيانات المظلمة بسبب الصوامع داخل المجموعة. يقوم أحد الفريقين بإنشاء بيانات قد تكون مفيدة لفريق آخر، لكن هذا الفريق الآخر لا يدرك وجودها. ويؤدي تفكيك تلك الصوامع إلى إتاحة تلك البيانات للفريق الذي يحتاج إليها. ما يحولها من بيانات غير مستخدمة إلى بيانات ذات قيمة كبيرة.
من الضروري فهم البيانات الموجودة داخل المنظمة. يبدأ هذا الجهد بتصنيف جميع البيانات داخل مجموعة للحصول على رؤية كاملة ودقيقة. من هناك، يمكن للفرق تنظيم بياناتها بشكل أفضل بهدف تسهيل وصول الأفراد في الفرق إلى البيانات التي يحتاجون إليها واستخدامها.
يمكن أن يساعد تقديم سياسة حوكمة البيانات في تحسين هذا التحدي على المدى الطويل. يجب أن تغطي هذه السياسة كيفية مراجعة جميع البيانات الواردة وتقديم إرشادات واضحة حول ما يجب الاحتفاظ به (وتنظيمه للحفاظ على إدارة واضحة للبيانات) أو أرشفته أو إتلافه. جزء مهم من هذه السياسة هو الالتزام الصارم بإتلاف البيانات التي يجب إتلافها وتحديد الوقت المناسب لذلك. تطبيق حوكمة البيانات ومراجعة التقييمات بانتظام يمكن أن يساعد في تقليل كمية البيانات المظلمة التي لن تستخدم.
للمساعدة في اكتشاف البيانات المظلمة، يمكن من خلال للتعلم الآلي (ML) والذكاء الاصطناعي القيام بالعمل الشاق في تصنيف البيانات المظلمة من خلال إجراء تحليلات على بيانات قد تحتوي على رؤى قيمة. بالإضافة إلى ذلك، تتيح أتمتة التعلم الآلي إمكانية المساعدة في تنظيم الامتثال لخصوصية البيانات من خلال تنقيح المعلومات الحساسة تلقائيًا من البيانات المخزنة.
صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.
يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.
استفِد من قيمة بيانات المؤسسة باستخدام IBM Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.
1 The State of Dark Data, Splunk, 2019
2 Dark Data: Discovery, Uses & Benefits of Hidden Data , Splunk, 03 August 2023