البيانات غير المنظمة هي معلومات لا تتبع تنسيقًا محددًا مسبقًا. مجموعات البيانات غير المنظمة ضخمة (غالبًا ما تصل إلى تيرابايتات أو بيتابايتات)، وتمثِّل 90% من إجمالي البيانات التي تُنتجها المؤسسات.1
يعود تزايد البيانات غير المنظمة إلى تنوُّع واتساع مصادرها، والتي تشمل مستندات نصية، ووسائل التواصل الاجتماعي، وملفات الصور والصوت، والرسائل الفورية، والأجهزة الذكية. تكاد تكون جميع البيانات الجديدة التي يتم إنتاجها اليوم غير منظمة؛ فكل رسالة يتم إرسالها، أو صورة يتم تحميلها، أو مستشعر يتم تفعيله، يُضيف إلى هذا الحجم المتزايد.
على عكس البيانات المنظمة (التي تعتمد على نموذج بيانات محدد مسبقًا)، لا تتوافق البيانات غير المنظمة بسهولة مع المخططات الثابتة لقواعد البيانات التقليدية. بدلًا من ذلك، يتم تخزين البيانات غير المنظمة غالبًا في أنظمة الملفات، أو قواعد البيانات غير العلائقية (أو قواعد بيانات NoSQL)، أو في بحيرات البيانات.
تتطلب تعقيدات البيانات غير المنظمة وبنيتها غير المنتظمة استخدام أساليب تحليل بيانات أكثر تقدُّمًا. تتم الاستفادة بشكل شائع من تقنيات مثل التعلم الآلي (ML) ومعالجة اللغة الطبيعية (NLP) لاستخلاص الرؤى من مجموعات البيانات غير المنظمة.
في الماضي القريب، كانت البيانات غير المنظمة تُعَد بيانات مظلمة. تحديات البيانات غير المنظمة (أي حجمها وعدم اتساقها) جعلتها غير قابلة للاستخدام في العديد من حالات استخدام الأعمال.
اليوم، باتت المؤسسات التي تمتلك كميات وفيرة من البيانات غير المنظمة تملك أصلًا استراتيجيًا مهمًا. عند دمجها، توفِّر البيانات المنظمة وغير المنظمة رؤية شاملة للبيانات على مستوى المؤسسة. وفي هذا الوقت تحديدًا، تبرُز أهمية البيانات غير المنظمة في تمكين الشركات من الاستفادة الكاملة من قدرات الذكاء الاصطناعي التوليدي.
معظم البيانات غير المنظمة هي بيانات نصية، مثل رسائل البريد الإلكتروني، ومستندات Word، وملفات PDF، والمدونات، ومنشورات وسائل التواصل الاجتماعي. تشمل البيانات غير المنظمة النصية أيضًا نصوص المكالمات وملفات الرسائل النصية، مثل تلك الناتجة عن Microsoft Teams أو Slack.
ومع ذلك، يمكن أن تكون البيانات غير المنظمة أيضًا غير نصية. تشمل الأمثلة الشائعة للبيانات غير المنظمة غير النصية ملفات الصور (مثل JPEG وGIF وPNG)، وملفات الوسائط المتعددة، وملفات الفيديو، ونشاط الأجهزة المحمولة، وبيانات المستشعرات القادمة من أجهزة إنترنت الأشياء (IoT).
غالبًا ما يتم تصنيف البيانات على أنها منظمة أو غير منظمة أو شبه منظمة بناءً على تنسيقها وقواعد المخطط. كما يُشير اسمها، تجمع البيانات شبه المنظمة بين خصائص البيانات المنظمة وغير المنظمة. فيما يلي نظرة عامة موجزة على كل نوع من أنواع البيانات:
البيانات المنظمة
البيانات غير المنظمة
البيانات شبه المنظمة
تمثِّل البيانات غير المنظمة النسبة الكبرى من جميع البيانات التي تم إنشاؤها في المؤسسة. فهي متنوعة ومرنة ومليئة بالرؤى، والتي قد لا نجدها في مجموعات البيانات المنظمة. رغم أن البيانات المنظمة لا تزال ذات قيمة كبيرة، فإن معظم الشركات اليوم تمتلك مخزونًا هائلًا من البيانات غير المنظمة التي ما زالت غير مستغلة إلى حد كبير.
وتُعَد البيانات غير المنظمة أيضًا عنصرًا أساسيًا في الذكاء الاصطناعي الحديث. يمكن استخدام البيانات غير المنظمة (سواء أكانت عامة أم داخلية أم خاصة) في تدريب نماذج الذكاء الاصطناعي وتحسين أدائها.
باستخدام الأدوات المناسبة، يمكن أن توفِّر البيانات غير المنظمة مجموعة متنوعة من حالات الاستخدام، مثل:
يعتمد الذكاء الاصطناعي التوليدي على نماذج التعلم العميق التي تتعرَّف على الأنماط والعلاقات في كميات هائلة من البيانات وتقوم بترميزها. البيانات غير المنظمة، التي تأتي غالبًا من الإنترنت، تُعَد مناسبة لتوفير الكمّ الهائل من البيانات الغنية وغير المصنّفة اللازمة للتدريب.
يُعَد RAG بنية تهدف إلى تحسين أداء نموذج الذكاء الاصطناعي التوليدي من خلال تزويده بمصادر معرفة خارجية إضافية، مثل البيانات غير المنظمة الداخلية في المؤسسة. تساعد هذه العملية على تكييف النماذج مع حالات الاستخدام المتخصصة في المجالات المختلفة، ما يمكِّنها من تقديم إجابات أكثر دقة.
تحلِّل تقنية تحليل المشاعر كميات كبيرة من النصوص لتحديد إذا ما كانت تعبِّر عن مشاعر إيجابية أو سلبية أو محايدة. وبصفته أداة لفهم سلوك العملاء، يستفيد تحليل المشاعر من الكمّ الهائل من البيانات النصية غير المنظمة التي يُنتجها العملاء عبر القنوات الرقمية.
تستخدم الشركات التحليلات التنبؤية لتوقُّع النتائج المستقبلية وتحديد المخاطر والفرص من خلال تحليل البيانات التاريخية. على سبيل المثال، يمكن لمؤسسة رعاية صحية أن تحلِّل السجلات الطبية (بيانات نصية غير منظمة) لفهم كيفية تشخيص وعلاج مرض معيّن، ثم تبني نموذجًا تنبؤيًا استنادًا إلى تلك النتائج.
يمكن لروبوت محادثة من فئة المؤسسات أن يحلِّل البيانات النصية غير المنظمة في محادثاته مع العملاء أو الموظفين ويستخلص منها رؤًى قيّمة. عادةً، يتم إجراء التحليل باستخدام تقنيات مثل معالجة اللغة الطبيعية (NLP) والتعلم الآلي. يمكن أن تُسهم الرؤى المستخلصة من تحليل البيانات النصية في فهم سلوك العملاء وتحسين أداء روبوت المحادثة.
تُعَد حالات الاستخدام المرتبطة بالذكاء الاصطناعي للبيانات غير المنظمة محور اهتمام متزايدًا لدى المؤسسات التي تتبنّى الابتكار في مجال الذكاء الاصطناعي. تأمَّل في الذكاء الاصطناعي التوليدي، التقنية التي تقف وراء ChatGPT وغيرها من تطبيقات الذكاء الاصطناعي الشائعة. يبدأ الأمر بنموذج الأساس، وهو عادةً نموذج لغوي كبير (LLM).
يتطلّب إنشاء نموذج أساس تدريب خوارزمية التعلم العميق على كميات هائلة من البيانات غير المنظمة، والتي تأتي عادةً من الإنترنت. تتميّز هذه البيانات غير المنظمة بأنها غنية ومتنوعة، ما يؤدي إلى تعلُّم نماذج الذكاء الاصطناعي للسياق والدقة في الفهم.
مع ذلك، قد تكون بيانات التدريب غير المنظمة عامة إلى حد كبير، وليست متخصصة في مجال معين أو مرتبطة بمؤسسة محددة، وقد تكون أيضًا قديمة. قد يُواجه النموذج النهائي صعوبةً في الاستجابة للمطالبات التي تتطلّب إجابات متخصصة في مجال معيّن.
لمعالجة مثل هذه التحديات، يمكن للمؤسسات تكييف نموذج مدرَّب مسبقًا مع حالة استخدام أو مهمة محددة بعدة طرق. إحدى الطرق هي الضبط الدقيق، حيث يتم تخصيص نموذج أساس من خلال تدريبه على مجموعة بيانات أصغر مخصصة لمهمة معينة. يتطلّب ذلك بيانات عالية الجودة ومنظمة - وغالبًا ما تكون بيانات مملوكة أو معرفة متخصصة في مجال معيّن.
ومع ذلك، يمكن لطريقة مختلفة تُعرف باسم التوليد المعزز بالاسترجاع (RAG) أن تُدمج البيانات غير المنظمة. بينما تعتمد النماذج اللغوية الكبيرة (LLMs) عادةً على بيانات التدريب كمصدر للمعلومات، تُضيف تقنية RAG مكوّنًا لاسترجاع المعلومات إلى سير عمل الذكاء الاصطناعي، حيث تجمع البيانات ذات الصلة وتُغذّي بها النموذج لتحسين جودة الاستجابات. يمكن أن تتضمن هذه البيانات مجموعات بيانات داخلية غير منظمة.
بالمقارنة مع الضبط الدقيق، يضمن RAG نتائج أكثر دقة وفي الوقت المناسب حيث يسترجع أحدث المعلومات باستمرار أثناء إنشاء الاستجابة. ويمكنه المساعدة على تحويل مبادرات الذكاء الاصطناعي من نماذج جامدة وعامة إلى نماذج مخصصة وذات صلة وفاعلية.
مثل البيانات المنظمة، تتطلب البيانات غير المنظمة أيضًا حوكمة وإدارة مناسبة قبل استخدامها للذكاء الاصطناعي. يجب تصنيفها وتقييم جودة البيانات وتصفيتها من المعلومات الشخصية القابلة للتعريف وإزالة البيانات المكررة.
باستخدام الأدوات المناسبة، وحتى بمساعدة الذكاء الاصطناعي، يمكن للشركات تحويل بياناتها غير المنظمة وجعلها قابلة للاستخدام. إن معرفة كيفية تحويل فوضى البيانات إلى نظام بشكل فعَّال أصبحت اليوم عاملًا تنافسيًا فارقًا ومحفِّزًا لاعتماد الذكاء الاصطناعي التوليدي على مستوى المؤسسات.
عادةً ما يتم تخزين البيانات غير المنظمة في تنسيقها الأصلي، ما يوسِّع نطاق خيارات التخزين. تتضمن بعض بيئات تخزين البيانات الشائعة للبيانات غير المنظمة ما يلي:
يعمل تخزين الكائنات (أو التخزين القائم على الكائنات) على تخزين البيانات ككائنات، وهو عبارة عن مستودع بسيط ومستقل يتضمن البيانات والبيانات الوصفية ورقم تعريف فريدًا.وتُعَد هذه البنية مثالية لتخزين كميات كبيرة من البيانات غير المنظمة والثابتة وأرشفتها ونسخها احتياطيًا وإدارتها. غالبًا ما يتم استخدام تخزين الكائنات القائم على السحابة لتحسين تكاليف التخزين واستخدام البيانات لأعباء عمل الذكاء الاصطناعي.
تُعَد بحيرات البيانات بيئات تخزين مصممة للتعامل مع كميات ضخمة من البيانات غير المنسقة بأي صيغة كانت - لا سيما تدفُّق البيانات الكبيرة الناتجة عن التطبيقات والخدمات المتصلة بالإنترنت. وهي تستخدم الحوسبة السحابية لجعل تخزين البيانات أكثر قابلية للتوسع وأقل تكلفة. وعادةً ما تستخدِم بحيرات البيانات تخزين الكائنات القائم على السحابة، مثل Azure Blob Storage أو Google Cloud Storage أو IBM Cloud Object Storage.
تُعَد بحيرات البيانات التطور التالي لإدارة البيانات، حيث تجمع بين أفضل أجزاء بحيرات البيانات ومستودعات البيانات. وتوفِّر تخزينًا سريعًا ومنخفض التكلفة مع المرونة لدعم تحليلات البيانات وأعباء عمل الذكاء الاصطناعي والتعلم الآلي. تدعم بحيرات البيانات أيضًا استيعاب البيانات في الوقت الفعلي، وهو أمر حساس لتطبيقات الذكاء الاصطناعي المستخدمة لدعم صناعة القرار في الوقت الفعلي.
لغة الاستعلام الهيكلية (SQL) هي لغة برمجة موحَّدة خاصة بالمجال تُستخدَم لتخزين البيانات ومعالجتها واسترجاعها. قاعدة بيانات NoSQL، أو قاعدة البيانات غير القائمة على SQL، مصممة لتخزين البيانات خارج الهياكل التقليدية لقواعد بيانات SQL، ودون مخطط. توفِّر قواعد بيانات NoSQL السرعة وقابلية التوسع اللازمة لإدارة مجموعات البيانات الكبيرة غير المنظمة. ومن الأمثلة عليها MongoDB وRedis وHBase.
بمجرد تخزين البيانات غير المنظمة، فإنها غالبًا ما تحتاج إلى معالجة لتتم الاستفادة منها بشكل فعَّال في حالات الاستخدام اللاحقة، مثل ذكاء الأعمال أو تحليلات البيانات غير المنظمة.
تستخدم بعض المؤسسات أطر عمل مفتوحة المصدر لمعالجة مجموعات كبيرة من البيانات غير المنظمة. على سبيل المثال، غالبًا ما يتم دمج Apache Hadoop في هياكل بحيرة البيانات لتمكين معالجة الدفعات للبيانات غير المنظمة وشبه المنظمة (مثل تدفق الصوت ومشاعر وسائل التواصل الاجتماعي). يُعَد Apache Spark إطار عمل آخر مفتوح المصدر لمعالجة البيانات الكبيرة. ومع ذلك، يستخدم Spark المعالجة في الذاكرة الداخلية ويتميز بسرعته الفائقة، ما يجعله أكثر ملاءمة لتطبيقات التعلم الآلي والذكاء الاصطناعي.
هناك أيضًا منصات تكامل البيانات الحديثة المصممة خصيصًا للتعامل مع البيانات المنظمة وغير المنظمة. تقوم أدوات التكامل متعددة الأغراض هذه باستيعاب البيانات غير المنسقة تلقائيًا وتنظيمها ثم نقل البيانات التي تمت معالجتها إلى قواعد البيانات المستهدفة. تقلِّل هذه الميزات بشكل كبير من العمل اليدوي الذي يستغرق وقتًا طويلًا الذي تقوم به فرق علم البيانات المكلَّفة بإعداد البيانات غير المنظمة للذكاء الاصطناعي.
هناك العديد من الأدوات والتقنيات التي يمكن للمؤسسات استخدامها لاستخلاص الرؤى من بياناتها غير المنظمة.
تعتمد أدوات تحليلات الذكاء الاصطناعي على قدرة الذكاء الاصطناعي على معالجة كميات كبيرة من البيانات بسرعة، وهو أمر أساسي للمؤسسات التي تريد العثور على رؤى قيّمة في المجموعات الكبيرة للبيانات غير المنظمة. باستخدام التعلم الآلي ومعالجة اللغة الطبيعية (NLP)، يمكن لخوارزميات الذكاء الاصطناعي تحليل البيانات غير المنظمة لاكتشاف الأنماط أو إجراء التنبؤات أو تقديم التوصيات في الوقت الفعلي. يمكن أيضًا دمج هذه النماذج التحليلية في لوحة المعلومات أو واجهات برمجة التطبيقات الموجودة لأتمتة عملية صناعة القرار.
يستخدم استخراج النصوص خوارزميات مثل Naïve Bayes وآلات المتجهات الداعمة (SVM) وغيرها من خوارزميات التعلم العميق لمساعدة المؤسسات على استكشاف واكتشاف العلاقات الخفية ضمن البيانات غير المنظمة. يتم نشر مجموعة متنوعة من التقنيات لاستخراج النصوص، مثل استرجاع المعلومات، واستخراج المعلومات، وتعدين البيانات، ومعالجة اللغة الطبيعية.
تستخدم تقنية معالجة اللغة الطبيعية التعلم الآلي لمساعدة أجهزة الكمبيوتر على فهم اللغة البشرية والتواصل معها. في سياق تحليل البيانات غير المنظمة، تُتيح تقنية معالجة اللغة الطبيعية (NLP) استخراج الرؤى من البيانات النصية غير المنظمة، مثل التقييمات ومنشورات وسائل التواصل الاجتماعي. ويمكن استخدامها لتعزيز استخراج النصوص من خلال توفير قدرات متقدمة في معالجة اللغة وفهمها، مثل تحليل المشاعر.
استخدم حلول قاعدة بيانات IBM لتلبية احتياجات أحمال التشغيل المتنوعة عبر السحابة الهجينة.
اكتشف، IBM Db2، وهي قاعدة بيانات علائقية توفر مستوى عالٍ من الأداء وقابلية التوسع والموثوقية لتخزين وإدارة البيانات المنظمة. وتتوفر كنظام SaaS على IBM Cloud أو للاستضافة الذاتية.
استفِد من قيمة بيانات المؤسسة مع IBM Consulting لبناء مؤسسة تعتمد على الرؤى لتحقيق ميزة تنافسية في الأعمال.
1 “Untapped value: What every executive needs to know about unstructured data," IDC, Aug 2023.