مجموعة البيانات هي مجموعة من البيانات المنظمة عادةً في جداول أو مصفوفات أو تنسيقات محددة — مثل CSV أو JSON— لسهولة استرجاعها وتحليلها. تُعد مجموعات البيانات ضرورية لتحليل البيانات، والتعلم الآلي (ML)، والذكاء الاصطناعي (AI) والتطبيقات الأخرى التي تتطلب بيانات موثوقة ويمكن الوصول إليها.
تقوم المؤسسات اليوم بجمع كميات كبيرة من البيانات من مصادر مختلفة، بما في ذلك تفاعلات العملاء والمعاملات المالية وأجهزة إنترنت الأشياء (IOT) ومنصات التواصل الاجتماعي.
لإطلاق العنان للقيمة التجارية لكل هذه البيانات، يجب تنظيمها في كثير من الأحيان في مجموعة البيانات: مجموعات منظمة تتيح الوصول إلى المعلومات لتحليلها وتطبيقها.
تخزين أنواع مختلفة من مجموعات البيانات بطرق مختلفة. على سبيل المثال، غالبًا ما تقوم مجموعات البيانات المنظمة بترتيب نقاط البيانات في جداول ذات صفوف وأعمدة محددة. يمكن أن تحتوي مجموعات البيانات غير المنظمة على تنسيقات متنوعة مثل الملفات النصية والصور والصوت.
على الرغم من أن مجموعات البيانات لا تتضمن جميعها بيانات منظمة، إلا أنها تحتوي دائمًا على بنية عامة، سواء كانت مخططات محددة أو بناء جملة مُنظمة بشكل فضفاض في صيغ البيانات شبه المنظمة مثل JSON أو XML.
تتضمن أمثلة مجموعات البيانات ما يلي:
غالبًا ما تستخدم المؤسسات وتحتفظ بمجموعات بيانات متعددة لدعم مختلف المبادرات التجارية، بما في ذلك تحليل البيانات وذكاء الأعمال(BI).
تعتمد البيانات الكبيرة، على وجه الخصوص، على مجموعات بيانات ضخمة ومعقدة لتقديم القيمة. عندما يتم جمعها وإدارتها وتحليلها بشكل صحيح باستخدام تحليلات البيانات الكبيرة، يمكن لهذه المجموعات من البيانات أن تساعد في اكتشاف رؤى جديدة وتمكين اتخاذ القرارات القائمة على البيانات.
في السنوات الأخيرة، أدى ظهور الذكاء الاصطناعي (AI) والتعلم الآلي إلى زيادة التركيز على مجموعات البيانات. تحتاج المؤسسات إلى بيانات تدريب شاملة وجيدة التنظيم لتطوير نماذج تعلم آلي دقيقة وتحسين الخوارزميات التنبؤية.
وفقًا لـ Gartner، أفادت 61% من المؤسسات أنها مضطرة إلى تطوير أو إعادة التفكير في نموذج تشغيل البيانات والتحليلات الخاصة بها بسبب تأثير تقنيات الذكاء الاصطناعي.1
على الرغم من أن المصطلح "مجموعة البيانات" غالبًا ما يُستخدم على نطاق واسع، إلا أن بعض الصفات تحدد ما إذا كانت مجموعة البيانات تشكل مجموعة بيانات أم لا. بشكل عام، تحتوي مجموعات البيانات على 3 خصائص أساسية: المتغيرات والمخططات والبيانات الوصفية.
لا تُعد جميع مجموعات البيانات مؤهلة لاعتبارها مجموعات بيانات. لا تشكل التراكمات العشوائية لنقاط البيانات غير ذات الصلة عادةً مجموعة البيانات دون بعض التنظيم المناسب لتمكين التحليل الهادف.
على نحو مماثل، في حين أن واجهات برمجة التطبيقات (APIs) ومجموعات البيانات وجداول البيانات يمكن أن تتفاعل مع مجموعات البيانات أو تحتوي عليها، إلا أنها ليست بالضرورة مجموعات بيانات بحد ذاتها.
تسمح واجهات برمجة التطبيقات للتطبيقات بالتواصل مع بعضها البعض، والذي يتضمن أحيانًا الوصول إلى مجموعات البيانات وتبادلها. قواعد البيانات وجداول البيانات عبارة عن حاويات للمعلومات، والتي يمكن أن تتضمن مجموعات البيانات.
تعمل المؤسسات بشكل عام مع ثلاثة أنواع رئيسية من مجموعات البيانات، والتي يتم تصنيفها عادةً بناءً على نوع البيانات التي تتعامل معها:
غالبًا ما تستخدم المؤسسات أنواعًا متعددة من مجموعات البيانات معًا لدعم استراتيجية التحليلات الشاملة. على سبيل المثال، قد تقوم إحدى شركات البيع بالتجزئة بتحليل بيانات المبيعات المنظمة إلى جانب مراجعات العملاء غير المنظمة وتحليلات الويب شبه المنظمة للحصول على رؤى أفضل حول سلوك العملاء وتفضيلاتهم.
تنظم مجموعات البيانات المنظمة المعلومات بتنسيقات محددة مسبقًا، وعادةً ما تكون جداول ذات صفوف وأعمدة محددة بوضوح.. تشكل مجموعات البيانات هذه الأساس للعديد من العمليات التجارية الحساسة، مثل إدارة علاقات العملاء (CRM) وإدارة المخزون.
نظرًا لأن مجموعات البيانات المنظمة تتبع مخططات متسقة، فإنها تتيح الاستعلام السريع والتحليل الموثوق. وهذا يجعلها مثالية لأدوات ذكاء الأعمال وأنظمة إعداد التقارير التي تتطلب بيانات دقيقة وقابلة للقياس الكمي.
تتضمن الأمثلة الشائعة لمجموعات البيانات المنظمة ما يلي:
تحتوي مجموعات البيانات غير المنظمة على معلومات لا تتوافق مع نماذج البيانات التقليدية أو المخططات الصارمة. على الرغم من أن مجموعات البيانات هذه تتطلب أدوات معالجة أكثر تعقيدًا، إلا أنها غالبًا ما تحتوي على رؤى غنية لا يمكن لتنسيقات البيانات المنظمة التقاطها.
تعتمد المؤسسات على مجموعات البيانات غير المنظمة لتشغيل نماذج الذكاء الاصطناعي والتعلم الآلي. توفر مجموعات البيانات هذه البيانات الواقعية المتنوعة اللازمة لتدريب نماذج الذكاء الاصطناعي وتطوير قدرات تحليلية أكثر تقدمًا.
تتضمن الأمثلة الشائعة لمجموعات البيانات غير المنظمة ما يلي:
تعمل مجموعات البيانات شبه المنظمة على سد الفجوة بين البيانات المنظمة والبيانات غير المنظمة. على الرغم من أنها لا تتبع مخططات صارمة، إلا أنها تتضمن تركيبًا أو علامات محددة للمساعدة في تنظيم المعلومات بتنسيقات مرنة وقابلة للتحليل.
هذا النهج الهجين يجعل مجموعات البيانات شبه المنظمة ذات قيمة لمشاريع تكامل البيانات الحديثة والتطبيقات التي تحتاج إلى التعامل مع أنواع البيانات المتنوعة مع الحفاظ على بعض الهيكل التنظيمي.
تتضمن الأمثلة الشائعة لمجموعات البيانات شبه المنظمة ما يلي:
تقوم المؤسسات بجمع البيانات من مصادر متعددة لبناء مجموعة البيانات التي تدعم مبادرات الأعمال المختلفة. يمكن لمصادر البيانات أن تحدد بشكل مباشر جودة وفائدة مجموعات البيانات.
تتضمن بعض مصادر البيانات الشائعة ما يلي:
مستودعات البيانات هي مخازن مركزية لتخزين البيانات. غالبًا ما تضم مستودعات البيانات الخاصة بيانات حساسة أو بالغة الأهمية للأعمال، مثل سجلات العملاء أو المعاملات المالية أو المقاييس التشغيلية التي توفر مزايا تنافسية.
مستودعات البيانات الأخرى للعامة. على سبيل المثال، تستضيف منصة مثل GitHub مجموعة بيانات مفتوحة المصدر إلى جانب التعليمات البرمجية. يمكن للباحثين والمؤسسات استخدام مجموعات البيانات العامة هذه للتعاون بشكل مفتوح على نماذج التعلم الآلي ومشاريع علم البيانات .
قواعد البيانات عبارة عن مستودعات بيانات رقمية محسّنة لتخزين البيانات بأمان واسترجاعها بسهولة حسب الحاجة.
يمكن أن تحتوي قاعدة البيانات على مجموعة بيانات واحدة أو مجموعات بيانات متعددة. يمكن للمستخدمين استخراج نقاط البيانات ذات الصلة بسرعة عن طريق تشغيل استعلامات قاعدة البيانات التي تستخدم لغات متخصصة مثل لغة الاستعلام الهيكلية (SQL).
تربط واجهات برمجة التطبيقات تطبيقات البرامج حتى تتمكن من التواصل. يمكن لمستهلكي البيانات استخدام واجهات برمجة التطبيقات (APIs) لالتقاط البيانات في الوقت الفعلي من مصادر متصلة، مثل خدمات الويب والمنصات الرقمية، وتوجيهها إلى تطبيقات ومستودعات أخرى لاستخدامها.
غالبًا ما يقوم علماء البيانات ببناء مسارات آلية لجمع البيانات باستخدام لغات مثل Python، والتي توفر مكتبات قوية لتكامل واجهة برمجة التطبيقات ومعالجة البيانات. على سبيل المثال، قد يستخدم نظام التحليلات بالبيع بالتجزئة المسارات الآلية هذه لجمع بيانات شراء العملاء ومستويات المخزون باستمرار من متاجر التجارة الإلكترونية وأنظمة إدارة المخزون.
توفر مواقع مثل Data.gov ومبادرات البيانات المفتوحة على مستوى المدينة مثل البيانات المفتوحة لمدينة نيويورك إمكانية الوصول المجاني إلى مجموعات البيانات التي تشمل مقاييس الرعاية الصحية والنقل والبيئة. يمكن للباحثين استخدام مجموعات البيانات هذه لدراسة كل شيء من أنماط النقل إلى اتجاهات السلامة العامة.
بدءاً من تشغيل الذكاء الاصطناعي إلى تمكين الرؤى القائمة على البيانات، تُعد مجموعات البيانات أساسية للعديد من المبادرات التجارية والتكنولوجية الرئيسية.
تشمل بعض تطبيقات نظم البيانات الأكثر شيوعًا ما يلي:
الذكاء الاصطناعي (AI) لديه القدرة على أن يكون بمثابة عامل تمييز هام في العديد من المؤسسات.
وفقًا لمعهد IBM لقيمة الأعمال، يعتقد 72% من المديرين التنفيذيين الأفضل أداءً (CEOs) أن ميزتهم التنافسية تعتمد على امتلاكهم للذكاء الاصطناعي التوليدي (gen AI) الأكثر تقدمًا. تعتمد هذه الأنظمة المتطورة للذكاء الاصطناعي على مجموعات بيانات ضخمة—سواءً كانت مصنفة أو غير مصنفة—لتدريب النماذج بفعالية.
من خلال بيانات التدريب الشاملة، يمكن لمجموعة تطوير أنظمة الذكاء الاصطناعي التي تؤدي مهام معقدة مثل:
يستخدم علماء البيانات والمحللون مجموعات البيانات لاستخراج رؤى قيّمة ودفع الاكتشافات في مختلف التخصصات. نظرًا لأن المؤسسات تجمع بيانات أكثر من أي وقت مضى، فقد أصبح تحليل البيانات أمرًا بالغ الأهمية لاختبار الفرضيات وتحديد الاتجاهات وكشف العلاقات التي تُنير القرارات الاستراتيجية.
تتضمن بعض الطرق الشائعة التي تساعد بها مجموعات البيانات في تحليل البيانات ما يلي:
تستخدم المؤسسات ذكاء الأعمال (BI) للكشف عن الرؤى في مجموعات البيانات ودفع عملية اتخاذ القرار في الوقت الفعلي.
يمكن أن تساعد أدوات ذكاء الأعمال في تحليل أنواع مختلفة من البيانات لتحديد الاتجاهات ومراقبة الأداء والكشف عن الفرص الجديدة. تتضمن بعض التطبيقات ما يلي:
يمكن أن يؤدي التعامل مع مجموعات البيانات الكبيرة والمعقدة لأي مبادرة إلى تقديم العديد من التحديات والاعتبارات. ومن أبرزها ما يلي:
تؤدي كل الروابط إلى صفحات خارج ibm.com.
1 Organizations are evolving their D&A operating model because of AI technologies, Gartner, 29 April 2024.
احصل على رؤى فريدة حول تطور مشهد الحلول في مجال التحليلات وذكاء الأعمال (ABI)، مع تسليط الضوء على النتائج الرئيسية، والافتراضات، والتوصيات لقادة البيانات والتحليلات.
تمكَّن من تبسيط الوصول إلى البيانات وأتمتة إدارة البيانات. اكتشف قوة دمج استراتيجية مستودع بحيرة البيانات في بنية بياناتك، بما في ذلك تحسين التكاليف لأعباء العمل وتوسيع نطاق الذكاء الاصطناعي والتحليلات لديك، باستخدام جميع بياناتك وفي أي مكان.
استكشف دليل قائد البيانات لإنشاء مؤسسة قائمة على البيانات وتعزيز ميزة الأعمال.
تعرَّف على كيفية مساهمة نهج مستودع بحيرة البيانات المفتوحة في تقديم بيانات موثوق بها وتنفيذ مشاريع التحليلات والذكاء الاصطناعي بشكل أسرع.
تمكَّن من ربط استراتيجية البيانات والتحليلات بأهداف العمل من خلال هذه الخطوات الأربع الأساسية.
ألقِ نظرة أعمق على أسباب استمرار تحديات ذكاء الأعمال وما تعنيه للمستخدمين في جميع أنحاء المؤسسة.
لكي تزدهر الشركات، يجب عليها استخدام البيانات لتعزيز ولاء العملاء، وأتمتة عمليات الأعمال، والابتكار باستخدام الحلول المستندة إلى الذكاء الاصطناعي.
استفِد من قيمة بيانات المؤسسة مع IBM Consulting لبناء مؤسسة تعتمد على الرؤى لتحقيق ميزة تنافسية في الأعمال.
تعرَّف على Cognos Analytics 12.0، رؤى مدعومة بالذكاء الاصطناعي لتحسين عملية اتخاذ القرارات.