يمكن لأنظمة مستودعات البيانات استيعاب كميات كبيرة من البيانات من مجموعة واسعة من الأنظمة المصدر، بما في ذلك قواعد البيانات التشغيلية، وأنظمة المعاملات ومنصات إدارة علاقات العملاء (CRM). أدوات التحليل الذاتي تُمكِّن مستخدمي الأعمال من استكشاف هذه البيانات وتحليلها للحصول على رؤى قيّمة.
ظهر مفهوم مستودع البيانات في الثمانينيات لدمج البيانات المتباينة في تنسيق متسق لأغراض التحليل. ومع تزايد أعداد مصادر البيانات الجديدة—مثل شبكة الويب العالمية، ووسائل التواصل الاجتماعي، وإنترنت الأشياء (IoT)—زاد الطلب على سعة تخزين أكبر وتحليلات أسرع.
مستودعات البيانات تُهَيَّأ وتُحَسَّن للتحليلات في زمن شبه حقيقي، مما يعني أنها ليست مثالية عادةً لتخزين كميات هائلة من البيانات الكبيرة الأولية وغير المنظمة. كلما ازدادت كمية البيانات في المستودع، تزداد تكلفة التخزين وصعوبته معها. كما يمكن أن تنشأ مشكلات في زمنالانتقال والأداء.
ونتيجةً لذلك، تطورت بدائل أكثر مرونة، مثل مستودعات البيانات القائمة على السحابة الأصلية ومستودعات بحيرات البيانات. (راجع "مقارنة بين مستودع البيانات ومستودع بحيرة البيانات" لمعرفة المزيد من المعلومات).
غالبًا ما تستخدم مستودعات البيانات بنية ثلاثية الطبقات مصممة لتحويل البيانات لأغراض التحليلات:
تتدفق البيانات من أنظمة مصادر متعددة إلى خادم مستودع البيانات، حيث يتم تخزينها. تقليديًا، تتحرك البيانات عبر عملية تكامل البيانات المعروفة باسم "استخراج، تحويل، تحميل" (ETL)، والتي تستخدم الأتمتة لتنظيف البيانات وتنظيمها قبل تحميلها في المستودع.
نظرًا لأن مستودعات البيانات تخزّن في المقام الأول البيانات المنظمة، فإن تحويل البيانات يحدث قبل تحميل البيانات. تستخدم بعض المستودعات الحديثة عمليات الاستخراج والتحميل والتحويل (ELT) بدلًا من ذلك—والتي تقوم بتحميل البيانات في المستودع قبل تحويلها. تُستخدم هذه الطريقة عادةً في بحيرات البيانات، التي يمكنها تخزين البيانات غير المنظمة وشبه المنظمة دون الحاجة إلى تنسيقات موحدة.
تحتوي هذه الطبقة على محرك التحليلات (Analytics Engine)، والذي غالبًا ما يعمل بنظام المعالجة التحليلية عبر الإنترنت (OLAP). في حين أن قواعد البيانات العلائقية التقليدية—بما في ذلك العديد من مستودعات البيانات—يمكنها تخزين البيانات متعددة الأبعاد (على سبيل المثال، قد تحتوي أرقام المبيعات على عدة أبعاد مثل الموقع، والوقت، والمنتج)، إلا أنها ليست مُحسّنة للاستعلامات متعددة الأبعاد.
أنظمة المعالجة التحليلية عبر الإنترنت (OLAP) مصممة للاستعلامات المعقدة وعالية السرعة، والتحليل متعدد الأبعاد لكميات كبيرة من البيانات. تستخدم "مكعبات" (وهي هياكل بيانات متعددة الأبعاد تعتمد على المصفوفات) لتمكين تحليل أسرع وأكثر مرونة عبر أبعاد متعددة. تشمل حالات الاستخدام الشائعة استخراج البيانات، والتحليل المالي، وإعداد الميزانية وتخطيط التوقعات.
OLAP مقابل OLTP: نُظم معالجة المعاملات عبر الإنترنت (OLTP) تلتقط وتُحدّث كميات هائلة من المعاملات في الوقت الفعلي من العديد من المستخدمين. في المقابل، تقوم أنظمة OLAP بتحليل البيانات التي تم التقاطها بالفعل.
هناك ثلاثة أنواع من OLAP يمكن استخدامها في مستودع البيانات:
توفر الطبقة النهائية من مستودع البيانات واجهة مستخدم أمامية لإعداد التقارير ولوحات المعلومات والتحليل المخصص لبيانات الأعمال. تسمح أدوات ذكاء الأعمال ذاتية الخدمة هذه للمستخدمين بإنشاء تقارير بناءً على البيانات التاريخية، وتصور الاتجاهات، وتحديد نقاط الاختناق في سير العمل دون الحاجة إلى خبرة تقنية في هندسة البيانات.
النشرة الإخبارية الخاصة بالمجال
ابقَ على اطلاع دومًا بأهم—اتجاهات المجال وأكثرها إثارة للفضول—بشأن الذكاء الاصطناعي والأتمتة والبيانات وغيرها الكثير مع نشرة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.
سيتم تسليم اشتراكك باللغة الإنجليزية. ستجد رابط إلغاء الاشتراك في كل رسالة إخبارية. يمكنك إدارة اشتراكاتك أو إلغاء اشتراكك هنا. راجع بيان خصوصية IBM لمزيد من المعلومات.
تطورت مستودعات البيانات بشكل كبير، حيث انتقلت من الأنظمة‑المحلية فقط إلى النماذج السحابية والهجينة المرنة.
تاريخياً، كانت مستودعات البيانات تُستضاف محلياً باستخدام أجهزة سلعية. تم تنظيم هذه الأنظمة إما في بنية معالجة متوازية على نطاق واسع (MPP) أو في بنية معالجة متعددة متماثلة (SMP). كما تم تسليمها كأجهزة مستقلة. تتطلب عمليات النشر هذه استثمارًا كبيرًا. ومع ذلك، قد تكون خيارًا قويًا للمؤسسات في القطاعات التي لديها معايير صارمة للامتثال أو أمن البيانات أو خصوصية البيانات.
اليوم، تُبنى العديد من مستودعات البيانات لتعمل في السحابة. إنها توفر مزايا الحوسبة السحابية مثل تخزين البيانات بحجم البيتابايت، وقابلية التوسع الكبيرة في الحوسبة والتخزين، والتسعير بالدفع حسب الاستخدام. يتم تقديم مستودعات البيانات القائمة على السحابة عادةً كبرمجيات كخدمة (SaaS) مُدارة بالكامل، مما يلغي الحاجة إلى استثمار أولي في الأجهزة أو البرامج. كما يقلل تقديم هذه الخدمة من الموارد اللازمة لإدارة البنية التحتية، وبذلك تستطيع المؤسسات التركيز على التحليلات واستخلاص الرؤى.
لقد ازدادت شعبية مستودعات البيانات القائمة على السحابة مع سعي المؤسسات للحصول على المرونة اللازمة للتوسع وتقليل مساحات مراكز البيانات المحلية ونفقات البنية التحتية القديمة.
قد تتبنى بعض المؤسسات نموذجًا هجينًا يجمع بين أفضل ما في مستودعات البيانات المحلية والسحابية. يتيح لهم هذا النهج الاستفادة من قابلية التوسع والمرونة في السحابة مع الاحتفاظ بالسيطرة على أحمال التشغيل الحساسة التي يجب أن تظل محلية.
في مستودع البيانات، تحدد المخططات كيفية تنظيم البيانات. هناك ثلاثة أنواع شائعة من هياكل المخططات: مخطط النجمة (star schema)، ومخطط كتلة الثلج (snowflake schema)، ومخطط المجرة (galaxy schema)، والذي يُطلق عليه أيضًا مخطط كوكبة الحقائق.
هذه المخططات هي جميعًا نماذج بيانات ذات أبعاد مصممة لتحسين سرعات استرجاع البيانات في أنظمة OLAP. يمكن للنماذج ذات الأبعاد أن تزيد من التكرار، مما يسهّل تحديد موقع المعلومات لعمليات إعداد التقارير والاسترجاع، ويحسّن أداء الاستعلام.
تحتوي هذه المخططات على جداول الحقائق وجداول الأبعاد، المحددة أدناه:
تتكون مخططات النجمة من جدول حقائق مركزي واحد محاط بجداول الأبعاد. في الرسم التخطيطي، يظهر جدول الحقائق في منتصف نمط النجوم. يعتبر مخطط النجمة أبسط أنواع المخططات وأكثرها شيوعًا، حيث يوفر للمستخدمين سرعات استعلام أسرع.
يحتوي مخطط كتلة الثلج على جدول حقائق مركزي متصل بالعديد من جداول الأبعاد العادية، والتي قد تتصل بعد ذلك بجداول الأبعاد الأخرى من خلال علاقات متعددة. يمكن أن يشبه هذا النمط المتفرع والأكثر تعقيدًا كتلة الثلج. تحتوي مخططات كتلة الثلج على مستويات منخفضة من تكرار البيانات، ولكن هذا يأتي على حساب أداء أبطأ للاستعلامات.
تمامًا مثلما تحتوي مجرتنا على العديد من النجوم، فإن مخطط المجرة يحتوي على العديد من مخططات النجمة التي تتشارك جداول الأبعاد التي يتم توحيدها لتجنب التكرار. مخطط المجرة هو الأنسب لمستودعات البيانات شديدة التعقيد، ولكن قد يواجه المستخدمون أداءً أقل.
تحتوي بنية مستودع البيانات النموذجي على العديد من المكونات التي تعمل معًا لتخزين وإدارة ومعالجة وتخزين البيانات وتقديمها للتحليلات.
تقوم أدوات ETL باستخراج البيانات من أنظمة المصدر، وتحويلها في منطقة تجهيز، ثم تحميلها في مستودع البيانات. أما في ELT، فيتم تحويل البيانات بعد تحميلها في المستودع. يمكن أن تساعد أداة إطار معالجة البيانات، مثل Apache Spark، على إدارة عملية تحويل البيانات.
يمكن لطبقة اتصال لواجهات برمجة التطبيقات (APIs) أن تساعد المستودع على سحب البيانات من الأنظمة التشغيلية والتكامل معها. كما يمكن أن توفر واجهات برمجة التطبيقات إمكانية الوصول إلى أدوات التصور والتحليلات المتقدمة.
طبقة البيانات (أو قاعدة البيانات المركزية) هي قلب مستودع البيانات. هنا، يدمج النظام البيانات ويخزنها من مصادر متنوعة، مثل تطبيقات الأعمال، قوائم البريد الإلكتروني،أو المواقع الإلكترونية، أو قواعد البيانات الأخرى. هذه الطبقة مدعومة بمسارات بيانات ETL أو ELT وتستخدم نظام إدارة قواعد بيانات علائقية (RDBMS) أو منصة مستودع بيانات سحابية. يمكن لإمكانات إدارة البيانات والأمان المضمنة تقسيم البيانات حتى يتمكن المستخدمون من الوصول إلى ما يحتاجون إليه فقط.
البيانات الوصفية هي بيانات عن البيانات، تُستخدم لوصف البيانات المخزنة في النظام لجعلها قابلة للبحث والاستخدام في التحليلات. تتضمن البيانات الوصفية التقنية (مثل هيكل الجدول ونوع البيانات) والبيانات الوصفية (مثل المؤلف، وتاريخ الإنشاء، أو حجم الملف). البيانات الوصفية هي أساس حوكمة البيانات وإدارتها بشكل فعال.
توفر بعض مستودعات البيانات صندوق اختبار (sandbox)، وهو بيئة اختبار معزولة تحتوي على نسخة من بيانات الإنتاج وأدوات التحليل ذات الصلة. يمكن لمحللي البيانات وعلماء البيانات تجربة تقنيات تحليلية جديدة في منطقة الاختبار المعزولة هذه دون التأثير على عمليات مستودع البيانات الأساسي للمستخدمين الآخرين.
تتيح أدوات الوصول الاتصال بمستودعات البيانات وتوفير واجهة سهلة الاستخدام للمستخدمين من قطاع الأعمال. يمكن لمستخدمي الأعمال ومحللي البيانات استخدام لوحات المعلومات والتطبيقات وأدوات العرض المصور للبيانات للتفاعل مع البيانات واستخراج الرؤى. ومن الأمثلة على هذه الأدوات Tableau و Looker و Qlik.
هناك ثلاثة أنواع رئيسية من مستودعات البيانات:
مستودع البيانات المؤسسي (EDW) هو مستودع بيانات يخدم المؤسسة بأكملها. يعمل بمثابة مستودع معلومات مركزي للبيانات التاريخية لجميع الفرق والمجالات. قد تشتمل بيئة تخزين بيانات المؤسسة أيضًا على مخزن بيانات تشغيلية ومتاجر بيانات خاصة بالأقسام.
يحتوي مخزن البيانات التشغيلية (ODS) على أحدث لقطة من البيانات التشغيلية. يتم تحديث ODS بشكل متكرر، مما يتيح الوصول السريع إلى البيانات في زمن شبه حقيقي. تستخدم المؤسسات غالبًا ODS لاتخاذ القرارات التشغيلية اليومية والتحليل الفوري. يمكن أن يكون أيضًا مصدر بيانات لمستودع البيانات المؤسسي (EDW) أو أنظمة بيانات أخرى.
متجر البيانات هو مجموعة فرعية من مستودع بيانات موجود أو من مصادر بيانات أخرى، ويحتوي على بيانات مصممة خصيصاً لتلبية احتياجات قسم أو خط عمل معين، بدلاً من المؤسسة بأكملها. على سبيل المثال، قد يكون لدى الشركة متجر بيانات يخدم قسم التسويق. يمكن لهؤلاء المستخدمين الوصول إلى رؤى أكثر تركيزًا لتقسيم العملاء وأداء الحملات دون الحاجة للتنقل عبر مجموعة بيانات المؤسسة الأوسع.
تُستخدم مصطلحات مستودع البيانات وقاعدة البيانات وبحيرة البيانات ومستودع بحيرة البيانات أحيانًا بالتبادل، ولكن توجد بينها اختلافات جوهرية.
قاعدة البيانات أشبه بخزانة ملفات صُممت في الأساس لالتقاط البيانات بشكل آلي ومعالجة المعاملات بسرعة. تُستخدم عادةً كمخزن بيانات مركّز لتطبيق معين. مستودعات البيانات تخزن البيانات من أي عدد من التطبيقات داخل المؤسسة، وهي مُحسَّنة للتحليلات التنبؤية وغيرها من التحليلات المتقدمة.
بحيرة البيانات هي حل تخزين منخفض التكلفة لكميات هائلة من البيانات الخام، وتستخدم منهجية التخطيط عند القراءة بدلاً من التخطيط المحدد مسبقًا. يمكن لبحيرة البيانات تخزين بيانات منظمة وغير منظمة وشبه منظمة، مثل المستندات ومقاطع الفيديو وسجلات إنترنت الأشياء (IoT) ومنشورات وسائل التواصل الاجتماعي.
يمكن بناؤها على منصات البيانات الكبيرة مثل Apache Hadoop أو خدمات cloud object storage مثل Amazon Simple Storage Service (Amazon S3). لا تقوم عادة بتنظيف البيانات أو التحقق من صحتها أو تطبيعها للتحليلات، كما يفعل المستودع.
مستودع بحيرة البيانات يدمج جوانب من مستودعات البيانات وبحيرات البيانات، وتحديدًا المرونة منخفضة التكلفة للبحيرة والأداء العالي للمستودع. من خلال الجمع بين الميزات الرئيسية لبحيرات البيانات ومستودعات البيانات في حل بيانات واحد، يمكن لمستودع بحيرة البيانات المساعدة في تسريع معالجة كميات كبيرة من البيانات المنظمة وغير المنظمة وتدفقات البيانات في الوقت الفعلي لدعم أعباء عمل التعلم الآلي، وعلم البيانات، والذكاء الاصطناعي (AI).
قد تضيف مستودعات بحيرات البيانات أيضًا ميزات مثل البيانات الوصفية المشتركة ومحركات لغة الاستعلام الهيكلية (SQL) الموزعة.
تتيح مستودعات البيانات رؤى ومعلومات للمستخدمين في جميع أنحاء المؤسسة، وتوفر العديد من الفوائد، مثل
من خلال عمليات ELT أو ETL، تقوم مستودعات البيانات بإعداد البيانات الواردة قبل تخزينها في المستودع. يتضمن هذا الإعداد أساليب جودة البيانات مثل تنظيف البيانات وتوحيدها وإزالة التكرار. يمكن أن تساعد سياسات وممارسات إدارة البيانات القوية أيضًا في ضمان دقة وسلامة البيانات لجميع المستخدمين.
عند دمج البيانات عالية الجودة في مخزن واحد، تُنشئ المؤسسات مصدرًا وحيدًا للحقيقة شاملًا وموثوقًا—مما يساعد على التخلص من صوامع البيانات. يتيح هذا المستودع المركزي لمستخدمي الأعمال الوصول بثقة إلى جميع البيانات الهامة للمؤسسة واستخدامها في اتخاذ القرارات التجارية. كما قد يتضمن مستودع البيانات على مستوى المؤسسة دعمًا للتنسيقات مفتوحة المصدر، مثل Apache Iceberg و Parquet و CSV، ما يعزز الوصول إلى البيانات ومشاركتها عبر المؤسسة.
مستودعات البيانات الحديثة يمكنها دعم مختلف مهام سير عمل الذكاء الاصطناعي والتعلم الآلي عبر توفير بيانات نظيفة وموثوقة. يمكن لعلماء البيانات استخدام بيانات المستودعات التي تم تنقيتها والتحقق منها لبناء نماذج ذكاء اصطناعي توليدي خاصة، أو لضبط النماذج الحالية وتحسينها لتلبية احتياجات أعمالهم الفريدة بشكل أفضل.
يجب أن يكون مستودع البيانات الجاهز للذكاء الاصطناعي قادرًا على جمع البيانات، وتنظيفها، وتنظيمها، وهيكلتها، بالإضافة إلى تسهيل تدفق البيانات إلى منصات الذكاء الاصطناعي والتعلم الآلي. ومع ذلك، ليست كل مستودعات البيانات الحديثة مُحسّنة لأعباء عمل الذكاء الاصطناعي. تزداد شعبية مستودعات وبحيرات البيانات لتصبح منصات البيانات المفضلة للبنية التحتية للذكاء الاصطناعي.
يقوم مستودع البيانات بمركزة وتنقية البيانات من مصادر مختلفة لإنشاء مصدر موحد للمعلومات، مما يمنح المؤسسات رؤية شاملة وموثوقة لبياناتها. أدوات ذكاء الأعمال ذاتية الخدمة تُمكّن المستخدمين في جميع أنحاء المؤسسة من الوصول إلى هذه البيانات المجمعة وتشغيل الاستعلامات التحليلية عليها.
بهذه الطريقة، تُمكِّن مستودعات البيانات مستخدمي الأعمال من أي مستوى مهارة فنية من اكتشاف الأنماط والاتجاهات والتجمعات وإعداد التقارير عنها. يمكن لقادة الأعمال استخدام هذه الرؤى لاتخاذ قرارات وتوقعات أفضل وأكثر استنارة، بناءً على أدلة قوية في كل مجالات المؤسسة تقريباً، بدءاً من العمليات التجارية وصولاً إلى الإدارة المالية وإدارة المخزون.
يمكن أن تُستخدم مستودعات البيانات أيضًا في حالات الاستخدام الخاصة بالصناعات، مثل ما يلي:
تساعد الإمكانيات التحليلية لمستودع البيانات الحكومات على فهم الظواهر المعقدة بشكل أفضل، مثل الجريمة والاتجاهات السكانية وأنماط حركة المرور.
القدرة على مركزة وتحليل البيانات المتباينة، مثل: رموز الفواتير والتشخيص، والبيانات الديموغرافية للمرضى، والأدوية، ونتائج الفحوصات—تساعد في تمكين مقدمي الرعاية الصحية من الحصول على رؤى أعمق حول نتائج المرضى، والكفاءات التشغيلية، وغير ذلك الكثير.
يمكن للمؤسسات استخدام البيانات التاريخية المتعلقة بخيارات السفر والإقامة لاستهداف العملاء بالإعلانات والعروض الترويجية بشكل أكثر دقة.
تستطيع شركات التصنيع الكبرى التي تنتج كميات هائلة من البيانات استخدام حلول مستودعات البيانات لإنشاء متاجر للبيانات مصممة خصيصًا لتلبية احتياجات كل قسم.
صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.
يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.
استفِد من قيمة بيانات المؤسسة باستخدام IBM Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.