أحدث الأخبار التقنية، مدعومة برؤى خبراء
ابقَ على اطلاع دائم على أبرز الاتجاهات في مجالات الذكاء الاصطناعي، والأتمتة، والبيانات، وغيرها الكثير من خلال رسالة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.
يمكن لأنظمة مستودعات البيانات دمج كميات كبيرة من البيانات من مجموعة واسعة من الأنظمة المصدر، بما في ذلك قواعد البيانات التشغيلية، وأنظمة المعاملات ومنصات إدارة علاقات العملاء (CRM). أدوات التحليل الذاتي تُمكِّن مستخدمي الأعمال من استكشاف هذه البيانات وتحليلها للحصول على رؤى قيّمة.
ظهر مفهوم مستودع البيانات في الثمانينيات لدمج البيانات المتباينة في تنسيق متسق لأغراض التحليل. مع تزايد أعداد مصادر البيانات الجديدة، مثل شبكة الويب العالمية، ووسائل التواصل الاجتماعي، وإنترنت الأشياء (IoT)، زاد الطلب على سعة تخزين أكبر وتحليلات أسرع.
مستودعات البيانات تُهَيَّأ وتُحَسَّن للتحليلات في زمن شبه حقيقي، ما يعني أنها ليست مثالية عادةً لتخزين كميات هائلة من البيانات الضخمة الأولية وغير المنظمة. كلما ازدادت كمية البيانات في المستودع، تزداد تكلفة التخزين وصعوبته معها. كما يمكن أن تنشأ مشكلات في زمن الانتقال والأداء.
ونتيجةً لذلك، تطورت بدائل أكثر مرونة، مثل مستودعات البيانات القائمة على السحابة الأصلية ومستودعات بحيرات البيانات. لمزيد من المعلومات، راجع "مستودع البيانات مقابل بحيرة البيانات".
غالبًا ما تستخدم مستودعات البيانات بنية ثلاثية الطبقات مصممة لتحويل البيانات لأغراض التحليلات:
تتدفق البيانات من أنظمة مصادر متعددة إلى خادم مستودع البيانات، حيث يتم تخزينها. تقليديًا، تتحرك البيانات عبر عملية تكامل البيانات المعروفة باسم "استخراج، تحويل، تحميل" (ETL)، والتي تستخدم الأتمتة لتنظيف البيانات وتنظيمها قبل تحميلها في المستودع.
نظرًا لأن مستودعات البيانات تخزّن في المقام الأول البيانات المنظمة، فإن تحويل البيانات يحدث قبل تحميل البيانات. تستخدم بعض المستودعات الحديثة عمليات الاستخراج والتحميل والتحويل (ELT) بدلًا من ذلك—والتي تقوم بتحميل البيانات في المستودع قبل تحويلها. تُستخدم هذه الطريقة عادةً في بحيرات البيانات، التي يمكنها تخزين البيانات غير المنظمة وشبه المنظمة دون الحاجة إلى تنسيقات موحدة.
تحتوي هذه الطبقة على محرك التحليلات (Analytics Engine)، والذي غالبًا ما يعمل بنظام المعالجة التحليلية عبر الإنترنت (OLAP). في حين أن قواعد البيانات العلائقية التقليدية (بما في ذلك العديد من مستودعات البيانات) يمكنها تخزين البيانات متعددة الأبعاد (فقد تحتوي أرقام المبيعات على عدة أبعاد مثل الموقع، والوقت، والمنتج)، إلا أنها ليست مُحسّنة للاستعلامات متعددة الأبعاد.
أنظمة المعالجة التحليلية عبر الإنترنت (OLAP) مصممة للاستعلامات المعقدة وعالية السرعة، والتحليل متعدد الأبعاد لكميات كبيرة من البيانات. تستخدم "مكعبات" (وهي هياكل بيانات متعددة الأبعاد تعتمد على المصفوفات) لتمكين تحليل أسرع وأكثر مرونة عبر أبعاد متعددة. تشمل حالات الاستخدام الشائعة استخراج البيانات، والتحليل المالي، وإعداد الميزانية وتخطيط التوقعات.
OLAP مقابل OLTP: نُظم معالجة المعاملات عبر الإنترنت (OLTP) تلتقط وتُحدّث كميات هائلة من المعاملات في الوقت الفعلي من العديد من المستخدمين. في المقابل، تقوم أنظمة OLAP بتحليل البيانات التي تم التقاطها بالفعل.
هناك ثلاثة أنواع من OLAP يمكن استخدامها في مستودع البيانات:
توفر الطبقة النهائية من مستودع البيانات واجهة مستخدم أمامية لإعداد التقارير ولوحات المعلومات والتحليل المخصص لبيانات الأعمال. تسمح أدوات ذكاء الأعمال ذاتية الخدمة هذه للمستخدمين بإنشاء تقارير بناءً على البيانات التاريخية، وتصور الاتجاهات، وتحديد نقاط الاختناق في سير العمل دون الحاجة إلى خبرة تقنية في هندسة البيانات.
ابقَ على اطلاع دائم على أبرز الاتجاهات في مجالات الذكاء الاصطناعي، والأتمتة، والبيانات، وغيرها الكثير من خلال رسالة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.
تطورت مستودعات البيانات بشكل كبير، حيث انتقلت من الأنظمة‑المحلية فقط إلى النماذج السحابية والهجينة المرنة.
في ما مضى، كانت مستودعات البيانات تُستضاف محليًا باستخدام أجهزة سلعية. تم تنظيم هذه الأنظمة إما في بنية معالجة متوازية على نطاق واسع (MPP) أو في بنية معالجة متعددة متماثلة (SMP). كما تم تسليمها كأجهزة مستقلة. تتطلب عمليات النشر هذه استثمارًا كبيرًا. ومع ذلك، قد تكون خيارًا قويًا للمؤسسات في القطاعات التي لديها معايير صارمة للامتثال، أمن البيانات أو خصوصية البيانات.
اليوم، تُبنى العديد من مستودعات البيانات لتعمل في السحابة. إنها توفر مزايا الحوسبة السحابية مثل تخزين البيانات بحجم البيتابايت، وقابلية التوسع الكبيرة في الحوسبة والتخزين، والتسعير بالدفع حسب الاستخدام. يتم تقديم مستودعات البيانات القائمة على السحابة عادةً كبرمجيات كخدمة (SaaS) مُدارة بالكامل، مما يلغي الحاجة إلى استثمار أولي في الأجهزة أو البرامج.
كما يقلل تقديم هذه الخدمة من الموارد اللازمة لإدارة البنية التحتية، وبذلك تستطيع المؤسسات التركيز على التحليلات واستخلاص الرؤى. مستودعات البيانات القائمة على السحابة قد ازدادت شعبية مع سعي المؤسسات للحصول على المرونة اللازمة للتوسع وتقليل مساحات مراكز البيانات المحلية وتكاليف البنية التحتية القديمة.
قد تتبنى بعض المؤسسات نموذجًا هجينًا يجمع بين أفضل ما في مستودعات البيانات المحلية والسحابية. يتيح لهم هذا النهج الاستفادة من قابلية التوسع والمرونة في السحابة مع الاحتفاظ بالسيطرة على أحمال التشغيل الحساسة التي يجب أن تظل محلية.
في مستودع البيانات، تحدد المخططات كيفية تنظيم البيانات. هناك ثلاثة أنواع شائعة من هياكل المخططات: مخطط النجمة (star schema)، ومخطط كتلة الثلج (snowflake schema)، ومخطط المجرة (galaxy schema)، والذي يُطلق عليه أيضًا مخطط كوكبة الحقائق.
هذه المخططات هي جميعًا نماذج بيانات ذات أبعاد مصممة لتحسين سرعات استرجاع البيانات في أنظمة OLAP. يمكن للنماذج ذات الأبعاد أن تزيد من التكرار، ما يُسهِّل تحديد موقع المعلومات لعمليات إعداد التقارير والاسترجاع، ويحسّن أداء الاستعلام.
تحتوي هذه المخططات على جداول البيانات الفعلية وجداول الأبعاد، المُعرَّفة على النحو التالي:
تتكون مخططات النجمة من جدول حقائق مركزي واحد محاط بجداول الأبعاد. في الرسم التخطيطي، يظهر جدول الحقائق في منتصف نمط النجوم. يعتبر مخطط النجمة أبسط أنواع المخططات وأكثرها شيوعًا، حيث يوفر للمستخدمين سرعات استعلام أسرع.
يضع مخطط كتلة الثلج جدول الحقائق المركزي في الجوهر، مع العديد من جداول الأبعاد العادية التي تشع إلى الخارج، وتمتد هذه الأبعاد إلى جداول الأبعاد الأخرى من خلال علاقات متعددة. يمكن أن يشبه هذا النمط المتفرع والأكثر تعقيدًا كتلة الثلج. تحتوي مخططات كتلة الثلج على مستويات منخفضة من تكرار البيانات، ولكن تأتي هذه المنفعة على حساب أداء أبطأ للاستعلامات.
تمامًا مثلما تحتوي المجرة على العديد من النجوم، فإن مخطط المجرة يحتوي على العديد من مخططات النجوم. تتشارك هذه المخططات في جداول الأبعاد التي يتم توحيدها لتجنب التكرار. مخطط المجرة هو الأنسب لمستودعات البيانات شديدة التعقيد، ولكن قد يواجه المستخدمون أداءً أقل.
تحتوي بنية مستودع البيانات النموذجي على العديد من المكونات التي تعمل معًا لتخزين وإدارة ومعالجة وتخزين البيانات وتقديمها للتحليلات.
تقوم أدوات ETL باستخراج البيانات من أنظمة المصدر، وتحويلها في منطقة تجهيز، ثم تحميلها في مستودع البيانات. أما في ELT، فيتم تحويل البيانات بعد تحميلها في المستودع. يمكن أن تساعد أداة إطار معالجة البيانات، مثل Apache Spark، على إدارة عملية تحويل البيانات.
يمكن لطبقة اتصال لواجهات برمجة التطبيقات (APIs) أن تساعد المستودع على سحب البيانات من الأنظمة التشغيلية والتكامل معها. كما يمكن أن توفر واجهات برمجة التطبيقات إمكانية الوصول إلى أدوات التصور والتحليلات المتقدمة.
طبقة البيانات (أو قاعدة البيانات المركزية) هي قلب مستودع البيانات. هنا، يدمج النظام البيانات ويخزنها من مصادر متنوعة، مثل تطبيقات الأعمال، أو قوائم البريد الإلكتروني، أو المواقع الإلكترونية، أو قواعد البيانات الأخرى. تدعم خطوط أنابيب بيانات ETL أو ELT هذه الطبقة ويعمل نظام إدارة قواعد البيانات العلائقية (RDBMS) أو منصة مستودع البيانات السحابية بالطاقة. يمكن لإمكانات إدارة البيانات والأمان المضمنة تقسيم البيانات حتى يتمكن المستخدمون من الوصول إلى ما يحتاجون إليه.
البيانات الوصفية هي بيانات عن البيانات، تُستخدم لوصف البيانات المخزنة في النظام لجعلها قابلة للبحث والاستخدام في التحليلات. تتضمن البيانات الوصفية التقنية (مثل هيكل الجدول ونوع البيانات) والبيانات الوصفية (مثل المؤلف، وتاريخ الإنشاء، أو حجم الملف). البيانات الوصفية هي أساس حوكمة البيانات وإدارتها بشكل فعال.
توفر بعض مستودعات البيانات صندوق اختبار (sandbox)، وهو بيئة اختبار معزولة تحتوي على نسخة من بيانات الإنتاج وأدوات التحليل ذات الصلة. يمكن لمحللي البيانات وعلماء البيانات اختبار تقنيات تحليلية جديدة في صندوق الاختبار دون التأثير في عمليات المستودعات الحية.
تتصل أدوات الوصول بمستودعات البيانات وتوفر واجهة أمامية يمكن الوصول إليها. يمكن لمستخدمي الأعمال ومحللي البيانات استخدام لوحات المعلومات والتطبيقات وأدوات العرض المصور للبيانات للتفاعل مع البيانات واستخراج الرؤى. ومن الأمثلة على هذه الأدوات Tableau وLooker وQlik.
هناك ثلاثة أنواع رئيسية من مستودعات البيانات:
مستودع البيانات المؤسسي (EDW) هو مستودع بيانات يخدم المؤسسة بأكملها. يعمل بمثابة مستودع معلومات مركزي للبيانات التاريخية لجميع الفرق والمجالات. قد تشتمل بيئة تخزين بيانات المؤسسة أيضًا على مخزن بيانات تشغيلية ومتاجر بيانات خاصة بالأقسام.
مخزن البيانات التشغيلية (ODS) يحتوي على أحدث لقطة من البيانات التشغيلية. يتم تحديث ODS بشكل متكرر، ما يتيح الوصول السريع إلى البيانات في زمن شبه حقيقي. تستخدم المؤسسات غالبًا ODS لاتخاذ القرارات التشغيلية اليومية والتحليل الفوري. يمكن أن يكون أيضًا مصدر بيانات لمستودع البيانات المؤسسي (EDW) أو أنظمة بيانات أخرى.
متجر البيانات هو مجموعة فرعية من مستودع بيانات موجود أو من مصادر بيانات أخرى، ويحتوي على بيانات مصممة خصوصًا لتلبية احتياجات قسم أو خط عمل معين، بدلاً من المؤسسة بأكملها. على سبيل المثال، يمكن أن يكون لدى شركة متجر بيانات يتوافق مع قسم التسويق. يمكن لهؤلاء المستخدمين الوصول إلى رؤى أكثر تركيزًا لتقسيم العملاء وأداء الحملات دون الحاجة إلى التنقل عبر مجموعة بيانات المؤسسة الأوسع نطاقًا.
تُستخدم مصطلحات مستودع البيانات وقاعدة البيانات وبحيرة البيانات ومستودع بحيرة البيانات أحيانًا بالتبادل، ولكن توجد بينها اختلافات جوهرية.
قاعدة البيانات أشبه بخزانة ملفات صُممت في الأساس لالتقاط البيانات بشكل آلي ومعالجة المعاملات بسرعة. تُستخدم عادةً كمخزن بيانات مركّز لتطبيق معين. مستودعات البيانات تخزن البيانات من أي عدد من التطبيقات داخل المؤسسة، وهي مُحسَّنة للتحليلات التنبؤية وغيرها من التحليلات المتقدمة.
بحيرة البيانات هي حل تخزين منخفض التكلفة لكميات هائلة من البيانات الخام، وتستخدم منهجية التخطيط عند القراءة بدلاً من التخطيط المحدد مسبقًا. يمكن لبحيرات البيانات تخزين البيانات المهيكلة، والبيانات غير المهيكلة، والبيانات شبه المهيكلة، مثل المستندات، والفيديوهات، وسجلات إنترنت الأشياء، ومنشورات وسائل التواصل الاجتماعي.
يمكن بناؤها على منصات البيانات الضخمة مثل Apache Hadoop أو خدمات cloud object storage مثل Amazon Simple Storage Service (Amazon S3). لا تقوم عادة بتنظيف البيانات أو التحقق من صحتها أو تطبيعها للتحليلات، كما يفعل المستودع.
يجمع مستودع بحيرة البيانات بين نقاط قوة مستودعات البيانات وبحيرات البيانات، ما يوفر مرونة منخفضة التكلفة للبحيرة إلى جانب الأداء العالي للمستودع. ومن خلال الجمع بين الميزات الرئيسية للبحيرات والمستودعات في منصة بيانات واحدة، يمكن لمستودع بحيرة البيانات تسريع معالجة كميات كبيرة من البيانات المنظمة وغير المنظمة والبيانات في الوقت الفعلي.
كما أنها تدعم التعلم الآلي وعلم البيانات وأحمال تشغيل الذكاء الاصطناعي (AI) بكفاءة أكبر. قد تضيف مستودعات بحيرات البيانات أيضًا ميزات مثل البيانات الوصفية المشتركة ومحركات لغة الاستعلام الهيكلية (SQL) الموزعة.
تتيح مستودعات البيانات رؤى ومعلومات للمستخدمين في جميع أنحاء المؤسسة، وتوفر العديد من الفوائد، مثل
من خلال عمليات ELT أو ETL، تقوم مستودعات البيانات بإعداد البيانات الواردة قبل تخزينها في المستودع. يتضمن هذا الإعداد أساليب جودة البيانات مثل تنظيف البيانات وتوحيدها وإزالة التكرار. يمكن أن تساعد سياسات وممارسات إدارة البيانات القوية أيضًا في ضمان دقة البيانات وسلامتها لجميع المستخدمين.
عند دمج البيانات عالية الجودة في مخزن واحد، تُنشئ المؤسسات مصدرًا وحيدًا للحقيقة شاملاً وموثوقًا—مما يساعد على التخلص من صوامع البيانات. يتيح هذا المستودع المركزي لمستخدمي الأعمال الوصول بثقة إلى البيانات المهمة للمؤسسة واستخدامها في اتخاذ القرارات التجارية. كما قد يتضمن مستودع البيانات على مستوى المؤسسة دعمًا للتنسيقات مفتوحة المصدر، مثل Apache Iceberg وParquet وCSV، ما يعزز الوصول إلى البيانات ومشاركتها عبر المؤسسة.
مستودعات البيانات الحديثة يمكنها دعم مختلف مهام سير عمل الذكاء الاصطناعي والتعلم الآلي عبر توفير بيانات نظيفة وموثوقة. يمكن لعلماء البيانات استخدام بيانات المستودعات التي تمت تنقيتها والتحقق منها لبناء نماذج ذكاء اصطناعي توليدي خاصة، أو لضبط النماذج الحالية وتحسينها لتلبية احتياجات أعمالهم الفريدة بشكل أفضل.
يجب أن يكون مستودع البيانات الجاهز للذكاء الاصطناعي قادرًا على جمع البيانات، وتنظيفها، وتنظيمها، وهيكلتها، بالإضافة إلى تسهيل تدفق البيانات إلى منصات الذكاء الاصطناعي والتعلم الآلي. ومع ذلك، ليست كل مستودعات البيانات الحديثة مُحسّنة لأعباء عمل الذكاء الاصطناعي. تزداد شعبية مستودعات وبحيرات البيانات لتصبح منصات البيانات المفضلة للبنية التحتية للذكاء الاصطناعي.
يقوم مستودع البيانات بمركزة وتنقية البيانات من مصادر مختلفة لإنشاء مصدر موحد للمعلومات، مما يمنح المؤسسات رؤية شاملة وموثوقة لبياناتها. أدوات ذكاء الأعمال ذاتية الخدمة تُمكّن المستخدمين في جميع أنحاء المؤسسة من الوصول إلى هذه البيانات المجمعة وتشغيل الاستعلامات التحليلية عليها.
بهذه الطريقة، تُمكِّن مستودعات البيانات مستخدمي الأعمال من أي مستوى مهارة فنية من اكتشاف الأنماط والاتجاهات والتجمعات وإعداد التقارير عنها. يمكن لقادة الأعمال استخدام هذه الرؤى لاتخاذ قرارات وتوقعات أفضل وأكثر استنارة، بناءً على أدلة قوية في كل مجالات المؤسسة تقريباً، بدءاً من العمليات التجارية وصولاً إلى الإدارة المالية وإدارة المخزون.
يمكن أن تُستخدم مستودعات البيانات أيضًا في حالات الاستخدام الخاصة بالصناعات، مثل ما يلي:
تساعد الإمكانيات التحليلية لمستودع البيانات الحكومات على فهم الظواهر المعقدة بشكل أفضل، مثل الجريمة والاتجاهات السكانية وأنماط حركة المرور.
يمكن أن تساعد القدرة على مركزة البيانات المتباينة وتحليلها، مثل: رموز الفواتير والتشخيص، والبيانات الديموغرافية للمرضى، والأدوية، ونتائج الفحوصات—في تمكين مقدمي الرعاية الصحية من الحصول على رؤى أعمق. وتساعدهم هذه الرؤى على فهم نتائج المرضى وتحسين الكفاءة التشغيلية وغير ذلك الكثير.
يمكن للمؤسسات استخدام البيانات التاريخية المتعلقة بخيارات السفر والإقامة لاستهداف العملاء بالإعلانات والعروض الترويجية بشكل أكثر دقة.
تستطيع شركات التصنيع الكبرى التي تنتج كميات هائلة من البيانات استخدام حلول مستودعات البيانات لإنشاء متاجر للبيانات مصممة خصيصًا لتلبية احتياجات كل قسم.
يمكن أن يكون مستودع البيانات خيارًا ذكيًا إذا كانت مؤسستك تجمع كميات كبيرة من البيانات من أنظمة تشغيلية متعددة، مثل تطبيقات الأعمال (BI) والمواقع الإلكترونية وقواعد البيانات الأخرى. ويُعد مفيدًا بشكل خاص عندما تخطط لإجراء تحليل تاريخي معقد باستخدام أدوات تطبيقات الأعمال أو لوحات المعلومات.
لتحسين التكلفة، ابحث عن البنى التي تفصل بين موارد البيانات وموارد الحوسبة، ما يسمح لك بتوسيع نطاقها بشكل منفصل. يمكنك أيضًا استخدام تخزين الكائنات السحابية الفعال من حيث التكلفة وإدارة أحمال العمل المدعومة بالذكاء الاصطناعي لتوزيع الموارد تلقائيًا. تعمل تنسيقات البيانات المفتوحة على تسهيل مشاركة البيانات عبر المستودعات والبحيرات، ما يقلل من تكاليف التخزين والتعقيد.
يمكن أن تساعد عمليات ETL/ELT القوية لتنقية البيانات وتوحيدها، وسياسات حوكمة البيانات القوية، وإمكانية ملاحظة البيانات للتعرف على المشكلات عند ظهورها في حل مشكلات جودة البيانات. يمكن أن يساعد نهج "التحول إلى اليسار" أيضًا في اكتشاف مشكلات جودة البيانات وحلها بالقرب من السبب الجذري بدلاً من حلها في المراحل النهائية.
يتم إنشاء قاعدة البيانات في المقام الأول لمعالجة المعاملات بسرعة، وعادةً ما تكون بمثابة مخزن البيانات لتطبيق معين. يقوم مستودع البيانات بتجميع كميات كبيرة من البيانات من مصادر مختلفة، ثم يقوم بتنظيفها وإعدادها لذكاء الأعمال والاستعلامات التحليلية وغيرها من تحليلات البيانات المتقدمة.
يقوم مهندسو البيانات ببناء البنية التحتية وصيانتها، بينما يقوم كبير مسؤولي البيانات بوضع إستراتيجية البيانات والإشراف على وظائف إدارة البيانات. تتولى فرق ذكاء الأعمال إدارة الطبقات الدلالية ولوحات المعلومات، وتساعد فرق حوكمة البيانات متعددة الوظائف الفرق على ضمان جودة البيانات وأمانها.
يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين وخاضع للحوكمة.
عزّز تطبيقاتك وتحليلاتك والذكاء الاصطناعي بأي بيانات ضمن مستودع بيانات مفتوح.
وسِّع نطاق الذكاء الاصطناعي بنجاح من خلال وجود الاستراتيجية الصحيحة، والبيانات الموثوق بها، والأمن، والحوكمة الفعَّالة.