ما المقصود بمجموعة البيانات الحديثة؟

24 فبراير 2025

المؤلفين

Alexandra Jonker

Editorial Content Lead

ما المقصود بمجموعة البيانات الحديثة؟

تُشير مجموعة البيانات الحديثة (MDS) إلى الأدوات والتقنيات المتكاملة القائمة على السحابة، والتي تُتيح جمع البيانات، واستيعابها، وتخزينها، وتنظيفها، وتحويلها، وتحليلها، وحوكمتها.كما يشير الاسم، فإن مجموعة البيانات -أو "منصة البيانات"- تضم طبقات الأدوات التي تحتاجها المؤسسات للحفاظ على جودة البيانات واستخلاص القيمة من معلوماتها.

تعتمد مجموعات البيانات التقليدية القديمة (LDS) على بنية تحتية ثابتة ومحلية، وقد تواجه صعوبة في التوسع والمرونة والمعالجة في الوقت الفعلي. في المقابل، توفِّر مجموعة البيانات الحديثة (MDS) حلًا سحابيًا أصليًا ومُتعدد الوحدات، مصممًا لتبسيط الأتمتة، وتحسين التكاليف، وتسريع الوصول إلى الرؤى.ولعل أبرز ما يميز MDS هو تمكين التحليلات ذاتية الخدمة وتطبيقات الذكاء الاصطناعي التي تعتمد عليها العديد من الشركات اليوم.

تُعد منصات البيانات العمود الفقري لتطوير البرمجيات الحديثة، حيث توفِّر شبكة من الأدوات والأطر لبناء التطبيقات وإدارتها بكفاءة. يمكن تشبيه مجموعة البيانات الحديثة (MDS) بخط التجميع للعمليات الرقمية، حيث يؤدي كل مكون دورًا في نقل البيانات بسلاسة من مرحلة الجمع إلى التحليل. ومن خلال أتمتة وتوسيع نطاق سير العمل، تضمن مجموعة البيانات الحديثة (MDS) قدرة المؤسسات على معالجة البيانات وتخزينها واستخدامها بدقة، ما يعزِّز اتخاذ القرارات والابتكار.

تشمل الوظائف الأساسية لمجموعة البيانات الحديثة (MDS) ما يلي:

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

لماذا تُعَد مجموعة البيانات الحديثة مهمة؟

بين عامي 2012 و2016، أدى التحول الكبير في سير العمل إلى إعادة تشكيل كيفية تخزين مجموعة البيانات ومعالجتها. وقد ساهمت المنصات المستندة إلى السحابة مثل Snowflake وGoogle BigQuery وAmazon Redshift في نشر مستودعات البيانات السحابية، ما أدى إلى توفير قابلية التوسع وقوة الحوسبة وكفاءة غير مسبوقة.

وفي الوقت نفسه، انتقلت المؤسسات من سير العمل التقليدي للاستخراج والتحويل والتحميل (ETL) -حيث يتم تحويل البيانات قبل التخزين- إلى الاستخراج والتحميل والتحويل (ELT)، حيث يتم تخزين البيانات أولًا ثم معالجتها لاحقًا. وقد أدى هذا النهج إلى زيادة المرونة وجعل الرؤى في الوقت الفعلي أكثر سهولة من خلال استخدام موصلات أو ملحقات لتبسيط حركة البيانات.

خلال هذه الفترة، أدت أدوات مثل Fivetran وAirflow إلى أتمتة استيعاب البيانات، بينما أحدثت منصات مثل Tableau وPower BI وLooker ثورة في مجال ذكاء الأعمال. تحسين تدفق البيانات من خلال Reverse ETL، حيث يتم دفع الرؤى من مستودعات البيانات إلى الأنظمة التشغيلية مثل أنظمة إدارة علاقات العملاء (CRMs)، ما يُتيح تحسين الأتمتة، واتخاذ القرارات، والتخصيص. وقد شكَّلت هذه الابتكارات الأساس لمجموعة البيانات الحديثة (MDS)، ما مكَّن من تدفقات البيانات الأكثر قابلية للتوسع، والأتمتة، والمرونة. ومن خلال تبسيط حركة البيانات ودمجها، حققت المؤسسات مرونة أكبر في العمليات التشغيلية.

المقارنة بين مجموعة البيانات القديمة ومجموعة البيانات الحديثة

لفهم أهمية مجموعة البيانات الحديثة (MDS)، من المفيد مقارنتها مع مجموعة البيانات القديمة (LDS):

لمحة سريعة عن الاختلافات الرئيسية

  • البنية التحتية: تعتمد LDS على الخوادم المادية، وتعتمد MDS على السحابة.
  • قابلية التوسع: تتطلب LDS التوسع يدويًا، بينما تتوسع MDS ديناميكيًا وفقًا للطلب.
  • التكامل: تعتمد LDS على مهام سير العمل المخصصة، بينما تعمل MDS على أتمتة استيعاب البيانات.
  • المرونة: تُعَد LDS وحيدة البنية، بينما MDS مبنية من وحدات، ما يُتيح تكامل الأدوات بسلاسة.
  • التحليلات: تدعم LDS التقارير الدفعية، بينما توفِّر MDS رؤى في الوقت الفعلي ولوحات تحكم تفاعلية.
  • التكلفة: تتطلب LDS استثمارًا كبيرًا مقدمًا، بينما تستخدِم MDS نماذج الدفع حسب الاستخدام.

تعتمد LDS التقليدية على بنية تحتية محلية، ما يتطلب استثمارات كبيرة في الأجهزة، والصيانة، والتوسع اليدوي. وهم يعتمدون على سير العمل الاستخراج والتحويل والتحميل (ETL)، ما يعني أنه يجب تنظيف البيانات وتنظيمها قبل التخزين. وعلى الرغم من فاعليتها في إعداد التقارير الثابتة، إلا أن مخزونات البيانات الثابتة تعاني من صعوبة في المعالجة في الوقت الفعلي وقابلية التوسع والتعامل مع البيانات غير المنظمة مثل سجلات المستشعرات أو الصور أو الصوت.

تُعالج MDS هذه التحديات من خلال نهج سحابي أصلي ومُجزأ، ما يُتيح للمؤسسات تخزين البيانات، ومعالجتها، وتحليل كميات كبيرة من البيانات المنظمة وغير المنظمة بكفاءة أكبر. توفِّر مهام سير عمل ELT مرونة أكبر، غالبًا من خلال استخدام البرمجة النصية المعتمدة على Python للأتمتة ومعالجة البيانات.

على عكس LDS، التي تتطلب توسيعات بنية تحتية مكلفة، تقدِّم MDS قابلية للتوسع عند الطلب، وطبيعتها المُجزأة تعني أن الشركات يمكنها دمج أدوات مجموعة البيانات دون الاحتكار لمنتج معين. أخيرًا، تُتيح MDS رؤى في الوقت الفعلي وتحليلات وأتمتة مدفوعة بالذكاء الاصطناعي، ما يزيد من سهولة الوصول إلى البيانات وقابلية التنفيذ عبر المؤسسة.

Mixture of Experts | 25 أبريل، الحلقة 52

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم في أثناء سعيهم للتغلب على الفوضى والضوضاء المحيطة بالذكاء الاصطناعي لتزويدك بأحدث أخباره والرؤى المتعلقة به.

المكونات الأساسية لمجموعة البيانات الحديثة

تتكون مجموعة البيانات الحديثة من عدة عناصر أساسية، منها:

  • تخزين البيانات
  • استيعاب البيانات
  • تحويل البيانات
  • ذكاء الأعمال والتحليلات
  • إمكانية ملاحظة البيانات

تخزين البيانات

تُعَد طبقة تخزين البيانات أساسًا في MDS، حيث توفِّر بيئة مركزية لإدارة البيانات المنظمة وغير المنظمة. يمكن للمؤسسات اختيار حلول التخزين من مزودين مثل IBM وAWS وMicrosoft استنادًا إلى عوامل مثل التكلفة، والأداء، واحتياجات قابلية التوسع.

أنواع تخزين البيانات:

  • مستودعات البيانات: تتجمع البيانات المنظمة من مصادر متعددة في مستودع بيانات مركزي واحد محسَّن للتحليلات والذكاء الاصطناعي والتعلم الآلي. ومن المزودين Snowflake وGoogleBigQuery وAmazon Redshift.
  • بحيرات البيانات: تحتوي بحيرات البيانات على بيانات غير منسقة ومنظمة وغير منظمة بتنسيقات مختلفة. وهي تُتيح للمؤسسات تخزين كميات هائلة من البيانات، والتي غالبًا ما تصل إلى حجم البيتابايت وأكثر لتطبيقات الذكاء الاصطناعي، والتعلم الآلي، والأبحاث. تم بناء العديد من بحيرات البيانات في البداية على Hadoop، ولكن معظم البنى الحديثة الآن تستخدِم حلول تخزين الكائنات السحابية مثل AWS S3 وIBM Cloud Object Storage (اختصارًا COS).
  • مستودعات بحيرات البيانات: نهج هجين يجمع بين قابلية التوسع في بحيرات البيانات والقدرات المنظمة لمستودعات البيانات. بعبارة أخرى، أرشيف يبدو غير محدود مع فهرس دقيق للغاية. تعمل مستودعات بحيرات البيانات على تخزين البيانات المنظمة وشبه المنظمة وغير المنظمة، مع دعمها لأعباء العمل المتعلقة بذكاء الأعمال، والتحليلات، والتعلم الآلي.

استيعاب البيانات

استيعاب البيانات هو عملية جمع ونقل البيانات من مصادر مختلفة إلى نظام تخزين مركزي للمعالجة والتحليل. تعتمد فاعلية مسار البيانات على مدى جودة استيعاب البيانات الكبيرة ودمجها. يؤدي مهندسو البيانات دورًا حاسمًا حيث يمكن للأخطاء في هذه المرحلة أن تتسبب في حدوث مشكلات في المراحل اللاحقة من التحليلات ونماذج الذكاء الاصطناعي.

أنواع استيعاب البيانات:

  • معالجة الدفعات: أكثر طرق الاستيعاب شيوعًا، حيث تعمل معالجة الدفعات على جمع البيانات في مجموعات (أو دفعات) وإرسالها إلى التخزين في فترات مجدولة. وهذا النهج فعَّال من حيث التكلفة ومثالي عندما لا تكون التحديثات في الوقت الفعلي مطلوبة.
  • المعالجة في الوقت الفعلي: يُطلق عليها أيضًا "المعالجة المتدفقة"، حيث تعمل هذه الطريقة على تقديم البيانات ومعالجتها باستمرار عند إنشائها. وهو أمر بالغ الأهمية لتطبيقات الذكاء الاصطناعي والكشف عن الغش والتحليلات في الوقت الفعلي. ومع ذلك، فهو يتطلب موارد حسابية أعلى.

تساعد أدوات الاستيعاب الآلية مثل Apache Airflow وStitch وFivetran المؤسسات على نقل البيانات بسلاسة بين الأنظمة، ما يقلِّل الجهد اليدوي ويحسِّن كفاءة تكامل البيانات.

تحويل البيانات

غالبًا ما تكون البيانات غير المنسقة غير متسقة أو غير منظمة عند استيعابها، ما يجعل من الصعب تحليلها بتنسيقها الأصلي. تضمن طبقة تحويل البيانات أن تكون البيانات نظيفة ومنظمة ومحسَّنة لمهام مثل التحليلات وإعداد التقارير والتعلم الآلي.

مهام تحويل البيانات الشائعة:

  • تنظيف البيانات: إزالة الأخطاء والقيم الفارغة والتكرارات.
  • التطبيع: توحيد تنسيقات البيانات لتحقيق الاتساق.
  • التجميع: تلخيص مجموعات البيانات الكبيرة لإعداد التقارير.
  • الدمج: دمج البيانات من مصادر متعددة في مجموعة بيانات موحدة.

من الناحية التاريخية، اتَّبَع تحويل البيانات سير عمل ETL. ومع ذلك، ومع ظهور حلول التخزين المستندة إلى السحابة، تستخدِم معظم المؤسسات الآن عمليات ELT. تعمل أدوات تحويل البيانات، مثل dbt وDataform، على أتمتة مهام سير العمل وتساعد على ضمان دقة البيانات واتساقها وجاهزيتها للتحليلات.

ذكاء الأعمال والتحليلات

تعمل طبقة ذكاء الأعمال والتحليلات على تحويل البيانات غير المنسقة إلى رؤى قابلة للتنفيذ من خلال تحليلات البيانات، والتصور، وتحليل التوجهات، واستعلامات لغة الاستعلامات الهيكلية (SQL)، والأتمتة المدفوعة بالذكاء الاصطناعي. وتوفِّر أدوات مثل Tableau وPower BI وLooker لوحات تحكم تفاعلية وتحليل بيانات في الوقت الفعلي، ما يساعد المؤسسات على تتبُّع الأداء وتحسين الاستراتيجيات.

إلى جانب العرض المصور للبيانات، تُسهم تحليلات الذكاء الاصطناعي وعلم البيانات في تعزيز عملية اتخاذ القرار من خلال اكتشاف حالات الخلل، والتنبؤ بالتوجهات، وأتمتة سير العمل - وكل ذلك يعتمد على ممارسات قوية في إدارة البيانات. وسواء تم استخدامها في تحليل سلوك العملاء، أو التنبؤ المالي، أو تحسين سلاسل التوريد، تضمن أدوات ذكاء الأعمال أن تتمكَّن الشركات من الاستفادة من البيانات في البيئات الاستراتيجية والتشغيلية على حد سواء.

إمكانية ملاحظة البيانات 

تضمن إمكانية ملاحظة البيانات جودة البيانات وتوافرها وموثوقيتها من خلال مراقبة السلامة بشكل مستمر. تساعد هذه الطبقة فرق البيانات على كشف المسارات المعطلة أو السجلات المفقودة أو المعالجة البطيئة قبل أن تؤثِّر في التحليلات.

تُتيح أدوات إمكانية الملاحظة مثل Monte Carlo وDatadog رؤية متعمقة في تدفق البيانات، ما يمكِّن المهندسين من تشخيص وتحسين سير العمل في الوقت الفعلي. ومن خلال حل المشكلات بشكل استباقي، تستطيع المؤسسات الحفاظ على سلامة البيانات وتحسين صناعة القرار. تدعم ممارسات إمكانية الملاحظة القوية نموذج البيانات المنظم جيدًا وتضمن أن الأطراف المعنية يمكنهم الثقة في الرؤى طوال دورة حياة البيانات.

طبقات مجموعة البيانات الحديثة الإضافية

بالإضافة إلى الطبقات الأساسية الخمس، غالبًا ما تتضمن MDS عناصر أخرى لتعزيز إمكانية الوصول والوظائف. ويمكن أن تشمل هذه العناصر ما يلي: 

  • اكتشاف البيانات: يساعد اكتشاف البيانات المؤسسات على إبراز مصادر البيانات المخفية أو المنعزلة وتقييمها، ما يضمن قدرة فرق البيانات على استخراج المعلومات القيّمة وتوظيفها بفاعلية.
  • إدارة البيانات: يمكن لوضع السياسات وتطبيق الضوابط أن يسهم في ضمان الأمان، والامتثال التنظيمي، واتساق البيانات. من خلال إدارة تدفقات البيانات وتطبيق نموذج بيانات منظم، تدعم الحوكمة سير العمل الفعَّال وتساعد على ضمان مراقبة الامتثال في الوقت الفعلي.
  • فهرسة البيانات: يمكن للفرق استخدام البيانات الوصفية لإنشاء مخزون منظم لأصول البيانات عبر مستودعات البيانات، وبحيرات البيانات، وبيئات التخزين الأخرى. يدعم الكتالوج المُعد بعناية دورة حياة البيانات بالكامل، ويُتيح للأطراف المعنية الوصول السريع إلى المعلومات الأساسية واستخدامها.
  • التعلم الآلي والذكاء الاصطناعي: تُدمِج بعض منصات البيانات تقنيات التعلم الآلي والذكاء الاصطناعي لتحسين معالجة البيانات، وتعزيز النمذجة التنبؤية، وأتمتة استخراج الرؤى، وتحسين اكتشاف حالات الخلل.تعمل نماذج التعلم الآلي أيضًا على تحسين سير العمل من خلال تحديد أوجه القصور واقتراح تحسينات في الوقت الفعلي لفرق البيانات.

حالات استخدام مجموعة البيانات الحديثة

يمكن للشركات نشر مجموعة البيانات الحديثة الخاصة بها لتحسين التخصيص المدعوم بالذكاء الاصطناعي، ورؤى العملاء، والخدمات اللوجستية، والكشف عن الغش.

التخصيص المدعوم بالذكاء الاصطناعي

تُتيح مجموعة البيانات الحديثة (MDS) للشركات تقديم تخصيص مدعوم بالذكاء الاصطناعي قائم على البيانات. يمكن أن يسهم هذا التخصيص في تحسين تجارب المستخدم عبر مجالات مثل التجارة الإلكترونية ومنصات البث وتطبيقات البرمجيات كخدمة (SaaS). باستخدام Apache Spark لمعالجة البيانات في الوقت الفعلي، وDatabricks للتحليلات القابلة للتوسع، يمكن لعلماء البيانات تحليل تفضيلات العملاء وتفاعلهم لتحسين محركات التوصية وشبكات توصيل المحتوى.

رؤى العملاء وتحسين المبيعات

تستخدم الشركات مجموعة البيانات الحديثة (MDS) وأدوات تحليلات البرمجيات كخدمة (SaaS) لتتبع سلوك العملاء وتحسين استراتيجيات التسويق. تُنشئ المنصات السحابية مثل Snowflake وLooker لوحات معلومات في الوقت الفعلي لفئات مثل أنماط الشراء وتحسين الأسعار، وكل ذلك يساعد الشركات على زيادة معدلات التحويل والاحتفاظ بالعملاء.

تحسين الخدمات اللوجستية وسلاسل التوريد

من خلال دمج Fivetran لاستيعاب البيانات وdbt للتحويل، يمكن للشركات مراقبة المخزون في الوقت الفعلي والتنبؤ بالاضطرابات. يمكن أن يؤدي هذا التكامل إلى تحقيق إنجاز أسرع وتقليل التكاليف وتحسين التخطيط للطلب في صناعات مثل البيع بالتجزئة والتصنيع والنقل.

الكشف عن الغش وإدارة المخاطر

تستخدِم المؤسسات المالية ومنصات التجارة الإلكترونية مجموعة البيانات الحديثة (MDS) للكشف عن الاحتيال ومنع اختراق أمن البيانات. ومن خلال استخدام نماذج التعلم الآلي، وواجهات برمجة التطبيقات، والخدمات مثل Amazon Redshift، يمكن للمؤسسات تحديد المعاملات المشبوهة وأتمتة الكشف عن الغش.

ما الأعمال التي تحتاج إلى مجموعة البيانات الحديثة؟

تستخدم الأعمال التي تعتمد على اتخاذ القرارات في الوقت الفعلي، والأتمتة، والرؤى المدفوعة بالذكاء الاصطناعي مجموعة البيانات الحديثة لتحسين الوصول إلى البيانات وتبسيط العمليات. تستخدم القطاعات مثل التكنولوجيا، والمالية، والرعاية الصحية، والتجارة الإلكترونية، والخدمات اللوجستية عادةً مجموعة البيانات الحديثة لدمج مصادر البيانات على نطاق واسع، وتحسين قدرات التحليل، ودعم اتخاذ القرارات بشكل أكثر كفاءة وتنظيم العمليات.

ومع ذلك، في عالم حيث تُؤثِّر فيه البيانات في كل جانب من جوانب عمليات الأعمال، فإن السؤال الحقيقي ليس عن الصناعات التي تستفيد من MDS، بل عن كيفية استفادة المؤسسات منها لتعزيز الكفاءة والقدرة على التكيف. مع استمرار تطور اعتماد الذكاء الاصطناعي، والأدوات مفتوحة المصدر، ومعالجة البيانات في الوقت الفعلي، أصبحت MDS نهجًا أكثر شيوعًا للمؤسسات لتحديث بنية البيانات الخاصة بها.

حلول ذات صلة
منصة IBM StreamSets

إنشاء أنظمة تدفق البيانات الذكية وإدارتها من خلال واجهة رسومية سهلة الاستخدام، ما يسهِّل تكامل البيانات بسلاسة عبر البيئات الهجينة ومتعددة السحابة.

استكشف StreamSets
حلول نسيج البيانات

صَمِّم بنية بيانات تساعد على تسريع جاهزية البيانات للذكاء الاصطناعي التوليدي وتُطلِق العنان لإنتاجية لا مثيل لها لفِرَق البيانات.

استكشف حلول نسيج البيانات
خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة مع IBM Consulting لبناء مؤسسة تعتمد على الرؤى لتحقيق ميزة تنافسية في الأعمال.

اكتشف خدمات التحليلات
اتخِذ الخطوة التالية

اكتشف IBM DataStage، أداة الاستخراج والتحويل والتحميل (ETL) التي توفر واجهة مرئية لتصميم مسارات البيانات وتطويرها ونشرها. وهي متوفرة على هيئة برمجيات كخدمة (SaaS) مُدارة على IBM Cloud، للاستضافة الذاتية، وكمكون إضافي على IBM Cloud Pak for Data.

استكشف DataStage استكشف خدمات التحليلات