ما تدفق البيانات؟

30 ديسمبر 2024

المؤلفين

Matthew Kosinski

Enterprise Technology Writer

ما تدفق البيانات؟

تدفق البيانات هو التدفق المستمر للبيانات في الوقت الفعلي من مصادر مختلفة. وعلى عكس المعالجة على دفعات التي تعالج مجموعات البيانات على فترات زمنية مجدولة، تتم معالجة البيانات المتدفقة عند وصولها للحصول على معارف فورية في الوقت الفعلي.

تصدر المؤسسات اليوم كميات هائلة من البيانات عن كل شيء بدءًا من أجهزة إنترنت الأشياء (IoT) وحتى معاملات التجارة الإلكترونية. تساعد البيانات المتدفقة، والمعروفة أيضًا باسم ”تدفق البيانات“ أو ”تدفق البيانات في الوقت الفعلي“، المؤسسات على معالجة هذه التدفقات المستمرة للبيانات فور ورودها.

تتضمن الأمثلة على البيانات المتدفقة ما يلي:

  • بيانات السوق المالية التي تتبع أسعار الأسهم ونشاط التداول
  • قراءات مستشعرات إنترنت الأشياء (IOT) لمراقبة أداء المعدات
  • تدفقات أنشطة وسائل التواصل الاجتماعي التي تسجل تفاعل المستخدمين
  • بيانات تدفق النقر على الموقع الإلكتروني التي توضح أنماط سلوكيات الزائرين

غالبًا ما تستخدم المؤسسات البيانات المتدفقة لدعم مبادرات الأعمال التي تعتمد على البيانات في الوقت الفعلي لاتخاذ قرارات سريعة تعتمد على البيانات، مثل تحليل البيانات وذكاء الأعمال (BI).

غالبًا ما يكون تدفق البيانات جزءًا من جهود جمع البيانات الكبيرة ومعالجتها. على سبيل المثال، يمكن للمؤسسات تحليل تدفقات البيانات المستمرة باستخدام تحليلات البيانات الكبيرة لاكتساب معارف حول الكفاءة التشغيلية واتجاهات المستهلكين وديناميكيات السوق المتغيرة.

ونظرًا لأنها تتدفق باستمرار، تتطلب البيانات المتدفقة أساليب معالجة مختلفة عن المعالجة على دفعات التقليدية. وغالبًا ما تتضمن هذه الأساليب هياكل تدفق قابلة للتوسع ومعالجات تدفق البيانات التي تدير استيعاب البيانات ومعالجتها وتحليلها مع الحفاظ على الأداء الأمثل.

أدى ظهور الذكاء الاصطناعي (AI) والتعلم الآلي في السنوات الأخيرة إلى زيادة التركيز على قدرات تدفق البيانات. وتعتمد هذه التقنيات غالبًا على معالجة البيانات المتدفقة لاستخراج معارف وتوقعات في الوقت الفعلي.

وفقًا لتقرير Gartner، أفادت 61% من المؤسسات أنها بحاجة إلى تطوير نموذج تشغيل البيانات والتحليلات أو إعادة النظر فيه بسبب تأثير تقنيات الذكاء الاصطناعي.1

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

مقارنة بين تدفق البيانات والمعالجة على دفعات

يمكن للمؤسسات معالجة البيانات بطريقتين أساسيتين: المعالجة على دفعات أو تدفق البيانات.

في حين أن كلا الأسلوبين يعالجان كميات كبيرة من البيانات، فإنهما مفيدان في حالات استخدام مختلفة ويتطلبان هياكل مختلفة.

تتضمن الاختلافات الرئيسية ما يلي:

  • نموذج المعالجة: تعمل المعالجة على دفعات على تجميع مجموعات البيانات وتحليلها على دفعات وعلى فترات زمنية ثابتة، بينما يستخدم تدفق البيانات أدوات معالجة البيانات في الوقت الفعلي لمعالجة البيانات فور وصولها. ما يعني أن أنظمة التدفق يمكن أن تسفر عن معارف واتخاذ إجراءات فورية، بينما تعمل أنظمة المعالجة على دفعات وفق جدول زمني دوري.

  • احتياجات البنية التحتية: غالبًا ما تستخدم أنظمة المعالجة على دفعات أدوات تخزين وتحليل البيانات التقليدية مثل مستودعات البيانات، في حين أن التدفق يتطلب أطر عمل متخصصة ومنصات تدفق بيانات مصممة للتعامل مع تدفقات البيانات في الوقت الفعلي.

  • متطلبات الأداء: يمكن لأنظمة المعالجة على دفعات تعزيز استخدام الموارد في أثناء عمليات التشغيل المجدولة، بينما تحتاج معالجة التدفق إلى أنظمة تتحمل الأخطاء مع زمن انتقال قصير. وبعبارة أخرى، يجب أن تعالج أنظمة التدفق البيانات في الوقت الفعلي من دون تأخير، حتى عندما تكون أحجام البيانات كبيرة أو في حال حدوث مشكلات.

عادةً ما تختار المؤسسات بين المعالجة على دفعات ومعالجة التدفق بناءً على أحجام البيانات واحتياجات زمن الانتقال وأهداف العمل. يستخدم الكثيرون كلا النهجين ضمن نسيج بيانات موحد للتعامل مع أنواع مختلفة من مهام البيانات.

على سبيل المثال، قد تستخدم إحدى مؤسسات التجارة الإلكترونية المعالجة على دفعات لإنشاء تقارير مبيعات يومية في حين تستخدم البيانات المتدفقة وأنظمة التحليلات في الوقت الفعلي لمراقبة مقاييس الموقع الإلكتروني الرئيسية.  

Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.

كيفية عمل تدفق البيانات

ويعمل تدفق البيانات على مستوى عالٍ من خلال جمع تدفقات البيانات في الوقت الفعلي من مصادر مختلفة ومعالجتها وتحليلها باستمرار. تتكون هذه العملية من أربع مراحل رئيسية:

  • استيعاب البيانات
  • معالجة تدفق البيانات
  • تحليل البيانات
  • تخزين البيانات

استيعاب البيانات

تتضمن المرحلة الأولى استيعاب تدفقات البيانات الواردة من مصادر متنوعة. تقوم أدوات استيعاب البيانات الحديثة مثل Apache Kafka بتخزين هذه التدفقات وتوحيدها عند وصولها، ما يساعد على ضمان قابلية التوسع واتساق البيانات.

تدمج المؤسسات عادةً أدوات استيعاب البيانات مع عناصر أخرى لإنشاء تدفقات عمل موحدة. يمكن لأدوات تكامل البيانات أيضًا مواءمة أنواع البيانات المتباينة في تنسيق موحد للمعالجة من أجل ضمان إمكانية دمج البيانات من مصادر متعددة وتحليلها بفعالية.

معالجة تدفق البيانات

في مرحلة المعالجة، تقوم أُطُر عمل معالجة التدفق مثل Apache Flink بتحليل البيانات وتحويلها في أثناء حركتها. تمكّن هذه الأطر المؤسسات من:

  • معالجة الأحداث المعقدة في الوقت الفعلي

  • إجراء تجميع البيانات على نطاق واسع، مثل حساب المتوسطات أو حساب الأحداث أو جمع قيم المعاملات

  • تطبيق التحويلات - مثل تصفية البيانات أو إثرائها أو تنسيقها - في أثناء تدفق البيانات عبر مسار البيانات

تحليل البيانات وتصورها

في هذه المرحلة، تستمد المؤسسات معارف أعمال قابلة للتنفيذ من البيانات المتدفقة من خلال تصور البيانات والأدوات التحليلية الأخرى.

تشمل التطبيقات الرئيسية ما يلي:

  • لوحات المعلومات في الوقت الفعلي التي توفر مقاييس ومؤشرات أداء رئيسية مهمة

  • التطبيقات التشغيلية التي تعمل على أتمتة مهام سير العمل وتحسين العمليات

  • نماذج التعلم الآلي التي تحلل الأنماط للتنبؤ بالنتائج

تخزين البيانات

عند تخزين البيانات المتدفقة، يجب على المؤسسات أن توازن بين الحاجة إلى الوصول السريع إلى البيانات لاستخدامها في الوقت الفعلي وبين تخزين البيانات على المدى الطويل، وفعالية التكلفة ومخاوف الامتثال للبيانات.

تستخدم العديد من المؤسسات بحيرات البيانات ومستودعات البيانات لتخزين البيانات المتدفقة لأن هذه الحلول توفر بيئات تخزين مرنة ومنخفضة التكلفة لكميات كبيرة من البيانات. بعد جمع البيانات المتدفقة، يمكن إرسالها إلى مستودع البيانات، حيث يمكن تنقيتها وتجهيزها للاستخدام.

غالبًا ما تطبق المؤسسات حلول تخزين بيانات متعددة معًا في نسيج بيانات موحد. على سبيل المثال، قد تستخدم المؤسسات المالية بحيرات البيانات لتخزين تدفقات المعاملات الأولية في حين تُستخدَم المستودعات للتحليلات وإعداد التقارير.

أنواع البيانات المتدفقة

يمكن للمؤسسات استخدام العديد من أنواع البيانات المتدفقة لدعم التحليلات واتخاذ القرارات في الوقت الفعلي. تتضمن بعض تدفقات البيانات المتدفقة الأكثر شيوعًا ما يلي:

Event Streams

تسجّل تدفقات الأحداث إجراءات النظام أو التغييرات التي تطرأ على النظام عند حدوثها، مثل مكالمات واجهة برمجة التطبيقات (API) أو النقرات على الموقع الإلكتروني أو إدخالات سجلات التطبيق. تُستخدم تدفقات الأحداث بشكل شائع لتتبع الأنشطة في الوقت الفعلي عبر الأنظمة، ما يتيح الاستجابة الفورية لتفاعلات المستخدم أو أحداث النظام.

بيانات المعاملات في الوقت الفعلي

تسجِّل بيانات المعاملات في الوقت الفعلي التدفقات المستمرة للمعاملات التجارية، مثل المدفوعات الرقمية أو مشتريات التجارة الإلكترونية. كما تدعم تطبيقات مثل الكشف عن الاحتيال واتخاذ القرارات الفورية.

بيانات إنترنت الأشياء (IOT) وأجهزة الاستشعار

تتضمن بيانات إنترنت الأشياء وبيانات أجهزة الاستشعار معلومات حول الظروف البيئية وأداء المعدات والعمليات المادية. وغالبًا ما تدعم تدفقات البيانات هذه مراقبة المعدات وأتمتة العمليات في الوقت الفعلي.

حالات استخدام البيانات المتدفقة

يتيح تدفق البيانات للمؤسسات معالجة كميات كبيرة من المعلومات في الوقت الفعلي للحصول على معارف واتخاذ إجراءات فورية.

تشمل التطبيقات الشائعة ما يلي:

الخدمات المالية

تستخدم المؤسسات المالية بشكل متكرر تحليلات التدفق لمعالجة بيانات السوق والمعاملات وتفاعلات العملاء.

على سبيل المثال، تعتمد شركات بطاقات الائتمان على تدفق البيانات للكشف عن الاحتيال. إذ تسمح منصات البيانات المتدفقة لهذه الشركات بتحليل آلاف المعاملات في الثانية الواحدة للكشف عن النشاط غير المعتاد والإبلاغ عن المعاملات المشبوهة أو حظرها.

التصنيع

غالبًا ما تستخدم مرافق التصنيع الحديثة مستشعرات أجهزة إنترنت الأشياء ومعالجة البيانات في الوقت الفعلي لتحسين الكفاءة التشغيلية. 

على سبيل المثال، قد يراقب مصنع سيارات الآلاف من أجهزة استشعار خط التجميع، ويتتبع مقاييس مثل درجة الحرارة والاهتزاز والأداء. يمكن أن تساعد هذه البيانات المشغلين على اكتشاف أوجه القصور في وقت مبكر وجدولة الصيانة الوقائية لتجنب الأعطال.

الرعاية الصحية

يعتمد مقدمو الرعاية الصحية على تطبيقات التدفق لمعالجة البيانات من الأجهزة الطبية وأنظمة مراقبة المرضى.

على سبيل المثال، في وحدات العناية المركزة، تبث أجهزة المراقبة بجانب السرير العلامات الحيوية من خلال مسارات البيانات إلى المعالجات المركزية. ويمكن لهذه المعالجات بعد ذلك تحديد الأنماط المقلقة وتنبيه الطاقم الطبي تلقائيًا عند الحاجة إلى التدخل.

البيع بالتجزئة والتجارة الإلكترونية

يستخدم بائعو التجزئة وشركات التجارة الإلكترونية البيانات المتدفقة من أنظمة نقاط البيع وأجهزة استشعار المخزون والمنصات عبر الإنترنت لتحسين العمليات.

على سبيل المثال، يمكن لمنصة كبيرة للتجارة الإلكترونية استخدام Apache Kafka لمعالجة تدفقات النقرات من ملايين المتسوقين لقياس معدل الإقبال على الشراء وتخصيص تجارب العملاء.

النقل والخدمات اللوجستية

غالبًا ما تستخدم شركات النقل تحليلات التدفق لمعالجة بيانات نظام تحديد المواقع العالمي (GPS) وقراءات مستشعرات إنترنت الأشياء لتحسين أسطولها.

على سبيل المثال، يمكن لمزود الخدمات اللوجستية دمج البيانات في الوقت الفعلي من آلاف المركبات مع مجموعات بيانات الطقس والحركة المرورية. ويمكن لمعالجات التدفق بعد ذلك تمكين التحسين المؤتمت للمسار بأدنى حد من زمن الانتقال لمساعدة السائقين على تجنب التأخير.

الأمن الإلكتروني

تساعد البيانات المتدفقة على دعم تدابير الأمن الإلكتروني مثل الكشف المؤتمت عن الحالات الشاذة. ويمكن لأنظمة الذكاء الاصطناعي والتعلم الآلي تحليل تدفقات البيانات من أدوات المراقبة في جميع أنحاء النظام لتحديد الأنماط غير المألوفة أو السلوكيات المشبوهة، ما يتيح الاستجابة الفورية للمشكلات المحتملة.

الذكاء الاصطناعي والتعلم الآلي

تؤدي البيانات المتدفقة أيضًا دورًا حيويًا في حلول الذكاء الاصطناعي والتعلم الآلي. على سبيل المثال، يمكن لأطر معالجة البيانات المتدفقة دعم التدريب المستمر لنموذج الذكاء الاصطناعي حتى تتمكن خوارزميات التعلم الآلي من التكيف مع الأنماط المتغيرة في زمن شبه حقيقي تقريبًا.

يمكن لأنظمة التعلم الآلي أيضًا أن تتعلم تدريجيًا من مصادر البيانات المتدفقة من خلال عملية تسمى التعلم عبر الإنترنت، وذلك باستخدام خوارزميات متخصصة لتحسين الدقة من دون الحاجة إلى إعادة تدريب النموذج بالكامل.

أدوات وتقنيات تدفق البيانات

بمساعدة حلول البيانات المتدفقة مفتوحة المصدر والتجارية على حد سواء، يمكن للمؤسسات إنشاء مسارات بيانات قابلة للتوسع تتحمل الأعطال، ما يعني أنها تستطيع التعافي من الأعطال من دون فقدان البيانات أو تعطلها.

ثمة نوعان رئيسيان من التقنيات التي تدعم معظم تطبيقات تدفق البيانات: أطر معالجة التدفق ومنصات تدفق البيانات.

أطر عمل معالجة التدفق

توفر أطر معالجة التدفق الأساس للتعامل مع التدفقات المستمرة للبيانات. وتساعد هذه الأطر المؤسسات على إنشاء مسارات بيانات عالية الأداء تعالج باستمرار كميات كبيرة من البيانات بسرعة وموثوقية.

تسيطر ثلاثة أطر عمل مفتوحة المصدر على مشهد التدفق:

  • Apache Kafka
  • Apache Flink
  • Apache Spark

Apache Kafka

يمكن لمنصة Kafka، وهي منصة رائدة في مجال التدفق، معالجة أحجام هائلة من البيانات بزمن انتقال يبلغ جزءًا من الثانية. غالبًا ما تستخدم المؤسسات منصة Kafka لإنشاء مسارات لتتبع النشاط والمراقبة التشغيلية وجمع السجلات. 

Apache Flink

تتخصص Apache Flink في معالجة الأحداث المعقدة والحسابات القائمة على الحالة. وهي ذات قيمة للتحليلات في الوقت الحقيقي، والكشف عن الاحتيال والصيانة التنبئية، حيث يكون فهم سياق الأحداث بمرور الوقت أمرًا مهمًا للغاية.

Apache Spark

تشتهر Spark بقدراتها التحليلية الموحّدة، حيث يمكنها معالجة كل من البيانات على دفعات والبيانات المتدفقة في وقت واحد. وتجعلها هذه القدرة مفيدة في السيناريوهات التي تحتاج فيها المؤسسات إلى تحليل البيانات التاريخية إلى جانب البيانات المباشرة.

منصات وخدمات تدفق البيانات

توفر منصات تدفق البيانات أدوات ووظائف متنوعة للمساعدة على دعم دورة حياة البيانات المتدفقة بالكامل، بدءًا من الاستيعاب والمعالجة وحتى التخزين والتكامل.

يقدم العديد من موفري الخدمات السحابية الرئيسيين حلولاً لتدفق البيانات المدارة التي تسهل على المؤسسات إعداد تطبيقات تدفق البيانات بكميات هائلة. توفر خدمات مثل Amazon Kinesis من Amazon Web Services (AWS)، وMicrosoft Azure Stream Analytics، وDataflow من Google Cloud، وIBM Event Streams أدوات جاهزة للاستخدام. لا يتعين على الشركات بناء بنية تحتية معقدة من الصفر.

يمكن أن تتكامل هذه الخدمات أيضًا مع أدوات التدفق المحلية لإنشاء هياكل هجينة يمكن أن تساعد على تحقيق التوازن بين احتياجات الأداء ومتطلبات خصوصية البيانات

يمكن للمؤسسات أيضًا استخدام أدوات مثل IBM StreamSets وConfluent لبناء مسارات تدفق البيانات المصممة خصوصًا لأنظمة تكنولوجيا المعلومات الفريدة الخاصة بها.

تحديات تدفق البيانات

على الرغم من أن تدفق البيانات يمكن أن يوفر العديد من المزايا، فإن المؤسسات يمكن أن تواجه تحديات عند بناء هياكل البيانات اللازمة لدعم تطبيقات التدفق.

تشمل التحديات الشائعة ما يلي:

  • توسيع نطاق بنية البيانات: غالبًا ما تستلزم معالجة البيانات المتدفقة معالجة كميات هائلة من البيانات من العديد من المصادر. يمكن أن تعاني المؤسسات إذا لم تتمكن هياكل تدفق البيانات من التوسع بكفاءة لمعالجة كميات كبيرة من البيانات.

  • الحفاظ على إمكانية تحمل الأخطاء: يجب أن تكون أنظمة التدفق قادرة على تحمل الأخطاء في أثناء معالجة ملايين الأحداث المحتملة في الثانية. وإلا، فإن المؤسسات تخاطر بفقدان البيانات بسبب أعطال النظام والسلوكيات الخاطئة.

  • مراقبة الأداء: تتطلب التطبيقات في الوقت الفعلي مراقبة مستمرة لمقاييس مثل وقت الاستجابة والإنتاجية واستخدام الموارد للحفاظ على الأداء الأمثل، وهو طلب يمكن أن يعطل أنظمة المعالجة المجهدة بالفعل.

  • تنفيذ حوكمة البيانات: يجب على المؤسسات النظر في كيفية تخزين البيانات المتدفقة التي تحتوي على معلومات التعريف الشخصية (PII) أو غيرها من المعلومات الحساسة التي تقع ضمن اختصاص اللائحة العامة لحماية البيانات (GDPR) أو قانون خصوصية المستهلك في كاليفورنيا (CCPA) أو غيرها من متطلبات حوكمة البيانات ومعالجتها.
حلول ذات صلة
حلول منصة DataOps

تمكَّن من تنظيم بياناتك باستخدام حلول منصة IBM DataOps لتصبح موثوقًا بها وجاهزة للاستخدام في الذكاء الاصطناعي وتطبيقات الأعمال.

استكشف حلول DataOps
IBM Databand

اكتشف IBM Databand، وهو برنامج متخصص في مراقبة مسارات البيانات. يجمع البيانات الوصفية تلقائيًا لبناء خطوط أساسية تاريخية، واكتشاف حالات الخلل، وإنشاء عمليات سير عمل لمعالجة مشكلات جودة البيانات.

استكشف Databand
خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة مع IBM Consulting لبناء مؤسسة تعتمد على الرؤى لتحقيق ميزة تنافسية في الأعمال.

اكتشف خدمات التحليلات
اتخِذ الخطوة التالية

تمكَّن من تنظيم بياناتك باستخدام حلول منصة IBM DataOps لتصبح موثوقًا بها وجاهزة للاستخدام في الذكاء الاصطناعي وتطبيقات الأعمال.

استكشف حلول DataOps استكشف خدمات التحليلات