ما تدفق البيانات؟

By Annie Badman , Matthew Kosinski

ما تدفق البيانات؟

تدفق البيانات هو التدفق المستمر للبيانات في الوقت الفعلي من مصادر مختلفة. وعلى عكس المعالجة على دفعات التي تعالج مجموعات البيانات على فترات زمنية مجدولة، تتم معالجة البيانات المتدفقة عند وصولها للحصول على معارف فورية في الوقت الفعلي.

تصدر المؤسسات اليوم كميات هائلة من البيانات عن كل شيء بدءًا من أجهزة إنترنت الأشياء (IoT) وحتى معاملات التجارة الإلكترونية. تساعد البيانات المتدفقة، والمعروفة أيضًا باسم ”تدفق البيانات“ أو ”تدفق البيانات في الوقت الفعلي“، المؤسسات على معالجة هذه التدفقات المستمرة للبيانات فور ورودها.

تتضمن الأمثلة على البيانات المتدفقة ما يلي:

بيانات السوق المالية التي تتبع أسعار الأسهم ونشاط التداول
قراءات مستشعرات إنترنت الأشياء (IOT) لمراقبة أداء المعدات
تدفقات أنشطة وسائل التواصل الاجتماعي التي تسجل تفاعل المستخدمين
بيانات تدفق النقر على الموقع الإلكتروني التي توضح أنماط سلوكيات الزائرين

غالبًا ما تستخدم المؤسسات البيانات المتدفقة لدعم المبادرات التجارية التي تعتمد على البيانات اللحظية لاتخاذ قرارات سريعة وقائمة على البيانات، مثل تحليل البيانات وذكاء الأعمال (BI).

غالبًا ما يكون تدفق البيانات جزءًا من جهود جمع البيانات الضخمة ومعالجتها. على سبيل المثال، يمكن للمؤسسات تحليل تدفقات البيانات المستمرة باستخدام تحليلات البيانات الضخمة لاكتساب رؤى حول الكفاءة التشغيلية واتجاهات المستهلكين وديناميكيات السوق المتغيرة.

ونظرًا إلى أنها تتدفق باستمرار، تتطلب البيانات المتدفقة أساليب معالجة مختلفة عن المعالجة على دفعات التقليدية. وغالبًا ما تتضمن هذه الأساليب هياكل تدفق قابلة للتوسع ومعالجات تدفق البيانات التي تدير استيعاب البيانات ومعالجتها وتحليلها مع الحفاظ على الأداء الأمثل.

أدى ظهور الذكاء الاصطناعي (AI) والتعلم الآلي في السنوات الأخيرة إلى زيادة التركيز على قدرات تدفق البيانات. وتعتمد هذه التقنيات غالبًا على معالجة البيانات المتدفقة لاستخراج معارف وتوقعات في الوقت الفعلي.

وفقًا لـ Gartner، أفادت 61% من المؤسسات أنها مضطرة إلى تطوير أو إعادة التفكير في نموذج تشغيل البيانات والتحليلات الخاصة بها بسبب تأثير تقنيات الذكاء الاصطناعي.¹

قامت شركة التكنولوجيا المالية WealthAPI ببناء منصتها للتحليلات المالية اعتمادًا على بنية البث القائمة على الأحداث، وذلك للتعامل مع التدفقات المستمرة للبيانات المصرفية والمعاملات غير المتسقة في الوقت الفعلي. حيث يتم تجميع البيانات الواردة مؤقتًا وتوزيعها عبر خدمة Cloud Publish/Subscribe، والتي تفصل بين الأنظمة المنتجة للبيانات والأنظمة اللاحقة، ما يتيح لخدمات متعددة استهلاك تدفق البيانات ذاته في الوقت ذاته. ومن ثَمّ، تتولى منصة IBM watsonx.data معالجة البيانات المهيكلة عالية الأداء واسترجاعها، لتقديم الرؤى المالية بسرعة أكبر بنسبة تصل إلى 80%، وتخدم عشرات الآلاف من المستخدمين مع إمكانية التوسع لاستيعاب الملايين دون الحاجة إلى إجراء أي تعديلات بنيوية.

أحدث الأخبار التقنية، مدعومة برؤى خبراء

ابقَ على اطلاع دائم على أبرز الاتجاهات في مجالات الذكاء الاصطناعي، والأتمتة، والبيانات، وغيرها الكثير من خلال رسالة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.

مقارنة بين تدفق البيانات والمعالجة على دفعات

يمكن للمؤسسات معالجة البيانات بطريقتين أساسيتين: المعالجة على دفعات أو تدفق البيانات.

في حين أن كلا الأسلوبين يعالجان كميات كبيرة من البيانات، فإنهما مفيدان في حالات استخدام مختلفة ويتطلبان هياكل مختلفة.

تتضمن الاختلافات الرئيسية ما يلي:

نموذج المعالجة: تعمل المعالجة على دفعات على تجميع مجموعات البيانات وتحليلها على دفعات وعلى فترات زمنية ثابتة، بينما يستخدم تدفق البيانات أدوات معالجة البيانات في الوقت الفعلي لمعالجة البيانات فور وصولها. ما يعني أن أنظمة التدفق يمكن أن تسفر عن معارف واتخاذ إجراءات فورية، بينما تعمل أنظمة المعالجة على دفعات وفق جدول زمني دوري.
احتياجات البنية التحتية: غالبًا ما تستخدم أنظمة المعالجة على دفعات أدوات تخزين البيانات التقليدية وتحليلها مثل مستودعات البيانات، في حين أن التدفق يتطلب أطر عمل متخصصة ومنصات تدفق بيانات مصممة للتعامل مع تدفقات البيانات في الوقت الفعلي.
متطلبات الأداء: يمكن لأنظمة المعالجة على دفعات تعزيز استخدام الموارد في أثناء عمليات التشغيل المجدولة، بينما تحتاج معالجة التدفق إلى أنظمة تتحمل الأخطاء مع زمن انتقال قصير. وبعبارة أخرى، يجب أن تعالج أنظمة التدفق البيانات في الوقت الفعلي من دون تأخير، حتى عندما تكون أحجام البيانات كبيرة أو في حال حدوث مشكلات.

عادةً ما تختار المؤسسات بين المعالجة على دفعات ومعالجة التدفق بناءً على أحجام البيانات واحتياجات زمن الانتقال وأهداف العمل. يستخدم الكثيرون كلا النهجين ضمن نسيج بيانات موحد للتعامل مع أنواع مختلفة من مهام البيانات.

على سبيل المثال، قد تستخدم إحدى مؤسسات التجارة الإلكترونية المعالجة على دفعات لإنشاء تقارير مبيعات يومية في حين تستخدم البيانات المتدفقة وأنظمة التحليلات في الوقت الفعلي لمراقبة مقاييس الموقع الإلكتروني الرئيسية.

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

انتقل إلى الحلقة

كيفية عمل تدفق البيانات

ويعمل تدفق البيانات على مستوى عالٍ من خلال جمع تدفقات البيانات في الوقت الفعلي من مصادر مختلفة ومعالجتها وتحليلها باستمرار. تتكون هذه العملية من أربع مراحل رئيسية:

استيعاب البيانات
معالجة تدفق البيانات
تحليل البيانات
تخزين البيانات

استيعاب البيانات

تتضمن المرحلة الأولى استيعاب تدفقات البيانات الواردة من مصادر متنوعة. تقوم أدوات استيعاب البيانات الحديثة مثل Apache Kafka بتخزين هذه التدفقات وتوحيدها عند وصولها، ما يساعد على ضمان قابلية التوسع واتساق البيانات.

تدمج المؤسسات عادةً أدوات استيعاب البيانات مع عناصر أخرى لإنشاء تدفقات عمل موحدة. يمكن لأدوات تكامل البيانات أيضًا مواءمة أنواع البيانات المتباينة في تنسيق موحد للمعالجة من أجل ضمان إمكانية دمج البيانات من مصادر متعددة وتحليلها بفعالية.

معالجة تدفق البيانات

في مرحلة المعالجة، تقوم أُطُر عمل معالجة التدفق مثل Apache Flink بتحليل البيانات وتحويلها في أثناء حركتها. تمكّن هذه الأطر المؤسسات من القيام بما يلي:

معالجة الأحداث المعقدة في الوقت الفعلي
إجراء تجميع البيانات على نطاق واسع، مثل حساب المتوسطات أو حساب الأحداث أو جمع قيم المعاملات
تطبيق التحويلات—مثل تصفية البيانات أو إثرائها أو تنسيقها—في أثناء تدفق البيانات عبر مسار البيانات

تحليل البيانات وتصورها

في هذه المرحلة، تستمد المؤسسات رؤى أعمال قابلة للتنفيذ من البيانات المتدفقة من خلال تصور البيانات والأدوات التحليلية الأخرى.

تشمل التطبيقات الرئيسية ما يلي:

لوحات المعلومات في الوقت الفعلي التي توفر مقاييس ومؤشرات أداء رئيسية مهمة
التطبيقات التشغيلية التي تعمل على أتمتة سير العمل وتحسين العمليات
نماذج التعلم الآلي التي تحلل الأنماط للتنبؤ بالنتائج

تخزين البيانات

عند تخزين بيانات البث، يجب على المؤسسات الموازنة بين الحاجة إلى الوصول السريع إلى البيانات للاستخدام في الوقت الفعلي وبين التخزين طويل الأمد للبيانات وكفاءة التكلفة ومخاوف الامتثال للبيانات.

تستخدم العديد من المؤسسات بحيرات البيانات ومستودعات البيانات لتخزين البيانات المتدفقة لأن هذه الحلول توفر بيئات تخزين مرنة ومنخفضة التكلفة لكميات كبيرة من البيانات. وبعد جمع البيانات المتدفقة، يمكن إرسالها إلى مستودع البيانات، حيث يمكن تنقيتها وتجهيزها للاستخدام.

غالبًا ما تطبق المؤسسات حلول تخزين بيانات متعددة معًا في نسيج بيانات موحد. على سبيل المثال، قد تستخدم المؤسسات المالية بحيرات البيانات لتخزين تدفقات المعاملات الأولية في حين تُستخدَم المستودعات للتحليلات وإعداد التقارير.

تعرف على مزيد من المعلومات حول أوجه الاختلاف بين بحيرات البيانات ومستودعات بحيرات البيانات ومستودعات البيانات.

أنواع البيانات المتدفقة

يمكن للمؤسسات استخدام العديد من أنواع البيانات المتدفقة لدعم التحليلات واتخاذ القرارات في الوقت الفعلي. تتضمن بعض تدفقات البيانات المتدفقة الأكثر شيوعًا ما يلي:

Event Streams

تسجّل تدفقات الأحداث إجراءات النظام أو التغييرات التي تطرأ على النظام عند حدوثها، مثل مكالمات واجهة برمجة التطبيقات (API) أو النقرات على الموقع الإلكتروني أو إدخالات سجلات التطبيق. تُستخدم تدفقات الأحداث بشكل شائع لتَتَبُّع الأنشطة في الوقت الفعلي عبر الأنظمة، ما يتيح الاستجابة الفورية لتفاعلات المستخدم أو أحداث النظام.

بيانات المعاملات في الوقت الفعلي

تسجِّل بيانات المعاملات في الوقت الفعلي التدفقات المستمرة للمعاملات التجارية، مثل المدفوعات الرقمية أو مشتريات التجارة الإلكترونية. كما تدعم تطبيقات مثل الكشف عن الاحتيال واتخاذ القرارات الفورية.

بيانات إنترنت الأشياء (IOT) وأجهزة الاستشعار

بيانات إنترنت الأشياء وأجهزة الاستشعار تشمل معلومات حول الظروف البيئية وأداء المعدات والعمليات المادية. غالبًا ما تدعم تدفقات البيانات هذه مراقبة المعدات في الوقت الفعلي وأتمتة العمليات.

حالات استخدام البيانات المتدفقة

يتيح تدفق البيانات للمؤسسات معالجة كميات كبيرة من المعلومات في الوقت الفعلي للحصول على معارف واتخاذ إجراءات فورية.

تشمل التطبيقات الشائعة ما يلي:

الخدمات المالية

تستخدم المؤسسات المالية بشكل متكرر تحليلات التدفق لمعالجة بيانات السوق والمعاملات وتفاعلات العملاء.

على سبيل المثال، تعتمد شركات بطاقات الائتمان على تدفق البيانات للكشف عن الاحتيال. إذ تسمح منصات البيانات المتدفقة لهذه الشركات بتحليل آلاف المعاملات في الثانية الواحدة للكشف عن النشاط غير المعتاد والإبلاغ عن المعاملات المشبوهة أو حظرها.

التصنيع

غالبًا ما تستخدم مرافق التصنيع الحديثة مستشعرات أجهزة إنترنت الأشياء ومعالجة البيانات في الوقت الفعلي لتحسين الكفاءة التشغيلية.

على سبيل المثال، قد يراقب مصنع سيارات الآلاف من مستشعرات خط التجميع، ويتتبع مقاييس مثل درجة الحرارة والاهتزاز والأداء. يمكن أن تساعد هذه البيانات المشغلين على اكتشاف أوجه القصور في وقت مبكر وجدولة الصيانة الوقائية لتجنب الأعطال.

الرعاية الصحية

يعتمد مقدمو الرعاية الصحية على تطبيقات التدفق لمعالجة البيانات من الأجهزة الطبية وأنظمة مراقبة المرضى.

على سبيل المثال، في وحدات العناية المركزة، تبث أجهزة المراقبة بجانب السرير العلامات الحيوية من خلال مسارات البيانات إلى المعالجات المركزية. ويمكن لهذه المعالجات بعد ذلك تحديد الأنماط المقلقة وتنبيه الطاقم الطبي تلقائيًا عند الحاجة إلى التدخل.

البيع بالتجزئة والتجارة الإلكترونية

يستخدم بائعو التجزئة وشركات التجارة الإلكترونية البيانات المتدفقة من أنظمة نقاط البيع وأجهزة استشعار المخزون والمنصات عبر الإنترنت لتحسين العمليات.

على سبيل المثال، يمكن لمنصة كبيرة للتجارة الإلكترونية استخدام Apache Kafka لمعالجة تدفقات النقرات من ملايين المتسوقين لقياس معدل الإقبال على الشراء وتخصيص تجارب العملاء.

النقل والخدمات اللوجستية

غالبًا ما تستخدم شركات النقل تحليلات التدفق لمعالجة بيانات نظام تحديد المواقع العالمي (GPS) وقراءات مستشعرات إنترنت الأشياء لتحسين أسطولها.

على سبيل المثال، يمكن لمزود الخدمات اللوجستية دمج البيانات في الوقت الفعلي من آلاف المركبات مع مجموعات بيانات الطقس والحركة المرورية. ويمكن لمعالجات التدفق بعد ذلك تمكين التحسين المؤتمت للمسار بأدنى حد من زمن الانتقال لمساعدة السائقين على تجنب التأخير.

الأمن الإلكتروني

تساعد البيانات المتدفقة على دعم تدابير الأمن الإلكتروني مثل الكشف المؤتمت عن الحالات الشاذة. ويمكن لأنظمة الذكاء الاصطناعي والتعلم الآلي تحليل تدفقات البيانات من أدوات المراقبة في جميع أنحاء النظام لتحديد الأنماط غير المألوفة أو السلوكيات المشبوهة، ما يتيح الاستجابة الفورية للمشكلات المحتملة.

الذكاء الاصطناعي والتعلم الآلي

تؤدي البيانات المتدفقة أيضًا دورًا حيويًا في حلول الذكاء الاصطناعي والتعلم الآلي. على سبيل المثال، يمكن لأطر معالجة البيانات المتدفقة دعم التدريب المستمر لنموذج الذكاء الاصطناعي حتى تتمكن خوارزميات التعلم الآلي من التكيف مع الأنماط المتغيرة في زمن شبه حقيقي تقريبًا.

يمكن لأنظمة التعلم الآلي أيضًا أن تتعلم تدريجيًا من مصادر البيانات المتدفقة من خلال عملية تسمى التعلم عبر الإنترنت، وذلك باستخدام خوارزميات متخصصة لتحسين الدقة من دون الحاجة إلى إعادة تدريب النموذج بالكامل.

أدوات وتقنيات تدفق البيانات

بمساعدة حلول البيانات المتدفقة مفتوحة المصدر والتجارية على حد سواء، يمكن للمؤسسات إنشاء مسارات بيانات قابلة للتوسع تتحمل الأعطال، ما يعني أنها تستطيع التعافي من الأعطال من دون فقدان البيانات أو تعطلها.

ثمة نوعان رئيسيان من التقنيات التي تدعم معظم تطبيقات تدفق البيانات: أطر معالجة التدفق ومنصات تدفق البيانات.

أطر عمل معالجة التدفق

توفر أطر معالجة التدفق الأساس للتعامل مع التدفقات المستمرة للبيانات. وتساعد هذه الأطر المؤسسات على إنشاء مسارات بيانات عالية الأداء تعالج باستمرار كميات كبيرة من البيانات بسرعة وموثوقية.

تسيطر ثلاثة أطر عمل مفتوحة المصدر على مشهد التدفق:

Apache Kafka
Apache Flink
Apache Spark

Apache Kafka

يمكن لمنصة Kafka، وهي منصة رائدة في مجال التدفق، معالجة أحجام هائلة من البيانات بزمن انتقال يبلغ جزءًا من الثانية. غالبًا ما تستخدم المؤسسات منصة Kafka لإنشاء مسارات لتتبع النشاط والمراقبة التشغيلية وجمع السجلات.

تعرف على المزيد حول Apache Kafka

Apache Flink

تتخصص Apache Flink في معالجة الأحداث المعقدة والحسابات القائمة على الحالة. وهي ذات قيمة للتحليلات في الوقت الحقيقي، والكشف عن الاحتيال والصيانة التنبئية، حيث يكون فهم سياق الأحداث بمرور الوقت أمرًا مهمًا للغاية.

تعرف على المزيد حول Apache Flink

Apache Spark

تشتهر Spark بقدراتها التحليلية الموحّدة، حيث يمكنها معالجة كل من البيانات على دفعات والبيانات المتدفقة في وقت واحد. وتجعلها هذه القدرة مفيدة في السيناريوهات التي تحتاج فيها المؤسسات إلى تحليل البيانات التاريخية إلى جانب البيانات المباشرة.

تعرف على المزيد حول Apache Spark

منصات وخدمات تدفق البيانات

توفر منصات تدفق البيانات أدوات ووظائف متنوعة للمساعدة على دعم دورة حياة البيانات المتدفقة بالكامل، بدءًا من الاستيعاب والمعالجة وحتى التخزين والتكامل.

يقدم العديد من موفري الخدمات السحابية الرئيسيين حلولاً لتدفق البيانات المدارة التي تسهل على المؤسسات إعداد تطبيقات تدفق البيانات بكميات هائلة. توفر خدمات مثل Amazon Kinesis من Amazon Web Services (AWS)، وMicrosoft Azure Stream Analytics، وDataflow من Google Cloud، وIBM Event Streams أدوات جاهزة للاستخدام. لا يتعين على الشركات بناء بنية تحتية معقدة من الصفر.

يمكن أن تتكامل هذه الخدمات أيضًا مع أدوات التدفق المحلية لإنشاء هياكل هجينة يمكن أن تساعد على تحقيق التوازن بين احتياجات الأداء ومتطلبات خصوصية البيانات.

يمكن للمؤسسات أيضًا استخدام أدوات مثل IBM StreamSets وConfluent لبناء مسارات تدفق البيانات المصممة خصوصًا لأنظمة تكنولوجيا المعلومات الفريدة الخاصة بها.

تحديات تدفق البيانات

على الرغم من أن تدفق البيانات يمكن أن يوفر العديد من المزايا، فإن المؤسسات يمكن أن تواجه تحديات عند بناء هياكل البيانات اللازمة لدعم تطبيقات التدفق.

تشمل التحديات الشائعة ما يلي:

توسيع نطاق بنية البيانات: غالبًا ما تستلزم معالجة البيانات المتدفقة معالجة كميات هائلة من البيانات من العديد من المصادر. يمكن أن تعاني المؤسسات إذا لم تتمكن هياكل تدفق البيانات من التوسع بكفاءة لمعالجة كميات كبيرة من البيانات.
الحفاظ على إمكانية تحمل الأخطاء: يجب أن تكون أنظمة التدفق قادرة على تحمل الأخطاء في أثناء معالجة ملايين الأحداث المحتملة في الثانية. وإلا، فإن المؤسسات تخاطر بفقدان البيانات بسبب أعطال النظام والسلوكيات الخطأ.
مراقبة الأداء: تتطلب التطبيقات في الوقت الفعلي مراقبة مستمرة لمقاييس مثل وقت الاستجابة والإنتاجية واستخدام الموارد للحفاظ على الأداء الأمثل، وهو طلب يمكن أن يعطل أنظمة المعالجة المجهدة بالفعل.
تنفيذ حوكمة البيانات: يجب على المؤسسات النظر في كيفية تخزين البيانات المتدفقة التي تحتوي على معلومات التعريف الشخصية (PII) أو غيرها من المعلومات الحساسة التي تقع ضمن اختصاص اللائحة العامة لحماية البيانات (GDPR) أو قانون خصوصية المستهلك في كاليفورنيا (CCPA) أو غيرها من متطلبات حوكمة البيانات ومعالجتها.

المؤلفين

Annie Badman

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

توفر شركتا IBM وConfluent بيانات في الوقت الفعلي لوكلاء الذكاء الاصطناعي

تحوِّل IBM وConfluent معًا البيانات المتدفقة باستمرار إلى إجراءات موثوقة وخاضعة للحوكمة عبر البيئات الهجينة.

الموارد

عرض ثلاثي الأبعاد لعدة أيقونات مصطفة مثل كاميرا ومقبض مستوى الصوت وحافظة

يعتمد "الذكاء الاصطناعي الوكيل" على البيانات — فهل بيانتك جاهزة فعلًا؟

بياناتك هي مصدر تفوّقك التنافسي. تعرّف في هذه الندوة عبر الإنترنت القصيرة على كيفية تأمين بياناتك واستثمارها بفعالية لتحقيق عائد استثمار ملموس من الذكاء الاصطناعي.

هل بياناتك جاهزة للذكاء الاصطناعي التوليدي؟

استكشف مركز Data Matters لتتعرف على كيفية مواجهة تحديات البيانات والذكاء الاصطناعي مثل التكامل.

تبسيط وتطوير تحقيقات الاحتيال باستخدام الذكاء الاصطناعي

اكتشف كيف تستفيد شركة Cogniware من حلول الذكاء الاصطناعي من IBM لتعزيز الكفاءة في مجال الجرائم المالية.

إطلاق العنان لإمكانات الذكاء الاصطناعي لتحقيق تكامل سلس للبيانات.

تعرّف على سبب حاجة المؤسسات إلى اعتماد نهج موحّد يتيح لها إدارة النطاق الكامل لقدرات التكامل من واجهة موحّدة، مما يلغي الحاجة إلى الاعتماد على العديد من الأدوات.