مسار البيانات هو أسلوب يتم فيه استخلاص البيانات غير المنسقة من مصادر بيانات متعددة، ثم يتم تحويلها ونقلها إلى مخزن بيانات مثل بحيرة بيانات أو مستودع بيانات لأغراض التحليل.
قبل تدفق البيانات إلى مستودع البيانات، عادةً ما تمر ببعض المعالجة. ويتضمن ذلك تحويلات البيانات، مثل التصفية والإخفاء والتجميع، والتي تضمن تكامل البيانات وتوحيدها بشكل مناسب. هذا مهم بشكل خاص عندما تكون وجهة مجموعة البيانات قاعدة بيانات علائقية. يحتوي هذا النوع من مستودع البيانات على مخطط محدد يتطلب المحاذاة -أي مطابقة أعمدة البيانات وأنواعها- لتحديث البيانات الحالية ببيانات جديدة.
كما يوحي الاسم، تعمل مسارات البيانات "كمسار" لمشاريع علم البيانات أو لوحات معلومات ذكاء الأعمال. يمكن الحصول على البيانات من مصادر متنوعة مثل واجهات برمجة التطبيقات (APIs)، وقواعد بيانات SQL وNoSQL، والملفات، وغيرها، ولكن للأسف، غالبًا ما تكون هذه البيانات غير جاهزة للاستخدام الفوري. أثناء عملية الحصول على البيانات، يتم تتبُّع دورة حياة البيانات لتوثيق العلاقة بين بيانات المؤسسة في مختلَف تطبيقات الأعمال وتكنولوجيا المعلومات، مثل مكان وجود البيانات حاليًا وكيفية تخزينها في بيئة معينة، سواء أكانت محلية أو في بحيرة بيانات أو مستودع بيانات.
عادةً ما تقع مهام إعداد البيانات على عاتق علماء البيانات أو مهندسي البيانات، الذين يقومون بتنظيم البيانات لتلبية احتياجات حالات استخدام الأعمال والتعامل مع كميات ضخمة من البيانات. عادةً ما يتم تحديد نوع معالجة البيانات التي يتطلبها مسار البيانات من خلال مزيج من تحليل البيانات الاستكشافية ومتطلبات العمل المحددة. بمجرد تصفية البيانات ودمجها وتلخيصها بشكل مناسب، يمكن بعد ذلك تخزينها وإظهارها للاستخدام. توفِّر مسارات البيانات المنظمة جيدًا الأساس لمجموعة من مشاريع البيانات، ويمكن أن يشمل ذلك تحليلات البيانات الاستكشافية والعروض المصورة للبيانات ومهام التعلم الآلي.
هناك عدة أنواع من مسارات البيانات، كل منها مناسب لمهام محددة على منصات محددة. وتشمل الأنواع الشائعة:
شكَّل تطوير معالجة الدفعات خطوة حاسمة في بناء بنى تحتية للبيانات تتميز بالموثوقية وقابلية التوسع. في عام 2004، تم تسجيل MapReduce، وهو خوارزمية لمعالجة الدفعات، كبراءة اختراع، ثم تم دمجه لاحقًا في أنظمة مفتوحة المصدر مثل Hadoop وCouchDB وMongoDB.
كما يوحي الاسم، تعمل معالجة الدفعات على تحميل "دفعات" من البيانات إلى المستودع خلال فترات زمنية محددة، وعادةً ما تتم جدولتها خلال ساعات العمل الأقل نشاطًا. وبهذه الطريقة، لا تتأثر أعباء العمل الأخرى؛ لأن مهام المعالجة المجمعة تميل إلى العمل مع أحجام كبيرة من البيانات، ما قد يُرهق النظام الكلي. عادةً ما تكون معالجة الدفعات هي مسار البيانات الأمثل عندما لا تكون هناك حاجة فورية إلى تحليل مجموعة بيانات محددة (على سبيل المثال، المحاسبة الشهرية)، وهي أكثر ارتباطًا بعملية تكامل بيانات ETL، والتي تعني "الاستخراج والتحويل والتحميل".
تشكِّل مهام معالجة الدفات سير عمل من الأوامر المتسلسلة، حيث يصبح ناتج أحد الأوامر إدخال الأمر التالي. على سبيل المثال، قد يقوم أمر واحد ببدء استيعاب البيانات، وقد يقوم الأمر التالي بتشغيل تصفية أعمدة معينة، وقد يقوم الأمر اللاحق بمعالجة التجميع. ستستمر هذه السلسلة من الأوامر حتى يتم تحويل جودة البيانات بالكامل وإعادة كتابتها إلى مستودع البيانات.
على عكس معالجة الدفعات، تقوم مسارات تدفق البيانات، المعروفة أيضًا بالبنى المستندة إلى الأحداث، بالمعالجة المستمرة للأحداث التي يتم توليدها من مصادر متنوعة مثل المستشعرات أو تفاعلات المستخدم داخل التطبيق. تتم معالجة الأحداث وتحليلها، ثم يتم تخزينها في قواعد البيانات أو إرسالها إلى مراحل لاحقة لمزيدٍ من التحليل.
يتم الاستفادة من تدفق البيانات عندما يكون مطلوبًا لتحديث البيانات باستمرار. على سبيل المثال، تحتاج التطبيقات أو أنظمة نقاط البيع إلى بيانات في الوقت الفعلي لتحديث المخزون وسجل مبيعات منتجاتها، وبهذه الطريقة، يمكن للبائعين إبلاغ المستهلكين إذا كان المنتج متوفرًا في المخزون أم لا. يُعتبر إجراء واحد، مثل بيع منتج، "حدثًا"، وعادةً ما يتم تجميع الأحداث ذات الصلة، مثل إضافة عنصر إلى الدفع، معًا على أنه "موضوع" أو "تدفق". ويتم بعد ذلك نقل هذه الأحداث عبر أنظمة المراسلة أو وسطاء الرسائل، مثل الحل مفتوح المصدر، Kafka.
نظرًا أن أحداث البيانات تتم معالجتها فور وقوعها تقريبًا، فإن أنظمة معالجة التدفق تتميز بزمن استجابة أقل من أنظمة معالجة الدفعات، لكنها لا تُعتبر بنفس موثوقية أنظمة معالجة الدفعات، حيث يمكن أن تُفقَد الرسائل عن غير قصد أو تبقى لفترة طويلة في قائمة الانتظار. يساعد وسطاء الرسائل على معالجة هذه المشكلة من خلال الإقرارات، حيث يؤكِّد المستهلك معالجة الرسالة للوسيط لإزالتها من قائمة الانتظار.
تركِّز مسارات تكامل البيانات على دمج البيانات من مصادر متعددة في طريقة عرض واحدة وموحدة. وغالبًا ما تتضمن هذه المسارات عمليات الاستخراج والتحويل والتحميل (ETL) التي تعمل على تنظيف البيانات الأولية أو إثرائها أو تعديلها قبل تخزينها في مستودع مركزي مثل مستودع البيانات أو بحيرة البيانات. تُعَد مسارات تكامل البيانات ضرورية للتعامل مع الأنظمة المتباينة التي تؤدي إلى إنشاء تنسيقات أو بنى غير متوافقة. على سبيل المثال، يمكن إضافة اتصال إلى Amazon S3 (خدمة (Amazon Simple Storage Service) - وهي خدمة تقدمها Amazon Web Services (AWS) التي توفِّر التخزين من خلال واجهة خدمة الويب.
تتضمن منصة البيانات الحديثة مجموعة من المنتجات البرمجية السحابية الأصلية والمصممة للسحابة أولًا، التي تُتيح جمع وتنقية وتحويل وتحليل بيانات المؤسسة للمساعدة على تحسين صناعة القرار. لقد أصبحت مسارات البيانات اليوم أكثر تعقيدًا وأهمية في تحليلات البيانات واتخاذ القرارات المستندة إلى البيانات. تعمل منصة البيانات الحديثة على بناء الثقة في هذه البيانات من خلال استيعابها وتخزينها ومعالجتها وتحويلها بطريقة تضمن معلومات دقيقة وفي الوقت المناسب، وتقلِّل من تشتت البيانات، وتمكِّن الخدمة الذاتية، وتحسِّن جودة البيانات.
تتكون بنية مسار البيانات من ثلاث خطوات أساسية.
1. استيعاب البيانات: يتم جمع البيانات من مصادر مختلفة -بما في ذلك منصات البرمجيات كخدمة (SaaS) وأجهزة إنترنت الأشياء (IOT) والأجهزة المحمولة- ومختلَف هياكل البيانات، سواء أكانت بيانات منظمة أم بيانات غير منظمة. ضمن تدفق البيانات، تُعرَف مصادر البيانات غير المنسقة هذه عادةً باسم المنتجين أو الناشرين أو المرسلين. في حين أنه يمكن للشركات اختيار استخراج البيانات فقط عندما تكون جاهزة لمعالجتها، إلا أنه من أفضل الممارسات أن يتم استخراج البيانات الأولية إلى مستودع بيانات السحابة أولًا. بهذه الطريقة، يمكن للشركة تحديث أي بيانات تاريخية إذا احتاجت إلى إجراء تعديلات على مهام معالجة البيانات. أثناء عملية استيعاب البيانات هذه، يمكن إجراء العديد من عمليات التحقق من صحة البيانات وفحصها لضمان اتساق البيانات ودقتها.
2. تحويل البيانات: خلال هذه الخطوة، يتم تنفيذ سلسلة من المهام لمعالجة البيانات إلى التنسيق المطلوب من قِبَل مستودع البيانات الوجهة. تتضمن هذه الوظائف الأتمتة والحوكمة لمسارات العمل المتكررة، مثل إعداد تقارير الأعمال، ما يضمن تنظيف البيانات وتحويلها باستمرار. على سبيل المثال، قد تأتي تدفقات البيانات بصيغة JSON متداخلة، وتهدف مرحلة تحويل البيانات إلى فك تنسيق JSON هذا لاستخراج الحقول الرئيسية للتحليل.
3. التخزين: يتم بعد ذلك تخزين البيانات التي تم تحويلها داخل مستودع البيانات، حيث يمكن عرضها على الأطراف المعنية المختلفة. ضمن تدفق البيانات، تُعرَف هذه البيانات التي تم تحويلها عادةً باسم المستهلكين أو المشتركين أو المستلمين.
قد تجد أن بعض المصطلحات، مثل مسار البيانات ومسار ETL، يتم استخدامها بالتبادل في المحادثة. ومع ذلك، يجب النظر إلى مسار ETL على أنه فئة فرعية من مسارات البيانات. يتم التمييز بين نوعَي المسارات بناءً على ثلاث ميزات رئيسية:
مع استمرار نمو البيانات الكبيرة، أصبحت إدارة البيانات أولوية متزايدة باستمرار. ورغم أن مسارات البيانات تؤدي وظائف متعددة، إلا أن الوظائف التالية مخصصة لتطبيقات الأعمال:
إنشاء أنظمة تدفق البيانات الذكية وإدارتها من خلال واجهة رسومية سهلة الاستخدام، ما يسهِّل تكامل البيانات بسلاسة عبر البيئات الهجينة ومتعددة السحابة.
اكتشف IBM Databand، وهو برنامج متخصص في مراقبة مسارات البيانات. يجمع البيانات الوصفية تلقائيًا لبناء خطوط أساسية تاريخية، واكتشاف حالات الخلل، وإنشاء عمليات سير عمل لمعالجة مشكلات جودة البيانات.
أنشئ مسارات بيانات مرنة وعالية الأداء ومحسَّنة من حيث التكلفة لمبادرات الذكاء الاصطناعي التوليدي، والتحليلات في الوقت الفعلي، وتحديث مستودعات البيانات، وتلبية احتياجات التشغيل باستخدام حلول تكامل البيانات من IBM.