ما هو مسار البيانات؟

14 يونيو 2024

المؤلفون

Cole Stryker

Editorial Lead, AI Models

ما هو مسار البيانات؟

مسار البيانات هو أسلوب يتم فيه استخلاص البيانات غير المنسقة من مصادر بيانات متعددة، ثم يتم تحويلها ونقلها إلى مخزن بيانات مثل بحيرة بيانات أو مستودع بيانات لأغراض التحليل.

قبل تدفق البيانات إلى مستودع البيانات، عادةً ما تمر ببعض المعالجة. ويتضمن ذلك تحويلات البيانات، مثل التصفية والإخفاء والتجميع، والتي تضمن تكامل البيانات وتوحيدها بشكل مناسب. هذا مهم بشكل خاص عندما تكون وجهة مجموعة البيانات قاعدة بيانات علائقية. يحتوي هذا النوع من مستودع البيانات على مخطط محدد يتطلب المحاذاة -أي مطابقة أعمدة البيانات وأنواعها- لتحديث البيانات الحالية ببيانات جديدة.

كما يوحي الاسم، تعمل مسارات البيانات "كمسار" لمشاريع علم البيانات أو لوحات معلومات ذكاء الأعمال. يمكن الحصول على البيانات من مصادر متنوعة مثل واجهات برمجة التطبيقات (APIs)، وقواعد بيانات SQL وNoSQL، والملفات، وغيرها، ولكن للأسف، غالبًا ما تكون هذه البيانات غير جاهزة للاستخدام الفوري. أثناء عملية الحصول على البيانات، يتم تتبُّع دورة حياة البيانات لتوثيق العلاقة بين بيانات المؤسسة في مختلَف تطبيقات الأعمال وتكنولوجيا المعلومات، مثل مكان وجود البيانات حاليًا وكيفية تخزينها في بيئة معينة، سواء أكانت محلية أو في بحيرة بيانات أو مستودع بيانات.

عادةً ما تقع مهام إعداد البيانات على عاتق علماء البيانات أو مهندسي البيانات، الذين يقومون بتنظيم البيانات لتلبية احتياجات حالات استخدام الأعمال والتعامل مع كميات ضخمة من البيانات. عادةً ما يتم تحديد نوع معالجة البيانات التي يتطلبها مسار البيانات من خلال مزيج من تحليل البيانات الاستكشافية ومتطلبات العمل المحددة. بمجرد تصفية البيانات ودمجها وتلخيصها بشكل مناسب، يمكن بعد ذلك تخزينها وإظهارها للاستخدام. توفِّر مسارات البيانات المنظمة جيدًا الأساس لمجموعة من مشاريع البيانات، ويمكن أن يشمل ذلك تحليلات البيانات الاستكشافية والعروض المصورة للبيانات ومهام التعلم الآلي.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

أنواع مسارات البيانات

هناك عدة أنواع من مسارات البيانات، كل منها مناسب لمهام محددة على منصات محددة. وتشمل الأنواع الشائعة:

  • مسارات معالجة الدفعات
  • مسارات تدفق البيانات
  • مسارات تكامل البيانات
  • المسارات السحابية الأصلية

المعالجة الدفعية

شكَّل تطوير معالجة الدفعات خطوة حاسمة في بناء بنى تحتية للبيانات تتميز بالموثوقية وقابلية التوسع. في عام 2004، تم تسجيل MapReduce، وهو خوارزمية لمعالجة الدفعات، كبراءة اختراع، ثم تم دمجه لاحقًا في أنظمة مفتوحة المصدر مثل Hadoop وCouchDB وMongoDB.

كما يوحي الاسم، تعمل معالجة الدفعات على تحميل "دفعات" من البيانات إلى المستودع خلال فترات زمنية محددة، وعادةً ما تتم جدولتها خلال ساعات العمل الأقل نشاطًا. وبهذه الطريقة، لا تتأثر أعباء العمل الأخرى؛ لأن مهام المعالجة المجمعة تميل إلى العمل مع أحجام كبيرة من البيانات، ما قد يُرهق النظام الكلي. عادةً ما تكون معالجة الدفعات هي مسار البيانات الأمثل عندما لا تكون هناك حاجة فورية إلى تحليل مجموعة بيانات محددة (على سبيل المثال، المحاسبة الشهرية)، وهي أكثر ارتباطًا بعملية تكامل بيانات ETL، والتي تعني "الاستخراج والتحويل والتحميل".

تشكِّل مهام معالجة الدفات سير عمل من الأوامر المتسلسلة، حيث يصبح ناتج أحد الأوامر إدخال الأمر التالي. على سبيل المثال، قد يقوم أمر واحد ببدء استيعاب البيانات، وقد يقوم الأمر التالي بتشغيل تصفية أعمدة معينة، وقد يقوم الأمر اللاحق بمعالجة التجميع. ستستمر هذه السلسلة من الأوامر حتى يتم تحويل جودة البيانات بالكامل وإعادة كتابتها إلى مستودع البيانات.

تدفق البيانات

على عكس معالجة الدفعات، تقوم مسارات تدفق البيانات، المعروفة أيضًا بالبنى المستندة إلى الأحداث، بالمعالجة المستمرة للأحداث التي يتم توليدها من مصادر متنوعة مثل المستشعرات أو تفاعلات المستخدم داخل التطبيق. تتم معالجة الأحداث وتحليلها، ثم يتم تخزينها في قواعد البيانات أو إرسالها إلى مراحل لاحقة لمزيدٍ من التحليل.

يتم الاستفادة من تدفق البيانات عندما يكون مطلوبًا لتحديث البيانات باستمرار. على سبيل المثال، تحتاج التطبيقات أو أنظمة نقاط البيع إلى بيانات في الوقت الفعلي لتحديث المخزون وسجل مبيعات منتجاتها، وبهذه الطريقة، يمكن للبائعين إبلاغ المستهلكين إذا كان المنتج متوفرًا في المخزون أم لا. يُعتبر إجراء واحد، مثل بيع منتج، "حدثًا"، وعادةً ما يتم تجميع الأحداث ذات الصلة، مثل إضافة عنصر إلى الدفع، معًا على أنه "موضوع" أو "تدفق". ويتم بعد ذلك نقل هذه الأحداث عبر أنظمة المراسلة أو وسطاء الرسائل، مثل الحل مفتوح المصدر، Kafka.

نظرًا أن أحداث البيانات تتم معالجتها فور وقوعها تقريبًا، فإن أنظمة معالجة التدفق تتميز بزمن استجابة أقل من أنظمة معالجة الدفعات، لكنها لا تُعتبر بنفس موثوقية أنظمة معالجة الدفعات، حيث يمكن أن تُفقَد الرسائل عن غير قصد أو تبقى لفترة طويلة في قائمة الانتظار. يساعد وسطاء الرسائل على معالجة هذه المشكلة من خلال الإقرارات، حيث يؤكِّد المستهلك معالجة الرسالة للوسيط لإزالتها من قائمة الانتظار.

مسارات تكامل البيانات

تركِّز مسارات تكامل البيانات على دمج البيانات من مصادر متعددة في طريقة عرض واحدة وموحدة. وغالبًا ما تتضمن هذه المسارات عمليات الاستخراج والتحويل والتحميل (ETL) التي تعمل على تنظيف البيانات الأولية أو إثرائها أو تعديلها قبل تخزينها في مستودع مركزي مثل مستودع البيانات أو بحيرة البيانات. تُعَد مسارات تكامل البيانات ضرورية للتعامل مع الأنظمة المتباينة التي تؤدي إلى إنشاء تنسيقات أو بنى غير متوافقة. على سبيل المثال، يمكن إضافة اتصال إلى Amazon S3 (خدمة (Amazon Simple Storage Service) - وهي خدمة تقدمها Amazon Web Services ‏(AWS) التي توفِّر التخزين من خلال واجهة خدمة الويب.

مسارات بيانات السحابة الأصلية

تتضمن منصة البيانات الحديثة مجموعة من المنتجات البرمجية السحابية الأصلية والمصممة للسحابة أولًا، التي تُتيح جمع وتنقية وتحويل وتحليل بيانات المؤسسة للمساعدة على تحسين صناعة القرار. لقد أصبحت مسارات البيانات اليوم أكثر تعقيدًا وأهمية في تحليلات البيانات واتخاذ القرارات المستندة إلى البيانات. تعمل منصة البيانات الحديثة على بناء الثقة في هذه البيانات من خلال استيعابها وتخزينها ومعالجتها وتحويلها بطريقة تضمن معلومات دقيقة وفي الوقت المناسب، وتقلِّل من تشتت البيانات، وتمكِّن الخدمة الذاتية، وتحسِّن جودة البيانات.

Mixture of Experts | 25 أبريل، الحلقة 52

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم في أثناء سعيهم للتغلب على الفوضى والضوضاء المحيطة بالذكاء الاصطناعي لتزويدك بأحدث أخباره والرؤى المتعلقة به.

بنية مسار البيانات

تتكون بنية مسار البيانات من ثلاث خطوات أساسية. 

1. استيعاب البيانات: يتم جمع البيانات من مصادر مختلفة -بما في ذلك منصات البرمجيات كخدمة (SaaS) وأجهزة إنترنت الأشياء (IOT) والأجهزة المحمولة- ومختلَف هياكل البيانات، سواء أكانت بيانات منظمة أم بيانات غير منظمة. ضمن تدفق البيانات، تُعرَف مصادر البيانات غير المنسقة هذه عادةً باسم المنتجين أو الناشرين أو المرسلين. في حين أنه يمكن للشركات اختيار استخراج البيانات فقط عندما تكون جاهزة لمعالجتها، إلا أنه من أفضل الممارسات أن يتم استخراج البيانات الأولية إلى مستودع بيانات السحابة أولًا. بهذه الطريقة، يمكن للشركة تحديث أي بيانات تاريخية إذا احتاجت إلى إجراء تعديلات على مهام معالجة البيانات. أثناء عملية استيعاب البيانات هذه، يمكن إجراء العديد من عمليات التحقق من صحة البيانات وفحصها لضمان اتساق البيانات ودقتها.

2. تحويل البيانات: خلال هذه الخطوة، يتم تنفيذ سلسلة من المهام لمعالجة البيانات إلى التنسيق المطلوب من قِبَل مستودع البيانات الوجهة. تتضمن هذه الوظائف الأتمتة والحوكمة لمسارات العمل المتكررة، مثل إعداد تقارير الأعمال، ما يضمن تنظيف البيانات وتحويلها باستمرار. على سبيل المثال، قد تأتي تدفقات البيانات بصيغة JSON متداخلة، وتهدف مرحلة تحويل البيانات إلى فك تنسيق JSON هذا لاستخراج الحقول الرئيسية للتحليل.

3. التخزين: يتم بعد ذلك تخزين البيانات التي تم تحويلها داخل مستودع البيانات، حيث يمكن عرضها على الأطراف المعنية المختلفة. ضمن تدفق البيانات، تُعرَف هذه البيانات التي تم تحويلها عادةً باسم المستهلكين أو المشتركين أو المستلمين.

مسار البيانات مقابل مسار ETL

قد تجد أن بعض المصطلحات، مثل مسار البيانات ومسار ETL، يتم استخدامها بالتبادل في المحادثة. ومع ذلك، يجب النظر إلى مسار ETL على أنه فئة فرعية من مسارات البيانات. يتم التمييز بين نوعَي المسارات بناءً على ثلاث ميزات رئيسية:

  • تتبِع مسارات ETL تسلسلًا محددًا. وكما يشير الاختصار، فهي تستخرج البيانات، ثم تحولها، ثم تُحمِّلها وتخزِّنها في مستودع البيانات. لا تحتاج جميع مسارات البيانات إلى اتباع هذا التسلسل. في الواقع، أصبحت مسارات ELT (الاستخراج، والتحميل، والتحويل) أكثر شيوعًا مع ظهور أدوات السحابة الأصلية التي تُتيح توليد البيانات وتخزينها عبر مصادر ومنصات متعددة. رغم أن استيعاب البيانات لا يزال يحدث أولًا في هذا النوع من المسارات، إلا أن جميع التحويلات تُطبَّق بعد تحميل البيانات في مستودع البيانات السحابي.

  • تميل مسارات ETL أيضًا إلى استخدام معالجة الدفعات، لكن كما ذُكر سابقًا، نطاق مسارات البيانات أوسع من ذلك. ويمكن أن تشمل أيضًا معالجة التدفق.

  • أخيرًا، رغم أن ذلك غير محتمل، فإن مسارات البيانات بشكل عام ليست مضطرة دائمًا لإجراء تحويلات على البيانات كما هو الحال في مسارات ETL. فمن النادر رؤية مسار بيانات لا يستخدم عمليات التحويل لتسهيل تحليل البيانات.

حالات استخدام مسارات البيانات

مع استمرار نمو البيانات الكبيرة، أصبحت إدارة البيانات أولوية متزايدة باستمرار. ورغم أن مسارات البيانات تؤدي وظائف متعددة، إلا أن الوظائف التالية مخصصة لتطبيقات الأعمال:

  • تحليل البيانات الاستكشافي: يستخدم علماء البيانات تحليل البيانات الاستكشافي (EDA) لتحليل مجموعات البيانات والتحقيق فيها وتلخيص خصائصها الرئيسية، وغالبًا ما يستخدمون أساليب العرض المصور للبيانات. يساعد ذلك على تحديد أفضل الطرق للتعامل مع مصادر البيانات للحصول على الإجابات اللازمة، ما يسهِّل على علماء البيانات اكتشاف الأنماط، أو رصد حالات الخلل، أو اختبار الفرضيات، أو التحقق من الافتراضات.

  • العروض المصورة للبيانات: لتمثيل البيانات عبر الرسومات الشائعة، يمكن إنشاء عرض مصور للبيانات مثل المخططات البيانية والرسوم البيانية التوضيحية وحتى الرسوم المتحركة. تعكس هذه العروض المصورة للمعلومات علاقات البيانات المعقدة والمعارف القائمة على البيانات بطريقة سهلة الفهم.

  • التعلم الآلي: هو فرع من الذكاء الاصطناعي (AI) وعلوم الكمبيوتر، ويهتم التعلم الآلي باستخدام البيانات والخوارزميات لمحاكاة طريقة تعلم البشر وتحسين دقته تدريجيًا. باستخدام الأساليب الإحصائية، يتم تدريب الخوارزميات لإجراء التصنيفات أو التنبؤات، واكتشاف الرؤى الرئيسية في مشاريع استخراج البيانات.

  • إمكانية ملاحظة البيانات: للتحقق من دقة وسلامة البيانات المستخدمة، تطبِّق إمكانية ملاحظة البيانات مجموعة متنوعة من الأدوات لمراقبة وتتبُّع وتنبيه الأحداث المتوقعة وحالات الخلل.
حلول ذات صلة
منصة IBM StreamSets

إنشاء أنظمة تدفق البيانات الذكية وإدارتها من خلال واجهة رسومية سهلة الاستخدام، ما يسهِّل تكامل البيانات بسلاسة عبر البيئات الهجينة ومتعددة السحابة.

استكشف StreamSets
IBM Databand

اكتشف IBM Databand، وهو برنامج متخصص في مراقبة مسارات البيانات. يجمع البيانات الوصفية تلقائيًا لبناء خطوط أساسية تاريخية، واكتشاف حالات الخلل، وإنشاء عمليات سير عمل لمعالجة مشكلات جودة البيانات.

استكشف ®Databand
حلول تكامل البيانات

أنشئ مسارات بيانات مرنة وعالية الأداء ومحسَّنة من حيث التكلفة لمبادرات الذكاء الاصطناعي التوليدي، والتحليلات في الوقت الفعلي، وتحديث مستودعات البيانات، وتلبية احتياجات التشغيل باستخدام حلول تكامل البيانات من IBM.

اكتشف حلول تكامل البيانات
اتخِذ الخطوة التالية

اكتشف IBM DataStage، أداة الاستخراج والتحويل والتحميل (ETL) التي توفر واجهة مرئية لتصميم مسارات البيانات وتطويرها ونشرها. وهي متوفرة على هيئة برمجيات كخدمة (SaaS) مُدارة على IBM Cloud، للاستضافة الذاتية، وكمكون إضافي على IBM Cloud Pak for Data.

استكشف DataStage استكشف خدمات التحليلات