تعزيز قدرات المؤسسة القائمة على الوكلاء شاهد الكلمة الرئيسية في مؤتمر Think

ما عملية ETL (الاستخراج والتحويل والتحميل)؟

ما المقصود بـ ETL؟

ETL—والتي تعني الاستخراج والتحويل والتحميل—هي عملية تكامل بيانات تقوم بجمع وتنظيف وتنظيم البيانات من مصادر متعددة في مجموعة بيانات واحدة ومتسقة. ثم تقوم بتحميل تلك البيانات إلى مستودع بيانات أو بحيرة بيانات أو نظام مستهدف آخر.

مسارات بيانات ETL توفر الأساس لتحليلات البيانات ومهام سير عمل التعلم الآلي. من خلال سلسلة من قواعد العمل، تقوم عملية ETL بتنقية البيانات وتنظيمها لتلبية احتياجات محددة في مجال ذكاء الأعمال، مثل التقارير الشهرية. ويمكنها أيضًا معالجة تحليلات أكثر تقدمًا، مما يحسن عمليات الواجهة الخلفية وتجارب المستخدم النهائي. غالبًا ما تستخدم المؤسسات مسارات ETL من أجل:

  • استخراج البيانات من الأنظمة القديمة

  • تنقية البيانات لتحسين جودتها وتحقيق الاتساق

  • تحميل البيانات في قاعدة البيانات المستهدفة

تطوّر ETL

لقد ظلت الشركات تُنتج البيانات منذ عصر الحاسبة اليدوية، لكن التحليلات الحديثة لم تصبح ممكنة إلا مع ظهور الحاسوب الرقمي والتخزين الرقمي للبيانات.

لقد تحققت خطوة كبيرة إلى الأمام في سبعينيات القرن الماضي، مع الانتقال إلى قواعد بيانات مركزية أكبر. ثم تم تقديم عملية ETL (الاستخراج والتحويل والتحميل) كعملية لدمج البيانات وتحميلها لأغراض الحوسبة والتحليل، وأصبحت في نهاية المطاف الطريقة الأساسية لمعالجة البيانات لمشاريع تخزين البيانات.

في أواخر الثمانينيات، ازدادت شعبية مستودعات البيانات والانتقال من قواعد بيانات المعاملات إلى قواعد البيانات العلائقية التي خزنت المعلومات في تنسيقات البيانات العلائقية. قواعد بيانات المعاملات القديمة كانت تخزن المعلومات معاملة بمعاملة، مع تخزين معلومات العميل المكررة مع كل معاملة، لذلك لم تكن هناك طريقة سهلة للوصول إلى بيانات العملاء بطريقة موحدة على مر الزمن. مع قواعد البيانات العلائقية، أصبح التحليل هو الأساس لذكاء الأعمال (BI) وأداة مهمة في اتخاذ القرار.

حتى ظهور برامج ETL الأكثر تطوراً، كانت المحاولات المبكرة عبارة عن جهود يدوية إلى حد كبير من قبل فريق تكنولوجيا المعلومات لاستخراج البيانات من مختلف الأنظمة والموصلات. ثم قاموا بتحويل البيانات إلى تنسيق مشترك وتحميلها في جداول مترابطة. ورغم بساطة تلك المحاولات الأولى، فإنها شكّلت الأساس للتحليلات المتقدمة، خاصة مع تطور الخوارزميات وظهور الشبكات العصبية، مما أتاح فرصًا أعمق لاستخلاص الرؤى.

وصل عصر البيانات الضخمة في التسعينيات مع استمرار نمو سرعات الحوسبة وسعة التخزين بسرعة. ثم تم سحب كميات كبيرة من البيانات من مصادر جديدة، مثل وسائل التواصل الاجتماعي وإنترنت الأشياء (IoT). لا يزال هناك عامل مقيّد، حيث غالبًا ما يتم تخزين البيانات في مستودعات البيانات المحلية.

الخطوة الرئيسية التالية في كل من الحوسبة و ETL كانت الحوسبة السحابية، التي أصبحت شائعة في أواخر التسعينيات. باستخدام مستودعات البيانات مثل Amazon Web Services (AWS)، وMicrosoft Azure وSnowflake، يمكن الآن الوصول إلى البيانات من جميع أنحاء العالم. يمكن لهذه المنصات أيضًا أن تتوسع بسرعة لتمكين حلول ETL من تقديم رؤى مفصلة بشكل ملحوظ وميزة تنافسية جديدة.

يتمثل التطور الأخير في حلول ETL من خلال تدفق البيانات لتقديم رؤى محدثة في الثانية من كميات هائلة من البيانات.

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

ETL مقابل ELT

أوضح فرق بين ETL وELT—الاستخراج، التحميل، التحويل—هو الفرق في ترتيب العمليات. ELT ينسخ البيانات أو يصدرها من مواقع المصدر. ولكن بدلاً من تحميلها إلى منطقة تجميع للتحويل، فإنه يحمل البيانات غير المنسقة مباشرةً إلى مخزن البيانات الهدف ليتم تحويلها حسب الحاجة.

بينما تستخدم كلتا العمليتين مستودعات بيانات مختلفة، مثل قواعد البيانات، ومستودع البيانات، و بحيرة البيانات، إلا أن لكل عملية مزايا وعيوب. تُعد ELT مفيدة لمعالجة مجموعات البيانات كبيرة الحجم وغير المنظمة حيث يمكن أن يحدث التحميل مباشرةً من المصدر. تُعد ELT أكثر مثالية لإدارة البيانات الضخمة، حيث لا تتطلب الكثير من التخطيط المسبق لاستخراج البيانات وتخزينها.

تتطلب عملية ETL تعريفًا أكثر وضوحًا في البداية. يجب تحديد نقاط بيانات محددة لعملية الاستخراج بالإضافة إلى أي "مفاتيح" محتملة لدمج البيانات عبر أنظمة المصدر المختلفة. غالبًا ما يتم تتبع مصدر بيانات الإدخال باستخدام البيانات الوصفية. حتى بعد اكتمال هذا العمل، يجب إنشاء قواعد العمل لتحولات البيانات.

يمكن أن يعتمد هذا العمل عادةً على متطلبات البيانات لنوع معين من تحليل البيانات، والذي سيحدد مستوى التلخيص الذي تحتاج البيانات إليه.

بينما أصبحت مسارات ELT شائعة بشكل متزايد مع تبني قواعد البيانات السحابية، لا تزال تقنية ELT قيد التطوير، مما يعني أن أفضل الممارسات لا تزال قيد التأسيس.

كيف تعمل ETL

أسهل طريقة لفهم كيفية عمل ETL هي فهم ما يحدث في كل خطوة من خطوات العملية.

الاستخراج

أثناء استخراج البيانات، يتم نسخ البيانات غير المنسقة أو تصديرها من مواقع المصدر إلى منطقة التجميع. يمكن لفرق إدارة البيانات استخراج البيانات من مجموعة متنوعة من المصادر المختلفة، والتي يمكن أن تكون منظمة أو غير منظمة. تشمل أنواع البيانات هذه، على سبيل المثال لا الحصر:

  • خوادم SQL أو NoSQL
  • أنظمة إدارة علاقات العملاء (CRM) وتخطيط موارد المؤسسات (ERP)
  • JSON و XML
  • قواعد البيانات المسطحة (Flat-file databases)
  • البريد الإلكتروني
  • صفحات الويب

التحويل

في منطقة التجميع، تخضع البيانات غير المنسقة لمعالجة البيانات. هنا، يتم تحويل البيانات ودمجها لحالة الاستخدام التحليلي المقصودة. يمكن أن تشمل هذه المرحلة من عملية التحويل ما يلي:

  • تصفية البيانات وتنقيتها وتجميعها وإزالة التكرار والتحقق من صحتها والمصادقة عليها.
  • إجراء العمليات الحسابية أو الترجمات أو التلخيصات بناءً على البيانات غير المنسقة. يمكن أن تشمل هذه العملية تغيير رؤوس الصفوف والأعمدة لتحقيق الاتساق، وتحويل العملات أو وحدات القياس الأخرى، وتحرير السلاسل النصية والمزيد.
  • إجراء عمليات تدقيق لضمان جودة البيانات والامتثال، وحساب المقاييس.
  • إزالة البيانات التي تحكمها الصناعة أو الجهات التنظيمية الحكومية أو تشفيرها أو حمايتها.
  • تنسيق البيانات في جداول أو جداول مترابطة بما يتماشى مع مخطط مستودع البيانات المستهدف

Load

في هذه الخطوة الأخيرة، يتم نقل البيانات المحولة من منطقة التجميع إلى مستودع البيانات المستهدف. عادةً، تتضمن هذه العملية تحميلاً أوليًا لجميع البيانات، يتبعه تحميل دوري لتغييرات البيانات المتزايدة، وبشكل أقل تكرارًا، تحديثات كاملة لمحو البيانات واستبدالها في المستودع.

بالنسبة لمعظم المؤسسات التي تستخدم ETL، تكون العملية مؤتمتة ومحددة جيدًا ومستمرة وتعتمد على الدفعات. عادةً ما تتم عملية تحميل ETL في غير ساعات العمل عندما تكون حركة المرور على أنظمة المصدر ومستودع البيانات في أدنى مستوياتها.

طرق تكامل البيانات، بما في ذلك ETL

تُعدّ ETL و ELT مجرد طريقتين لتكامل البيانات، وهناك أساليب أخرى تُستخدم أيضًا لتسهيل مهام سير عمل تكامل البيانات. تتضمن بعض هذه الطرق ما يلي:

  • التقاط بيانات التغيير (CDC) يحدد ويلتقط فقط بيانات المصدر التي تغيرت وينقل تلك البيانات إلى النظام المستهدف. يمكن استخدام CDC لتقليل الموارد المطلوبة أثناء خطوة "الاستخراج" في عملية ETL. كما يمكن استخدامه بشكل مستقل لنقل البيانات التي تم تحويلها إلى بحيرة بيانات أو مستودع آخر في الوقت الفعلي.

  • تكرار البيانات ينسخ التغييرات في مصادر البيانات في الوقت الفعلي أو على دفعات إلى قاعدة بيانات مركزية. غالبًا ما يتم إدراج تكرار البيانات كطريقة لتكامل البيانات. في الواقع، يتم استخدامه غالبًا لإنشاء نسخ احتياطية للتعافي من الكوارث.

  • تقنية المحاكاة الافتراضية للبيانات تستخدم طبقة تجريد برمجية لإنشاء عرض موحد ومتكامل وقابل للاستخدام بالكامل للبيانات—دون نسخ البيانات المصدر أو تحويلها أو تحميلها فعليًا إلى نظام مستهدف. تُمكّن وظائف المحاكاة الافتراضية للبيانات المنظمة من إنشاء مستودعات بيانات افتراضية وبحيرات بيانات ومتاجر بيانات من نفس البيانات المصدر للتخزين. هذا النهج يتجنب التكلفة والتعقيد في بناء وإدارة منصات منفصلة لكل منها. في حين يمكن استخدام المحاكاة الافتراضية للبيانات جنبًا إلى جنب مع ETL، إلا أنها تُعتبر بشكل متزايد بديلاً لـ ETL ولطرق تكامل البيانات المادية الأخرى.

  • إن تكامل بيانات التدفق (SDI) هو بالضبط ما يبدو عليه الأمر—فهو يستهلك تدفقات البيانات باستمرار في الوقت الفعلي، ويقوم بتحويلها وتحميلها إلى نظام مستهدف لتحليلها. الكلمة الأساسية هنا هي باستمرار. بدلاً من دمج لقطات البيانات المأخوذة في وقت محدد، تعمل SDI على دمج البيانات باستمرار. يقوم بمعالجة المعلومات عندما تصبح متاحة. يتيح SDI مخزن بيانات لتشغيل التحليلات والتعلم الآلي والتطبيقات في الوقت الفعلي لتحسين تجربة العملاء والكشف عن الغش وغير ذلك.

فوائد وتحديات ETL

تحسّن حلول ETL جودة البيانات من خلال تنفيذ عملية تنقية البيانات قبل تحميلها إلى مستودع بيانات آخر. وباعتبارها عملية دفعات تستغرق وقتًا طويلاً، يُوصى باستخدام ETL غالبًا عند إنشاء مستودعات بيانات مستهدفة أصغر حجمًا لا تتطلب تحديثًا متكررًا.في المقابل، تُستخدم طرق أخرى لتكامل البيانات — بما في ذلك ELT (الاستخراج، التحميل، التحويل)، واكتشاف تغيّر البيانات (CDC)، والمحاكاة الافتراضية للبيانات — في دمج أحجام متزايدة من تدفقات البيانات المتغيرة أو في الوقت الفعلي.

أدوات ETL

في الماضي، كتبت المؤسسات رمز ETL الخاص بها. يوجد الآن العديد من أدوات ETL مفتوحة المصدر والتجارية والخدمات المستندة إلى السحابة للاختيار من بينها. تشمل القدرات النموذجية لهذه المنتجات:

  • الأتمتة الشاملة وسهولة الاستخدام: توفر أدوات ETL الرائدة أتمتة كاملة لتدفق البيانات من مصادر البيانات إلى مستودع البيانات المستهدف. وهذا يُجنّب مهندسي البيانات المهام المتكررة المتمثلة في نقل البيانات وتنسيقها، ما يُسرّع النتائج ويُحسّن كفاءة العمليات.

  • واجهة مرئية بخاصية السحب والوضع: يمكن استخدام هذه الوظيفة لتحديد القواعد وتدفقات البيانات.

  • دعم إدارة البيانات المعقدة: تشمل هذه القدرة المساعدة في الحسابات المعقدة، وتكامل البيانات، وإجراء تعديلات بالسلاسل النصية.

  • الأمان والامتثال: تقوم أفضل أدوات ETL بتشفير البيانات أثناء الحركة والسكون، وهي معتمدة ومتوافقة مع لوائح الصناعة أو اللوائح الحكومية، بما في ذلك HIPAA واللائحة العامة لحماية البيانات.

بالإضافة إلى ذلك، تطورت العديد من أدوات ELT لتشمل إمكانية ELT ودعم تكامل البيانات في الوقت الفعلي والبيانات المتدفقة لتطبيقات الذكاء الاصطناعي (AI).

الأسئلة الشائعة حول ETL

ما هي منطقة التجهيز؟

منطقة التجهيز هي موقع التخزين المؤقت بين مصادر البيانات والوجهة المستهدفة (مثل مستودع البيانات) يستخدم لتخزين البيانات غير منسقة مؤقتاً. يعمل كرصيف تحميل حيث يتم تنظيف البيانات غير المنسقة وفحصها وتحويلها قبل الانتقال إلى الوجهة المستهدفة.

ما الفرق بين الأحمال الأولية والتزايدية؟

الحمل الأولي هو استخراج البيانات التاريخية وتحميلها لأول مرة من مصدر البيانات إلى الوجهة المستهدفة. يتضمن مجموعة البيانات بأكملها ويتم إجراؤه مرة واحدة في بداية المشروع. الحمل التزايدي هو عملية تحميل البيانات الجديدة فقط أو المتغيرة أو المحذوفة منذ آخر تحميل. تعمل هذه العمليات على أساس مجدول.

ما الأبعاد المتغيرة ببطء (SCD)؟

هذا المصطلح غامض بعض الشيء ويستخدم بطريقتين مختلفتين. تشير الأبعاد المتغيرة ببطء إلى جداول الأبعاد في مستودع البيانات التي تتغير بشكل متقطع بمرور الوقت، وليس وفق جدول زمني ثابت. ومن الأمثلة الشائعة التي يتم الاستشهاد بها عنوان العميل. يُستخدم المصطلح أيضًا للإشارة إلى الأساليب والتقنيات المستخدمة للتعامل مع التغييرات في بيانات الأبعاد وتتبعها بمرور الوقت.

كيف أتعامل مع البيانات المكررة؟

للتعامل مع البيانات المكررة، يجب على المؤسسات إنشاء عملية لتحديد البيانات المكررة ونوعها بشكل منهجي، وقواعد واضحة لإزالة أو دمج البيانات المكررة، وضوابط حماية لمنع الإدخالات المستقبلية.

حلول ذات صلة
منصة IBM StreamSets

إنشاء أنظمة تدفق البيانات الذكية وإدارتها من خلال واجهة رسومية سهلة الاستخدام، ما يسهِّل تكامل البيانات بسلاسة عبر البيئات الهجينة ومتعددة السحابة.

استكشف StreamSets
IBM watsonx.data

يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.

اكتشف watsonx.data
خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة مع IBM® Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.

اكتشف خدمات التحليلات
اتخِذ الخطوة التالية

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

  1. استكشف حلول إدارة البيانات
  2. اكتشف watsonx.data