عملية ETL—التي تعني استخراج، تحويل، تحميل—هي عملية تكامل بيانات تجمع البيانات وتنظفها وتنظمها من مصادر متعددة في مجموعة بيانات واحدة ومتناسقة لتخزينها في مستودع بيانات أو بحيرة بيانات أو نظام مستهدف آخر.
مسارات بيانات ETL توفر الأساس لتحليلات البيانات وتدفقات عمل التعلم الآلي. من خلال سلسلة من قواعد العمل، تقوم عملية ETL بتنقية البيانات وتنظيمها لتلبية احتياجات محددة في مجال ذكاء الأعمال، مثل التقارير الشهرية—ولكنها يمكنها أيضًا معالجة تحليلات أكثر تقدمًا، مما يحسن العمليات الخلفية وتجارب المستخدم النهائي. غالبًا ما تستخدم المؤسسات مسارات ETL من أجل:
استخراج البيانات من الأنظمة القديمة
تنقية البيانات لتحسين جودتها وتحقيق الاتساق
تحميل البيانات في قاعدة البيانات المستهدفة
لقد ظلت الشركات تُنتج البيانات منذ عصر الحاسبة اليدوية، لكن التحليلات الحديثة لم تصبح ممكنة إلا مع ظهور الحاسوب الرقمي والتخزين الرقمي للبيانات.
لقد تحققت خطوة كبيرة إلى الأمام في سبعينيات القرن الماضي، مع الانتقال إلى قواعد بيانات مركزية أكبر. ثم تم تقديم عملية ETL (الاستخراج والتحويل والتحميل) كعملية لدمج البيانات وتحميلها لأغراض الحوسبة والتحليل، وأصبحت في نهاية المطاف الطريقة الأساسية لمعالجة البيانات لمشاريع تخزين البيانات.
في أواخر الثمانينيات، ازدادت شعبية مستودعات البيانات والانتقال من قواعد بيانات المعاملات إلى قواعد البيانات العلائقية التي خزنت المعلومات في تنسيقات البيانات العلائقية. قواعد بيانات المعاملات القديمة كانت تخزن المعلومات معاملة بمعاملة، مع تخزين معلومات العميل المكررة مع كل معاملة، لذلك لم تكن هناك طريقة سهلة للوصول إلى بيانات العملاء بطريقة موحدة على مر الزمن. مع قواعد البيانات العلائقية، أصبح التحليل هو الأساس لذكاء الأعمال (BI) وأداة مهمة في اتخاذ القرار.
حتى زهور برامج ETL الأكثر تطوراً، كانت المحاولات الأولى عبارة عن جهود يدوية إلى حد كبير من جانب فريق تكنولوجيا المعلومات لاستخراج البيانات من مختلف الأنظمة والموصلات، وتحويل البيانات إلى تنسيق موحّد، ثم تحميلها إلى جداول مترابطة. ورغم بساطة تلك المحاولات الأولى، فإنها شكّلت الأساس للتحليلات المتقدمة، خاصة مع تطور الخوارزميات وظهور الشبكات العصبية، مما أتاح فرصًا أعمق لاستخلاص الرؤى.
وصل عصر البيانات الكبيرة في التسعينيات مع استمرار نمو سرعات الحوسبة وسعة التخزين بسرعة، ومع سحب كميات كبيرة من البيانات من مصادر جديدة، مثل وسائل التواصل الاجتماعي وإنترنت الأشياء (IoT). لا يزال هناك عامل مقيّد، حيث غالبًا ما يتم تخزين البيانات في مستودعات البيانات المحلية.
الخطوة الرئيسية التالية في كل من الحوسبة و ETL كانت الحوسبة السحابية، التي أصبحت شائعة في أواخر التسعينيات. باستخدام مستودعات البيانات مثل Amazon Web Services (AWS) و Microsoft Azure و Snowflake، يمكن الآن الوصول إلى البيانات من جميع أنحاء العالم وتوسيع نطاقها بسرعة لتمكين حلول الاستخراج والتحويل والتحميل (ETL) من تقديم رؤى تفصيلية رائعة وميزة تنافسية جديدة.
أما أحدث مراحل تطور ETL، فتتمثل في الحلول التي تعتمد على البيانات المتدفقة لتقديم رؤى في الوقت الفعلي، من كميات هائلة من البيانات.
أوضح فرق بين ETL و ELT—الاستخراج، التحميل، التحويل—هو الفرق في ترتيب العمليات. ELT ينسخ البيانات أو يصدرها من مواقع المصدر، ولكن بدلاً من تحميلها إلى منطقة تجميع للتحويل، فإنه يحمل البيانات غير المنسقة مباشرةً إلى مخزن البيانات الهدف ليتم تحويلها حسب الحاجة.
بينما تستفيد كلتا العمليتين من مجموعة متنوعة من مخازن البيانات، مثل قواعد البيانات ومستودعات البيانات وبحيرات البيانات، فإن لكل عملية مزاياها وعيوبها. ELT مفيد لاستيعاب مجموعات البيانات غير المنظمة وذات الحجم الكبير حيث يمكن التحميل مباشرة من المصدر. تُعد ELT أكثر مثالية لإدارة البيانات الكبيرة، حيث لا تتطلب الكثير من التخطيط المسبق لاستخراج البيانات وتخزينها.
تتطلب عملية ETL مزيدًا من التعريف في البداية. يجب تحديد نقاط بيانات محددة لعملية الاستخراج بالإضافة إلى أي "مفاتيح" محتملة لدمج البيانات عبر أنظمة المصدر المختلفة. غالبًا ما يتم تتبع مصدر بيانات الإدخال باستخدام البيانات الوصفية. حتى بعد اكتمال هذا العمل، يجب إنشاء قواعد العمل لتحولات البيانات. يمكن أن يعتمد هذا العمل عادةً على متطلبات البيانات لنوع معين من تحليل البيانات، والذي سيحدد مستوى التلخيص الذي تحتاج البيانات إليه.
بينما أصبحت مسارات ELT شائعة بشكل متزايد مع تبني قواعد البيانات السحابية، لا تزال تقنية ELT قيد التطوير، مما يعني أن أفضل الممارسات لا تزال قيد التأسيس.
أسهل طريقة لفهم كيفية عمل ETL هي فهم ما يحدث في كل خطوة من خطوات العملية.
أثناء استخراج البيانات، يتم نسخ البيانات غير المنسقة أو تصديرها من مواقع المصدر إلى منطقة التجميع. يمكن لفرق إدارة البيانات استخراج البيانات من مجموعة متنوعة من المصادر المختلفة، والتي يمكن أن تكون منظمة أو غير منظمة. تشمل أنواع البيانات هذه، على سبيل المثال لا الحصر:
في منطقة التجميع، تخضع البيانات غير المنسقة لمعالجة البيانات. هنا، يتم تحويل البيانات ودمجها لحالة الاستخدام التحليلي المقصودة. يمكن أن تشمل هذه المرحلة من عملية التحويل ما يلي:
في هذه الخطوة الأخيرة، يتم نقل البيانات المحولة من منطقة التجميع إلى مستودع البيانات المستهدف. عادةً، يتضمن هذا تحميلًا أوليًا لجميع البيانات، يتبعه تحميل دوري لتغييرات البيانات المتزايدة، وبشكل أقل تكرارًا، تحديثات كاملة لمحو البيانات واستبدالها في المستودع. بالنسبة لمعظم المؤسسات التي تستخدم ETL، تكون العملية مؤتمتة ومحددة جيدًا ومستمرة وتعتمد على الدفعات. عادةً ما تتم عملية تحميل ETL في غير ساعات العمل عندما تكون حركة المرور على أنظمة المصدر ومستودع البيانات في أدنى مستوياتها.
تُعدّ ETL و ELT مجرد طريقتين لتكامل البيانات، وهناك أساليب أخرى تُستخدم أيضًا لتسهيل مهام سير عمل تكامل البيانات. ومن بين هذه الأنواع:
تحسّن حلول ETL جودة البيانات من خلال تنفيذ عملية تنقية البيانات قبل تحميلها إلى مستودع بيانات آخر. وباعتبارها عملية دفعات تستغرق وقتًا طويلاً، يُوصى باستخدام ETL غالبًا عند إنشاء مستودعات بيانات مستهدفة أصغر حجمًا لا تتطلب تحديثًا متكررًا.في المقابل، تُستخدم طرق أخرى لتكامل البيانات — بما في ذلك ELT (الاستخراج، التحميل، التحويل)، واكتشاف تغيّر البيانات (CDC)، والمحاكاة الافتراضية للبيانات — في دمج أحجام متزايدة من البيانات المتغيرة أو تدفقات البيانات في الوقت الفعلي.
في الماضي، كتبت المؤسسات رمز ETL الخاص بها. يوجد الآن العديد من أدوات ETL مفتوحة المصدر والتجارية والخدمات المستندة إلى السحابة للاختيار من بينها. تشمل القدرات النموذجية لهذه المنتجات:
بالإضافة إلى ذلك، تطورت العديد من أدوات ELT لتشمل إمكانية ELT ودعم تكامل البيانات في الوقت الفعلي والبيانات المتدفقة لتطبيقات الذكاء الاصطناعي (AI).
يمكن استخدام واجهات برمجة التطبيقات (APIs) التي تستخدم تكامل التطبيقات المؤسسية (EAI) بدلاً من ETL للحصول على حل أكثر مرونة وقابلية للتوسع يتضمن تكامل سير العمل. في حين أن ETL لا يزال المورد الأساسي لتكامل البيانات، يتم استخدام EAI بشكل متزايد مع واجهات برمجة التطبيقات في الإعدادات المستندة إلى الويب.
أنشئ مسارًا موثوقًا للبيانات باستخدام أداة محدَّثة للاستخراج والتحويل والتحميل (ETL) على منصة رؤى مصمَّمة للتقنية السحابية الاصلية.
أنشئ مسارات بيانات مرنة وعالية الأداء ومحسَّنة من حيث التكلفة لمبادرات الذكاء الاصطناعي التوليدي، والتحليلات في الوقت الفعلي، وتحديث مستودعات البيانات، وتلبية احتياجات التشغيل باستخدام حلول تكامل البيانات من IBM.
استفِد من قيمة بيانات المؤسسة مع IBM Consulting لبناء مؤسسة تعتمد على الرؤى لتحقيق ميزة تنافسية في الأعمال.