إن ELT -وهي اختصار لـ "الاستخراج والتحميل والتحويل"- هي نوع آخر من عمليات تكامل البيانات، على غرار نظيرتها ETL، وهي اختصار لـ "الاستخراج والتحويل والتحميل". تنقل هذه العملية البيانات غير المنسقة من نظام المصدر إلى مورد وجهة، مثل مستودع البيانات.
على الرغم من تشابهها مع عملية الاستخراج والتحويل والتحميل (ETL)، فإن عملية الاستخراج والتحميل والتحويل (ELT) هي نهج مختلف تمامًا للمعالجة المسبقة للبيانات، والذي لم يتم اعتماده إلا مؤخرًا مع الانتقال إلى البيئات السحابية.
تتكون عملية الاستخراج والتحميل والتحويل (ELT) من ثلاث مراحل أساسية؛ وهي الاستخراج والتحميل والتحويل. وسيتم شرح كل من هذه المراحل بالتفصيل أدناه.
أثناء استخراج البيانات، يتم نسخ البيانات أو تصديرها من مواقع المصدر إلى منطقة التجميع. يمكن أن تتكون مجموعة البيانات من العديد من أنواع البيانات وقد تأتي من أي مصدر منظم أو غير منظم تقريبًا، بما في ذلك على سبيل المثال لا الحصر:
يُستخدم عادة مع البيانات غير المنظمة.
في هذه الخطوة، يتم نقل البيانات المحوَّلة من منطقة التجميع إلى منطقة تخزين البيانات، مثل مستودع البيانات أو بحيرة البيانات.
بالنسبة إلى معظم المؤسسات، تكون عملية تحميل البيانات مؤتمتة ومحددة جيدًا ومستمرة وتعتمد على الدفعات. عادةً ما يتم إجراء الاستخراج والتحميل والتحويل (ELT) خلال ساعات العمل عندما تكون حركة المرور على أنظمة المصدر ومستودع البيانات في ذروتها وينتظر المستهلكون استخدام البيانات للتحليل أو غير ذلك.
في هذه المرحلة، يتم استخدام نهج المخطط عند الكتابة، والذي يطبق المخطط على البيانات باستخدام SQL أو يحول البيانات، قبل التحليل. يمكن أن تتضمن هذه المرحلة ما يلي:
يمكن الخلط بين عملية الاستخراج والتحويل والتحميل (ETL) والعملية الشقيقة المعروفة باختصار متطابق تقريبًا. ومع ذلك، هناك العديد من الاختلافات المميزة بين عملية الاستخراج والتحميل والتحويل (ELT) وعملية الاستخراج والتحويل والتحميل (ETL). إنها عملية تكامل بيانات تجمع البيانات من مصادر بيانات متعددة في مخزن بيانات واحد متسق يتم تحميله في مستودع للبيانات أو أي نظام مستهدف آخر. تم تصميم أدوات الاستخراج والتحويل والتحميل (ETL) التقليدية لإنشاء مستودعات بيانات لدعم تطبيقات ذكاء الأعمال (BI) والذكاء الاصطناعي (AI).
والفرق الواضح هو أن عملية الاستخراج والتحويل والتحميل (ETL) تقوم بوظيفة التحميل قبل وظيفة التحويل – وهو عكس الخطوتين الثانية والثالثة من عملية الاستخراج والتحميل والتحويل (ELT). تنسخ عملية الاستخراج والتحميل والتحويل (ELT) البيانات من مواقع المصدر أو تصدرها، ولكن بدلاً من نقلها إلى منطقة التجميع ليتم تحويلها، فهي تحمِّل البيانات غير المنسقة مباشرة إلى مخزن البيانات، حيث يمكن تحويلها حسب الحاجة. ولا تحوِّل عملية الاستخراج والتحميل والتحويل (ELT) أي بيانات أثناء النقل.
ولكن ترتيب الخطوات ليس الاختلاف الوحيد. في عملية الاستخراج والتحميل والتحويل (ELT)، يمكن أن يكون مخزن البيانات المستهدف مستودعًا للبيانات، ولكن غالبًا ما يكون بحيرة للبيانات، وهي مخزن مركزي كبير مصمم لتخزين البيانات المنظمة وغير المنظمة على نطاق واسع.
تتم إدارة بحيرات البيانات باستخدام منصة للبيانات الكبيرة (مثل Apache Hadoop) أو نظام إدارة البيانات NoSQL الموزع. يمكنها دعم ذكاء الأعمال، ولكنها غالبًا ما تُنشأ لدعم الذكاء الاصطناعي والتعلم الآلي والتحليلات التنبئية والتطبيقات التي تعتمد على البيانات في الوقت الفعلي وتدفقات الأحداث.
ثمة اختلافات أخرى بين عملية الاستخراج والتحويل والتحميل (ETL) وعملية الاستخراج والتحميل والتحويل (ELT). على سبيل المثال، نظرًا إلى أن عملية الاستخراج والتحويل والتحميل (ETL) تحول البيانات قبل نقلها إلى المستودع المركزي، فيمكنها أن تبسط الامتثال لخصوصية البيانات أو تعزز منهجيته على نحو يفوق عملية الاستخراج والتحميل والتحويل (ELT) (على سبيل المثال، إذا لم يحول المحللون البيانات الحساسة قبل أن يحتاجوا إلى استخدامها، فقد تظل مكشوفة في بحيرة البيانات). ومع ذلك، قد يفضل علماء البيانات عملية الاستخراج والتحميل والتحويل (ELT) التي تتيح لهم اللعب في "آلية تحديد الوصول" للبيانات غير المنسقة وإجراء تحويل البيانات الخاص بهم والمصمم لتطبيقات محددة. ولكن في معظم الحالات، يعتمد الاختيار بين عملية الاستخراج والتحويل والتحميل (ETL) وعملية الاستخراج والتحميل والتحويل (ELT) على الاختيار بين موارد الأعمال المتاحة والاحتياجات.
توفر عملية الاستخراج والتحميل والتحويل (ELT) العديد من المزايا للمستخدمين الذين يدمجون العملية في سير العمل الخاص بهم. لنلقِ نظرة على بعض المزايا البارزة:
عند إنشاء كميات كبيرة من البيانات المتدفقة، تسمح عملية الاستخراج والتحميل والتحويل (ELT) بتنزيل تلك البيانات على الفور، وتحول البيانات بعد وصولها إلى وجهتها. وهذا يمنع أي تباطؤ قد يحدث في أحيان كثيرة إذا حدث التحول قبل وظيفة التحميل، كما هو الحال في عملية الاستخراج والتحويل والتحميل (ETL). وفي كثير من الأحيان، يلزم اتخاذ قرارات فيما يتعلق بهذه البيانات، ويكون التأخير غير مقبول. ومن الأمثلة على ذلك سوق الأسهم، الذي يولد كميات كبيرة من البيانات التي يتم استهلاكها في الوقت الفعلي. في سيناريوهات مثل هذه، تمثل عملية الاستخراج والتحميل والتحويل (ELT) الحل الأفضل لأن التحول يتم بعد وصول البيانات إلى وجهتها.
نظرًا إلى أنه يتم تحويل البيانات عند وصولها إلى وجهتها، تسمح عملية الاستخراج والتحميل والتحويل (ELT) لمستلم البيانات بالتحكم في معالجة البيانات. عند استخدام عملية الاستخراج والتحميل والتحويل (ELT)، يضمن فصل مرحلتي التحول والتحميل عدم تأثير أي خطأ في البرمجة أو خطأ آخر في مرحلة التحول على المراحل الأخرى.
تستخدم عملية الاستخراج والتحميل والتحويل (ELT) قوة مستودع البيانات وحجمه لتمكين التحويل أو الحوسبة القابلة للتوسع على نطاق واسع. يمكن لمستودع البيانات الوجهة زيادة العقد أو تقليلها حسب الحاجة، خاصة في سيناريو السحابة حيث توجد عدة عقد داخل كل مجموعة، وتوجد عدة مجموعات يمكن استخدامها. يتيح هذا المرونة وقابلية التوسع عند الطلب.
تتطلب عملية الاستخراج والتحميل والتحويل (ELT) خادمًا أقل قوة لتحويل البيانات ويستفيد من الموارد الموجودة بالفعل في المستودع. ويؤدي هذا إلى توفير التكاليف وزيادة كفاءة الموارد.
تمكّن عملية الاستخراج والتحميل والتحويل (ELT) استخدام مستودع الوجهة التي تختاره لتحقيق مرونة التكلفة والموارد. تستخدم مستودعات البيانات بنية MPP (المعالجة المتوازية الضخمة)، بما في ذلك التخزين القائم على الذاكرة العمودية لأحجام البيانات. كما يتم دعم عمليات بحيرة البيانات التي تطبق مخططًا أو نموذج التحول بمجرد استلام البيانات (وتسمى أيضًا "المخطط عند القراءة"). توفر هذه العمليات الفعالة المرونة لكميات كبيرة من البيانات.
يعد التشغيل المستمر مثاليًا لأي بيئة تتطلب الوصول السريع إلى البيانات. وتعد عملية الاستخراج والتحميل والتحويل (ELT) مناسبة جدًا للبيانات المستخدمة في البيئات السحابية، والتي غالبًا ما تشمل التطبيقات التي يتم الوصول إليها عند الطلب بشكل مستمر. وبالمثل، يوفر تحويل عملية الاستخراج والتحميل والتحويل (ELT) الخاص بالسحابة الأصلية قابلية التوسع والمرونة المذكورين أعلاه.
قد تختار المؤسسة الانتقال من بنية الاستخراج والتحويل والتحميل (ETL) إلى بنية الاستخراج والتحميل والتحويل (ELT) قد يكون السبب وراء الانتقال هو حدوث تغيير في استخدام منتجها أو خدمتها بحيث تكون هناك حاجة إلى الاستجابة والتفاعل في الوقت الفعلي، أو أن كمية البيانات قد زادت بشكل كبير وأن التحول يؤخر مرحلة التحميل بسبب ارتفاع حجم متطلبات المعالجة على البنية التحتية. كما قد تختار المؤسسة الانتقال من بنية الاستخراج والتحويل والتحميل (ETL) إلى بنية الاستخراج والتحميل والتحويل (ELT) إذا كانت قد انتقلت إلى السحابة وترغب في التخلص من المعالجة أو استخدام البيانات في موقع الوجهة بشكل أسرع.
في سيناريو التحول، من الواقعي توقع مواجهة التحديات. أولاً وقبل كل شيء، يتم استخدام منطق ورمز مختلفين تمامًا في الاستخراج والتحميل والتحويل (ELT) مقارنة بالاستخراج والتحويل والتحميل (ETL). قد يتطلب ذلك إعادة تشكيل كاملة وقد يتطلب بنية تحتية جديدة أو مزودًا جديدًا مع بنية تحتية جديدة في السحابة. بالإضافة إلى ذلك، في عملية الاستخراج والتحميل والتحويل (ELT)، يتم إرسال البيانات غير المنسقة إلى مستودع الوجهة. لذلك، يُعد الأمان أحد الاعتبارات ويجب تطبيقه للحفاظ على أمان البيانات.
إن تقنية الاستخراج والتحميل والتحويل (ELT) ليست جديدة. فقد كانت جداول الترتيب تستخدم سابقًا لنقل البيانات إلى مستودع لمعالجتها وتحويلها، وغالبًا ما كان يتم ذلك باستخدام نصوص SQL البرمجية. إن نصوص SQL البرمجية مبرمجة بشكل ثابت، ومن ثَمَّ تتعرض لأخطاء برمجة محتملة. باستخدام SQL، كان يجب على العملاء الاختيار بين تنفيذ المستودع الأصلي باستخدام نصوص SQL البرمجية والبرمجة التصريحية، والتي تُعرف أيضًا باسم التأليف التصريحي. يوفر التأليف التصريحي فوائد بيئات مستودعات بيانات أحدث وقائمة على السحابة من خلال إنشاء كود يصف ما يجب على البرنامج تحقيقه، بدلاً من وصف كيفية تحقيقه. تمنع هذه العملية أخطاء البرمجة الكامنة في العمليات الأخرى، خاصة عندما يحدث التحول قبل وظيفة التحميل.
تُستخدم عملية الاستخراج والتحميل والتحويل (ELT) عادةً في بيئات استخدام البيانات في الوقت الفعلي أو ذات الحجم الكبير. وتشمل الأمثلة المحددة ما يلي:
إنشاء أنظمة تدفق البيانات الذكية وإدارتها من خلال واجهة رسومية سهلة الاستخدام، ما يسهِّل تكامل البيانات بسلاسة عبر البيئات الهجينة ومتعددة السحابة.
اكتشف IBM Databand، وهو برنامج متخصص في مراقبة مسارات البيانات. يجمع البيانات الوصفية تلقائيًا لبناء خطوط أساسية تاريخية، واكتشاف حالات الخلل، وإنشاء عمليات سير عمل لمعالجة مشكلات جودة البيانات.
أنشئ مسارات بيانات مرنة وعالية الأداء ومحسَّنة من حيث التكلفة لمبادرات الذكاء الاصطناعي التوليدي، والتحليلات في الوقت الفعلي، وتحديث مستودعات البيانات، وتلبية احتياجات التشغيل باستخدام حلول تكامل البيانات من IBM.