أحدث الأخبار التقنية، مدعومة برؤى خبراء
ابقَ على اطلاع دائم على أبرز الاتجاهات في مجالات الذكاء الاصطناعي، والأتمتة، والبيانات، وغيرها الكثير من خلال رسالة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.
ETL—والتي تعني الاستخراج والتحويل والتحميل—هي عملية تكامل بيانات تقوم بجمع وتنظيف وتنظيم البيانات من مصادر متعددة في مجموعة بيانات واحدة ومتسقة. ثم تقوم بتحميل تلك البيانات إلى مستودع بيانات أو بحيرة بيانات أو نظام مستهدف آخر.
مسارات بيانات ETL توفر الأساس لتحليلات البيانات ومهام سير عمل التعلم الآلي. من خلال سلسلة من قواعد العمل، تقوم عملية ETL بتنقية البيانات وتنظيمها لتلبية احتياجات محددة في مجال ذكاء الأعمال، مثل التقارير الشهرية. ويمكنها أيضًا معالجة تحليلات أكثر تقدمًا، مما يحسن عمليات الواجهة الخلفية وتجارب المستخدم النهائي. غالبًا ما تستخدم المؤسسات مسارات ETL من أجل:
استخراج البيانات من الأنظمة القديمة
تنقية البيانات لتحسين جودتها وتحقيق الاتساق
تحميل البيانات في قاعدة البيانات المستهدفة
ابقَ على اطلاع دائم على أبرز الاتجاهات في مجالات الذكاء الاصطناعي، والأتمتة، والبيانات، وغيرها الكثير من خلال رسالة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.
لقد ظلت الشركات تُنتج البيانات منذ عصر الحاسبة اليدوية، لكن التحليلات الحديثة لم تصبح ممكنة إلا مع ظهور الحاسوب الرقمي والتخزين الرقمي للبيانات.
لقد تحققت خطوة كبيرة إلى الأمام في سبعينيات القرن الماضي، مع الانتقال إلى قواعد بيانات مركزية أكبر. ثم تم تقديم عملية ETL (الاستخراج والتحويل والتحميل) كعملية لدمج البيانات وتحميلها لأغراض الحوسبة والتحليل، وأصبحت في نهاية المطاف الطريقة الأساسية لمعالجة البيانات لمشاريع تخزين البيانات.
في أواخر الثمانينيات، ازدادت شعبية مستودعات البيانات والانتقال من قواعد بيانات المعاملات إلى قواعد البيانات العلائقية التي خزنت المعلومات في تنسيقات البيانات العلائقية. قواعد بيانات المعاملات القديمة كانت تخزن المعلومات معاملة بمعاملة، مع تخزين معلومات العميل المكررة مع كل معاملة، لذلك لم تكن هناك طريقة سهلة للوصول إلى بيانات العملاء بطريقة موحدة على مر الزمن. مع قواعد البيانات العلائقية، أصبح التحليل هو الأساس لذكاء الأعمال (BI) وأداة مهمة في اتخاذ القرار.
حتى ظهور برامج ETL الأكثر تطوراً، كانت المحاولات المبكرة عبارة عن جهود يدوية إلى حد كبير من قبل فريق تكنولوجيا المعلومات لاستخراج البيانات من مختلف الأنظمة والموصلات. ثم قاموا بتحويل البيانات إلى تنسيق مشترك وتحميلها في جداول مترابطة. ورغم بساطة تلك المحاولات الأولى، فإنها شكّلت الأساس للتحليلات المتقدمة، خاصة مع تطور الخوارزميات وظهور الشبكات العصبية، مما أتاح فرصًا أعمق لاستخلاص الرؤى.
وصل عصر البيانات الضخمة في التسعينيات مع استمرار نمو سرعات الحوسبة وسعة التخزين بسرعة. ثم تم سحب كميات كبيرة من البيانات من مصادر جديدة، مثل وسائل التواصل الاجتماعي وإنترنت الأشياء (IoT). لا يزال هناك عامل مقيّد، حيث غالبًا ما يتم تخزين البيانات في مستودعات البيانات المحلية.
الخطوة الرئيسية التالية في كل من الحوسبة و ETL كانت الحوسبة السحابية، التي أصبحت شائعة في أواخر التسعينيات. باستخدام مستودعات البيانات مثل Amazon Web Services (AWS)، وMicrosoft Azure وSnowflake، يمكن الآن الوصول إلى البيانات من جميع أنحاء العالم. يمكن لهذه المنصات أيضًا أن تتوسع بسرعة لتمكين حلول ETL من تقديم رؤى مفصلة بشكل ملحوظ وميزة تنافسية جديدة.
يتمثل التطور الأخير في حلول ETL من خلال تدفق البيانات لتقديم رؤى محدثة في الثانية من كميات هائلة من البيانات.
أوضح فرق بين ETL وELT—الاستخراج، التحميل، التحويل—هو الفرق في ترتيب العمليات. ELT ينسخ البيانات أو يصدرها من مواقع المصدر. ولكن بدلاً من تحميلها إلى منطقة تجميع للتحويل، فإنه يحمل البيانات غير المنسقة مباشرةً إلى مخزن البيانات الهدف ليتم تحويلها حسب الحاجة.
بينما تستخدم كلتا العمليتين مستودعات بيانات مختلفة، مثل قواعد البيانات، ومستودع البيانات، و بحيرة البيانات، إلا أن لكل عملية مزايا وعيوب. تُعد ELT مفيدة لمعالجة مجموعات البيانات كبيرة الحجم وغير المنظمة حيث يمكن أن يحدث التحميل مباشرةً من المصدر. تُعد ELT أكثر مثالية لإدارة البيانات الضخمة، حيث لا تتطلب الكثير من التخطيط المسبق لاستخراج البيانات وتخزينها.
تتطلب عملية ETL تعريفًا أكثر وضوحًا في البداية. يجب تحديد نقاط بيانات محددة لعملية الاستخراج بالإضافة إلى أي "مفاتيح" محتملة لدمج البيانات عبر أنظمة المصدر المختلفة. غالبًا ما يتم تتبع مصدر بيانات الإدخال باستخدام البيانات الوصفية. حتى بعد اكتمال هذا العمل، يجب إنشاء قواعد العمل لتحولات البيانات.
يمكن أن يعتمد هذا العمل عادةً على متطلبات البيانات لنوع معين من تحليل البيانات، والذي سيحدد مستوى التلخيص الذي تحتاج البيانات إليه.
بينما أصبحت مسارات ELT شائعة بشكل متزايد مع تبني قواعد البيانات السحابية، لا تزال تقنية ELT قيد التطوير، مما يعني أن أفضل الممارسات لا تزال قيد التأسيس.
أسهل طريقة لفهم كيفية عمل ETL هي فهم ما يحدث في كل خطوة من خطوات العملية.
أثناء استخراج البيانات، يتم نسخ البيانات غير المنسقة أو تصديرها من مواقع المصدر إلى منطقة التجميع. يمكن لفرق إدارة البيانات استخراج البيانات من مجموعة متنوعة من المصادر المختلفة، والتي يمكن أن تكون منظمة أو غير منظمة. تشمل أنواع البيانات هذه، على سبيل المثال لا الحصر:
في منطقة التجميع، تخضع البيانات غير المنسقة لمعالجة البيانات. هنا، يتم تحويل البيانات ودمجها لحالة الاستخدام التحليلي المقصودة. يمكن أن تشمل هذه المرحلة من عملية التحويل ما يلي:
في هذه الخطوة الأخيرة، يتم نقل البيانات المحولة من منطقة التجميع إلى مستودع البيانات المستهدف. عادةً، تتضمن هذه العملية تحميلاً أوليًا لجميع البيانات، يتبعه تحميل دوري لتغييرات البيانات المتزايدة، وبشكل أقل تكرارًا، تحديثات كاملة لمحو البيانات واستبدالها في المستودع.
بالنسبة لمعظم المؤسسات التي تستخدم ETL، تكون العملية مؤتمتة ومحددة جيدًا ومستمرة وتعتمد على الدفعات. عادةً ما تتم عملية تحميل ETL في غير ساعات العمل عندما تكون حركة المرور على أنظمة المصدر ومستودع البيانات في أدنى مستوياتها.
تُعدّ ETL و ELT مجرد طريقتين لتكامل البيانات، وهناك أساليب أخرى تُستخدم أيضًا لتسهيل مهام سير عمل تكامل البيانات. تتضمن بعض هذه الطرق ما يلي:
تحسّن حلول ETL جودة البيانات من خلال تنفيذ عملية تنقية البيانات قبل تحميلها إلى مستودع بيانات آخر. وباعتبارها عملية دفعات تستغرق وقتًا طويلاً، يُوصى باستخدام ETL غالبًا عند إنشاء مستودعات بيانات مستهدفة أصغر حجمًا لا تتطلب تحديثًا متكررًا.في المقابل، تُستخدم طرق أخرى لتكامل البيانات — بما في ذلك ELT (الاستخراج، التحميل، التحويل)، واكتشاف تغيّر البيانات (CDC)، والمحاكاة الافتراضية للبيانات — في دمج أحجام متزايدة من تدفقات البيانات المتغيرة أو في الوقت الفعلي.
في الماضي، كتبت المؤسسات رمز ETL الخاص بها. يوجد الآن العديد من أدوات ETL مفتوحة المصدر والتجارية والخدمات المستندة إلى السحابة للاختيار من بينها. تشمل القدرات النموذجية لهذه المنتجات:
بالإضافة إلى ذلك، تطورت العديد من أدوات ELT لتشمل إمكانية ELT ودعم تكامل البيانات في الوقت الفعلي والبيانات المتدفقة لتطبيقات الذكاء الاصطناعي (AI).
منطقة التجهيز هي موقع التخزين المؤقت بين مصادر البيانات والوجهة المستهدفة (مثل مستودع البيانات) يستخدم لتخزين البيانات غير منسقة مؤقتاً. يعمل كرصيف تحميل حيث يتم تنظيف البيانات غير المنسقة وفحصها وتحويلها قبل الانتقال إلى الوجهة المستهدفة.
الحمل الأولي هو استخراج البيانات التاريخية وتحميلها لأول مرة من مصدر البيانات إلى الوجهة المستهدفة. يتضمن مجموعة البيانات بأكملها ويتم إجراؤه مرة واحدة في بداية المشروع. الحمل التزايدي هو عملية تحميل البيانات الجديدة فقط أو المتغيرة أو المحذوفة منذ آخر تحميل. تعمل هذه العمليات على أساس مجدول.
هذا المصطلح غامض بعض الشيء ويستخدم بطريقتين مختلفتين. تشير الأبعاد المتغيرة ببطء إلى جداول الأبعاد في مستودع البيانات التي تتغير بشكل متقطع بمرور الوقت، وليس وفق جدول زمني ثابت. ومن الأمثلة الشائعة التي يتم الاستشهاد بها عنوان العميل. يُستخدم المصطلح أيضًا للإشارة إلى الأساليب والتقنيات المستخدمة للتعامل مع التغييرات في بيانات الأبعاد وتتبعها بمرور الوقت.
للتعامل مع البيانات المكررة، يجب على المؤسسات إنشاء عملية لتحديد البيانات المكررة ونوعها بشكل منهجي، وقواعد واضحة لإزالة أو دمج البيانات المكررة، وضوابط حماية لمنع الإدخالات المستقبلية.
إنشاء أنظمة تدفق البيانات الذكية وإدارتها من خلال واجهة رسومية سهلة الاستخدام، ما يسهِّل تكامل البيانات بسلاسة عبر البيئات الهجينة ومتعددة السحابة.
يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.
استفِد من قيمة بيانات المؤسسة مع IBM® Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.