ما المقصود بالتقاط تغييرات البيانات؟

تحديد عملية رصد بيانات التغيير

تُستخدم تقنية رصد تغييرات البيانات (CDC) لاكتشاف التغييرات التي تطرأ على البيانات داخل قاعدة البيانات وتسجيلها، ثم تمريرها إلى الأنظمة اللاحقة. وتتيح تقنية CDC مزامنة البيانات ونسخها ومعالجتها بين الأنظمة استنادًا إلى الأحداث، سواء في زمن شبه حقيقي أو في الوقت الفعلي، بعد وقوع التغييرات داخل قاعدة البيانات.

وتُعد تقنية رصد تغييرات البيانات أحد أساليب تكامل البيانات في الوقت الفعلي، إذ تساعد على جمع البيانات ومواءمتها بدلًا من بقائها معزولة أو غير متسقة على مستوى المؤسسة. ومن أساليب تكامل البيانات الأخرى تكامل البيانات المتدفقة، والمحاكاة الافتراضية للبيانات، وتكامل التطبيقات.

وتؤدي قدرة CDC على إبقاء العمليات والأنظمة اللاحقة محدّثة بزمن انتقال قصير، سواء في زمن شبه حقيقي أو في الوقت الفعلي، دورًا محوريًا في نجاح تحليلات البيانات في الوقت الفعلي، وعمليات الترحيل إلى السحابة، ونماذج الذكاء الاصطناعي (AI). وتدعم هذه التقنية مجموعة متنوعة من حالات الاستخدام عبر قطاعات مختلفة، منها الكشف عن الغش، وإدارة سلسلة التوريد، والامتثال للوائح التنظيمية في مجالات مثل البيع بالتجزئة والقطاع المالي والرعاية الصحية.

هناك عدة أساليب لرصد تغييرات البيانات، من أبرزها الأسلوب القائم على السجلات، والأسلوب القائم على الطابع الزمني، والأسلوب القائم على المشغِّلات. يمكن للمؤسسات تنفيذ التقاط تغييرات البيانات باستخدام أدوات مدمجة في قواعد البيانات، أو منصات مفتوحة المصدر، أو حلول من جهات خارجية.

ما فوائد التقاط تغييرات البيانات؟

في مجال إدارة البيانات الحديثة، أصبحت تقنية رصد تغييرات البيانات آلية أساسية في هندسة البيانات. وتتسم بيئات بيانات المؤسسات اليوم بتزايد حجمها وتعقيدها. وقد تضم بيانات صادرة من أجهزة إنترنت الأشياء (IoT)، وقواعد بيانات موزعة، وتطبيقات، وغيرها من المصادر المتنوعة. ومع اتساع منظومة البيانات هذه، يصبح الحفاظ على بيانات متسقة وعالية الجودة تحديًا مستمرًا.

في الوقت نفسه، تتطلب الشركة معلومات دقيقة وحديثة يمكن الاستفادة منها لصناعة القرار في الوقت الفعلي. ويُعَد التقاط تغييرات البيانات إحدى الطرق العديدة التي تساعد المؤسسات على تلبية هذا الطلب.

تتيح تقنية رصد تغييرات البيانات إنشاء مسار بيانات بزمن انتقال قصير يوفّر بيانات محدّثة بكفاءة أعلى واستهلاك أقل للموارد مقارنة بأساليب تكامل البيانات الأخرى. فعلى سبيل المثال، يتطلب نسخ البيانات تكرار مجموعات البيانات كاملة، بينما ترسل تقنية CDC البيانات التي تغيّرت فقط، مما يقلل العبء على أنظمة المصدر وحركة البيانات عبر الشبكة ومتطلبات موارد الحوسبة.

ويساعدهم على الوصول إلى أحدث المعلومات وأدقها بسرعة وكفاءة، ما يؤدي إلى العديد من الفوائد، منها:

  • اتخاذ القرارات بشكل أسرع
  • عمليات ترحيل دون توقف
  • تحسين عملية الاستخراج والتحويل والتحميل (ETL)
  • تحسين أداء الذكاء الاصطناعي

اتخاذ القرارات بشكل أسرع

تساعد تقنية CDC المؤسسات على بث البيانات التشغيلية إلى منصات تحليلات البيانات ولوحات المعلومات في الوقت الفعلي، بما يدعم إعداد تقارير أحدث وأكثر دقة، واستخلاص رؤى أعمال أفضل، وتعزيز صناعة القرار. وبفضل هذه القدرات، تستطيع الشركات تلبية متطلبات بيئة الأعمال الحالية التي تعمل على مدار الساعة وتتطلب استجابة سريعة.

عمليات ترحيل دون توقف

تدعم المزامنة المستمرة بين مصادر البيانات والأنظمة المستهدفة ترحيل البيانات بين قواعد البيانات أو البيئات السحابية أو التطبيقات بأقل قدر من التعطّل أو الانقطاع. فعلى سبيل المثال، أثناء عمليات الترحيل إلى السحابة، تنقل تقنية CDC بسرعة تغييرات البيانات التي تحدث محليًا إلى جداول البيانات السحابية ذات الصلة، مما يضمن الاتساق بين البيئتين.

تحسين عملية ETL

تُعَد مسارات البيانات ETL (الاستخراج، والتحويل، والتحميل) جزءًا أساسيًا من تحليلات البيانات ومهام سير عمل التعلم الآلي. لكن تنفيذ ETL، الذي يعتمد على معالجة الدفعات، غالبًا ما يكون بطيئًا ويُجهد موارد النظام. يمكن أن يؤدي دمج CDC في ETL إلى تحسين استخدام الموارد وتسريع نقل البيانات.

أداء أفضل للذكاء الاصطناعي

يمكن أن يساعد تنفيذ التقاط تغييرات البيانات على ضمان تحديث بيانات مصدر النموذج، بحيث يمكن للنماذج اللغوية الكبيرة (LLMs) تقديم مخرجات دقيقة وفي الوقت المناسب. على سبيل المثال، في حالات استخدام التوليد المعزز بالاسترجاع (RAG)، تتصل نماذج الذكاء الاصطناعي بقواعد المعرفة الخارجية للحصول على استجابات أكثر صلة.

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

كيف يعمل التقاط تغييرات البيانات؟

ترصد تقنية رصد تغييرات البيانات عمليات الإدراج والتحديث والحذف التي تحدث في أنظمة بيانات المصدر وتوثّقها. وقد تشمل هذه المصادر قواعد بيانات علائقية مثل Oracle Database وPostgreSQL وMySQL وMicrosoft SQL Server وAzure SQL Database، إلى جانب قواعد بيانات غير علائقية (NoSQL) مثل Apache Cassandra وMongoDB.

تستخدم أنظمة CDC الحديثة غالبًا أسلوب CDC المعتمد على السجلات، حيث تقرأ الأدوات سجلات معاملات قواعد البيانات، وهي ملفات توثّق تغييرات البيانات داخل قاعدة البيانات، من أجل تحديد التغييرات التي حدثت. يرتبط كل حدث تغيير داخل سجل المعاملات بموضع محدد ومتسلسل في السجل، مثل رقم تسلسل السجل (LSN). وتساعد هذه المواضع أنظمة CDC على تحديد وقت حدوث التعديلات بدقة.

وبعد رصد التغييرات وتسجيلها، تُمرَّر إلى الأنظمة اللاحقة في الوقت الفعلي أو في زمن شبه حقيقي، مثل بحيرات البيانات، ومستودعات البيانات، ومنصات البيانات المتدفقة مثل Apache Kafka، ومحركات معالجة تدفق البيانات مثل Apache Spark، ومسارات الاستخراج والتحويل والتحميل (ETL) أو الاستخراج والتحميل والتحويل (ELT).

نهجا CDC: الدفع مقابل السحب

يمكن بدء رصد تغييرات البيانات إما من النظام المصدر، وفق نهج قائم على الدفع، أو من النظام المستهدف، وفق نهج قائم على السحب. ويكمن الفرق الأساسي في النظام المسؤول عن رصد التغييرات وإرسالها.

CDC القائم على الدفع

في نموذج CDC القائم على الدفع، يرصد النظام المصدر التغييرات ويرسلها فورًا إلى الأنظمة المستهدفة. ويُطبَّق هذا النهج عادةً باستخدام سجلات معاملات قواعد البيانات، أو تدفقات الأحداث، أو وسطاء الرسائل مثل Apache Kafka.

ونظرًا إلى أن التغييرات تُرسل فور حدوثها، فإن نموذج CDC القائم على الدفع يدعم عادةً حالات الاستخدام التي تتطلب نقل البيانات في الوقت الفعلي أو في زمن شبه حقيقي، مثل التحليلات المتدفقة، والبنى القائمة على الأحداث، وأنظمة الذكاء الاصطناعي والتعلم الآلي.

CDC القائم على السحب

أما في نموذج CDC القائم على السحب، فيفحص النظام المستهدف أنظمة المصدر بانتظام ويستجلب التغييرات عند العثور عليها. ويمكن أن يتم هذا الفحص وفق جدول زمني ثابت، مما يجعل نموذج CDC القائم على السحب مناسبًا لأحمال التشغيل المعتمدة على الدُفعات أو للأنظمة التي لا تحتاج إلى تحديثات فورية.

ورغم أن هذا النهج أبسط ويتطلب بنية تحتية أقل تعقيدًا من نموذج CDC القائم على الدفع، فقد يؤدي إلى زيادة زمن الانتقال ورفع أحمال الاستعلام على قواعد بيانات المصدر، مما قد يؤثر في أداء قاعدة البيانات. وتدعم كثير من منصات البيانات الحديثة النهجين معًا، بحسب احتياجات البيانات والمتطلبات التشغيلية.

الطرق الشائعة لالتقاط تغييرات البيانات

هناك عدة طرق لتنفيذ التقاط تغييرات البيانات. ومن الأنواع الشائعة له ما يلي: 

  • التقاط تغييرات البيانات القائم على السجلات
  • التقاط تغييرات البيانات القائم على الطابع الزمني
  • التقاط تغييرات البيانات القائم على المشغِّلات

التقاط تغييرات البيانات القائم على السجلات

تُعَد سجلات معاملات قاعدة البيانات ميزة قياسية لقواعد البيانات وتُستخدَم لتسجيل جميع معاملات قاعدة البيانات. (يمكن استخدام ملفات سجل المعاملات لاستعادة قواعد البيانات في حالة فشل النظام).

في نموذج CDC المعتمد على السجلات، يعالج تطبيق CDC تغييرات قاعدة البيانات المسجلة في السجل، سواء تعلقت بالبيانات أو البيانات الوصفية، ثم يشارك هذه التحديثات مع أنظمة أخرى. تزداد شعبية آلية CDC المعتمدة على السجلات بفضل كفاءتها؛ فهي تعتمد على سجلات المعاملات بدلًا من الاستعلامات التي قد تفرض أحمالًا كبيرة على أنظمة المصدر. لكن اختلاف تنسيقات سجلات المعاملات قد يجعل تنفيذ هذا النهج أكثر تعقيدًا عبر قواعد البيانات المختلفة.

التقاط تغييرات البيانات القائم على الطابع الزمني

يتطلب التقاط تغييرات البيانات القائم على الطابع الزمني، والمعروف أيضًا باسم التقاط تغييرات البيانات القائم على الاستعلامات، أن تتضمن مخططات جداول قاعدة البيانات أعمدة مثل أعمدة الطابع الزمني لتسجيل تاريخ ووقت تغيُّر السجلات. يمكن استخدام أداة CDC لتحديد السجلات التي تم تغييرها من خلال عمود الطابع الزمني في الجدول المصدر ثم تقديم التحديثات إلى الأنظمة الوجهة.

ورغم أن آلية CDC المعتمدة على حقول التاريخ والوقت قد تكون سهلة التنفيذ، فإنها قد تفرض أعباء إضافية على النظام عند تكرار فحص هذه الحقول بوتيرة عالية. كما أن هذا النهج لا يرصد عمليات الحذف إذا حُذف حقل التاريخ والوقت مع بقية الصف.

التقاط تغييرات البيانات القائم على المشغِّلات

في التقاط تغييرات البيانات القائم على المشغِّلات، يتم تنفيذ الإجراءات أو الوظائف المخزَّنة المعروفة باسم مشغِّلات قاعدة البيانات بمجرد حدوث تعديلات محددة (مثل الإدراج والحذف والتحديث) في قاعدة البيانات. ثم يتم تخزين البيانات التي تم تغييرها في ما يُعرَف غالبًا بجدول التغيير أو الجدول الظلي.

مثل التقاط تغييرات البيانات القائم على الطابع الزمني، يمكن أن يكون التقاط تغييرات البيانات القائم على المشغِّلات سهل التنفيذ. ومع ذلك، يمكنه أيضًا أن يكون عبئًا على الأنظمة المصدر؛ لأن المشغِّلات "يتم تنفيذها" في كل مرة تحدث فيها معاملة في الجدول المصدر.

مصادر CDC ووجهاته الشائعة

ولإيضاح الصورة الكاملة لآلية CDC، نستعرض فيما يلي بعض مصادرها ووجهاتها الشائعة.

مصادر CDC هي الأنظمة التي تنشأ منها البيانات، مثل:

وجهات CDC هي الأنظمة التي تُبث البيانات إليها أو تُنسخ فيها، مثل:

  • منصات بث البيانات (Apache Kafka وAmazon Kinesis وGoogle Cloud Pub/Sub)

  • مستودعات البيانات ومستودعات بحيرات البيانات (Snowflake وAmazon Redshift وGoogle BigQuery)

  • تخزين الكائنات السحابي (AWS S3 وAzure Blob Storage وGoogle Cloud Storage)

يتطلب ربط المصادر بالوجهات عادةً استخدام أدوات CDC وموصلات ومنصات لتكامل البيانات.

ETL وCDC: أبرز أوجه الاختلاف

يُعد كل من الاستخراج والتحويل والتحميل (ETL) ورصد تغييرات البيانات من أساليب تكامل البيانات واسعة الاستخدام، لكن كلًا منهما مصمم لغرض مختلف.

فيما يلي أبرز الفروق بين ETL وCDC:

  • حركة البيانات: تستوعب مسارات ETL عادةً مجموعات بيانات كاملة أو دفعات كبيرة من البيانات. أما CDC فيرصد التغييرات فقط ويرسلها.

  • سرعة المعالجة وزمن الانتقال: يعمل ETL غالبًا بأسلوب قائم على الدُفعات وفق جداول زمنية محددة. أما CDC فمصمم لنقل البيانات بزمن انتقال قصير ودعم المزامنة المستمرة.

  • حالات الاستخدام الأساسية: يُستخدم ETL غالبًا في ذكاء الأعمال وإعداد التقارير التاريخية والتعلم الآلي. أما CDC فيُستخدم عادةً في التحليلات في الوقت الفعلي، والكشف عن الغش، والبنى القائمة على الأحداث.

  • تحويل البيانات: تعمل مسارات ETL على تنقية البيانات وتحويلها قبل تحميلها. أما أنظمة CDC فتكتفي برصد التغييرات ونسخها دون إجراء معالجة إضافية.

  • الأثر في النظام: تفرض عمليات ETL التقليدية عبئًا أكبر على أنظمة المصدر بسبب أحمال التشغيل المتكررة القائمة على الدُفعات. أما CDC فيقلل هذا العبء من خلال إرسال التغييرات فقط.

تستخدم المؤسسات اليوم ETL وCDC على نطاق واسع، وغالبًا ما تجمع بينهما. فعلى سبيل المثال، يكمّل CDC مسارات ETL من خلال إرسال التحديثات التدريجية بعد تحميل البيانات الأولي. ويساعد ذلك على إبقاء مجموعات البيانات محدّثة في الوقت الفعلي مع حدوث التغييرات في أنظمة المصدر، دون الحاجة إلى انتظار تشغيل مهمة ETL التالية.

SCD وCDC: ما الفرق بينهما؟

يعمل CDC مع الأبعاد بطيئة التغير (SCDs) للحفاظ على دقة الأنظمة المستهدفة وتحديثها باستمرار.

فبينما يرصد CDC التغييرات من أنظمة المصدر ويرسلها، تحدد الأبعاد بطيئة التغير (SCDs) كيفية إدارة هذه التغييرات وتخزينها داخل جداول الأبعاد في مستودع البيانات.

وفي هذا السياق، تشير بيانات الأبعاد عادةً إلى جداول الأبعاد في مستودعات البيانات، وهي الجداول التي تخزّن سمات وصفية مثل عناوين العملاء أو أرقام هواتفهم.

هناك نوعان شائعان من الأبعاد بطيئة التغير (SCDs): النوع 1 والنوع 2.

الأبعاد بطيئة التغير من النوع 1: استبدال البيانات الموجودة في جدول الأبعاد ببيانات جديدة دون الاحتفاظ بالسجل التاريخي

الأبعاد بطيئة التغير من النوع 2: إضافة صف جديد إلى جدول الأبعاد مع الاحتفاظ بالسجل الكامل للتغييرات بمرور الوقت

أدوات التقاط تغييرات البيانات

ترصد أدوات رصد تغييرات البيانات (CDC) التغييرات التي تحدث في قواعد البيانات وتمررها في الوقت الفعلي، مما يساعد المؤسسات على دعم تكامل البيانات الحديث، والتحليلات، والبنى القائمة على الأحداث.

قد تكون إمكانات CDC مدمجة أصلاً في بيئات معينة لقواعد البيانات، مثل AWS Database Migration Service (DMS)، أو قد تُطبَّق على نطاق أوسع. تشمل حلول CDC الشائعة أدوات مفتوحة المصدر مثل Debezium، ومنصات تجارية مثل IBM StreamSets وOracle GoldenGate.

تستخدم كثير من المؤسسات Apache Kafka بوصفه أساسًا لمسارات CDC. يمكن للبنى المعتمدة على Kafka في CDC رصد تغييرات قواعد البيانات، وتمريرها عبر موضوعات Kafka، ثم إيصالها إلى التطبيقات اللاحقة ومستودعات البيانات ومنصات التحليلات وأنظمة الذكاء الاصطناعي.

عند تقييم أدوات CDC، غالبًا ما تراعي المؤسسات ما يلي:

  • قابلية التوسع
  • التسعير
  • زمن الانتقال
  • دعم الموصلات
  • التكامل مع Kafka
  • الموثوقية
  • مرونة النشر
  • دعم واجهة برمجة التطبيقات

حالات استخدام التقاط تغييرات البيانات

يمكن للشركات نشر التقاط تغييرات البيانات في مجموعة متنوعة من الاستخدامات، بما في ذلك:

الكشف عن الغش

يساعد التتبُّع المستمر للتغييرات في السجلات المالية باستخدام تقنية التقاط تغييرات البيانات على كشف الأنشطة الاحتيالية قبل أن تؤدي إلى خسائر كبيرة.

تمكين إنترنت الأشياء (IOT)

تستطيع تقنية التقاط تغييرات البيانات دمج كميات هائلة من البيانات التي يتم توليدها من أجهزة إنترنت الأشياء (IOT) في الوقت الفعلي بكفاءة، ما يُتيح الصيانة التنبؤية والمراقبة في الوقت الفعلي.

إدارة المخزون وسلسلة التوريد

يمكن أن يساعد الوصول إلى معلومات المبيعات والمخزون وسلسلة التوريد في الوقت الفعلي، بدعم من تقنية التقاط تغييرات البيانات، الشركات على تجنُّب نفاد المخزون واتخاذ قرارات تسعير مربحة.

الامتثال التنظيمي

ويمكن أن يساعد الشركات شديدة التنظيم أيضًا على الاحتفاظ بسجلات دقيقة ضرورية لإعداد التقارير والامتثال للوائح والقوانين مثل اللائحة العامة لحماية البيانات وقانون Sarbanes-Oxley (SOX) وقانون نقل التأمين الصحي والمساءلة (HIPAA) في الولايات المتحدة.

المؤلفون

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

حلول ذات صلة
برمجيات وحلول إدارة البيانات

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

استكشف حلول إدارة البيانات
IBM watsonx.data

يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.

اكتشف watsonx.data
خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة باستخدام IBM Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.

اكتشف خدمات التحليلات
اتخِذ الخطوة التالية

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

  1. استكشف حلول إدارة البيانات
  2. اكتشف watsonx.data