ما المقصود بالتقاط تغييرات البيانات؟

امرأة تعمل على كمبيوتر محمول في مستودع.

المؤلفون

Alice Gomstyn

Staff Writer

IBM Think

Alexandra Jonker

Staff Editor

IBM Think

ما المقصود بالتقاط تغييرات البيانات؟

يُعَد التقاط تغييرات البيانات، أو CDC، تقنية لتحديد وتسجيل تغييرات البيانات في قاعدة البيانات. تعمل تقنية CDC على تقديم هذه التغييرات في الوقت الفعلي إلى أنظمة مستهدفة مختلفة، ما يُتيح مزامنة البيانات عبر المؤسسة فور حدوث تغيير في قاعدة البيانات.

 

تُعَد تقنية التقاط تغييرات البيانات (CDC) من طرق دمج البيانات في الوقت الفعلي، وتهدف إلى تجميع البيانات وتوحيدها حتى وإن كانت معزولة أو غير متسقة عبر المؤسسة. تشمل الطرق الأخرى دمج بيانات التدفق والمحاكاة الافتراضية للبيانات وتكامل التطبيقات.

تُعَد قدرة CDC على تحديث الأنظمة في الوقت الفعلي (وبزمن انتقال قصير) عاملًا أساسيًا في نجاح تحليلات البيانات في الوقت الفعلي، وعمليات الترحيل إلى السحابة، وحتى نماذج الذكاء الاصطناعي. ولها مجموعة متنوعة من حالات الاستخدام عبر مختلَف القطاعات، من البيع بالتجزئة إلى المالية والرعاية الصحية، حيث تساعد على الكشف عن الغش، وإدارة سلاسل التوريد، والامتثال التنظيمي.

هناك عدة أساليب لتنفيذ التقاط تغييرات البيانات، من أبرزها الأسلوب القائم على السجلات، والأسلوب القائم على الطابع الزمني، والأسلوب القائم على المشغِّلات. يمكن للمؤسسات تنفيذ التقاط تغييرات البيانات باستخدام أدوات مدمجة في قواعد البيانات، أو منصات مفتوحة المصدر، أو حلول من جهات خارجية.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

ما فوائد التقاط تغييرات البيانات؟

في إدارة البيانات الحديثة، برز التقاط تغييرات البيانات كآلية أساسية في هندسة البيانات. أصبحت بيئات بيانات المؤسسات اليوم كبيرة ومعقدة بشكل متزايد. قد تحتوي على بيانات من أجهزة إنترنت الأشياء، وقواعد البيانات الموزعة، والتطبيقات، وغيرها من المصادر المتنوعة. ويمثِّل الحفاظ على بيانات متسقة وعالية الجودة عبر النظام البنائي المتنامي هذا تحديًا مستمرًا.

في الوقت نفسه، تتطلب الشركة معلومات دقيقة وحديثة يمكن الاستفادة منها لصناعة القرار في الوقت الفعلي. ويُعَد التقاط تغييرات البيانات إحدى الطرق العديدة التي تساعد المؤسسات على تلبية هذا الطلب.

يُتيح التقاط تغييرات البيانات إنشاء مسار بيانات ذي زمن انتقال قصير يوفر بيانات حديثة بطريقة أكثر كفاءة وأقل استهلاكًا للموارد مقارنةً بأساليب تكامل البيانات الأخرى. على سبيل المثال، يستلزم تكرار البيانات نسخ مجموعات البيانات بأكملها. في المقابل، يُرسِل CDC فقط البيانات التي تم تغييرها، ما يقلِّل من الحمل على أنظمة المصدر وحركة مرور الشبكة ومتطلبات الطاقة الحاسوبية.

ويساعدهم على الوصول إلى أحدث المعلومات وأدقها بسرعة وكفاءة، ما يؤدي إلى العديد من الفوائد، منها:

صناعة القرار في الوقت الفعلي

يُتيح تدفق تغييرات البيانات في الوقت الفعلي إجراء تحليلات البيانات وذكاء الأعمال في الوقت الفعلي. باستخدام هذه القدرات، يمكن للشركات تلبية متطلبات بيئة الأعمال الحالية الحساسة للوقت والتي تعمل على مدار الساعة طوال الأسبوع.

الترحيل السحابي الناجح

أثناء عمليات ترحيل البيانات إلى السحابة، يقوم التقاط تغييرات البيانات (CDC) بتسليم التغييرات التي تطرأ على البيانات في البيئات المحلية بسرعة إلى الجداول السحابية ذات الصلة، ما يضمن التناسق بين البيئتين. تعمل هذه القدرة أيضًا على تقليل فترة التعطل أثناء الترحيل.

تحسين عملية ETL

تُعَد مسارات البيانات ETL (الاستخراج، والتحويل، والتحميل) جزءًا أساسيًا من تحليلات البيانات ومهام سير عمل التعلم الآلي. لكن تنفيذ ETL، الذي يعتمد على معالجة الدفعات، غالبًا ما يكون بطيئًا ويُجهد موارد النظام. يمكن أن يؤدي دمج CDC في ETL إلى تحسين استخدام الموارد وتسريع نقل البيانات.

أداء أفضل للذكاء الاصطناعي

يمكن أن يساعد تنفيذ التقاط تغييرات البيانات على ضمان تحديث بيانات مصدر النموذج، بحيث يمكن للنماذج اللغوية الكبيرة (LLMs) تقديم مخرجات دقيقة وفي الوقت المناسب. على سبيل المثال، في حالات استخدام التوليد المعزز بالاسترجاع (RAG)، تتصل نماذج الذكاء الاصطناعي بقواعد المعرفة الخارجية للحصول على استجابات أكثر صلة.

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

كيف يعمل التقاط تغييرات البيانات؟

يحدِّد التقاط تغييرات البيانات أحداث التغيير التي تحدث في مصادر البيانات المختلفة ويسجِّلها. يمكن أن تتضمن هذه المصادر قواعد البيانات العلائقية مثل Oracle وPostgreSQL وMySQL وMicrosoft Azure SQL وSQL Server من Microsoft، بالإضافة إلى قواعد البيانات غير العلائقية (NoSQL) مثل Apache Cassandra وMongoDB.

بعد تحديد التغييرات، يتم نقلها من قاعدة البيانات المصدر في الوقت الفعلي أو زمن شبه حقيقي إلى الأنظمة الوجهة. تُعَد مخازن البيانات مثل بحيرات البيانات ومستودعات البيانات، وتحليلات الوقت الفعلي ومنصات تدفق البيانات مثل Apache Kafka وApache Spark، بالإضافة إلى حلول ETL (الاستخراج، والتحويل، والتحميل) وELT (الاستخراج، والتحميل، والتحويل)، أمثلة على الأنظمة الوجهة.

قد يتم بدء التقاط تغييرات البيانات إما من قِبل الأنظمة الوجهة (وهو ما يُعرف بنهج "الدفع") وإما من قِبل الأنظمة المصدر (وهو نهج "السحب"). في الحالة الأولى، يقوم النظام المصدر "بدفع" أو إرسال التغييرات إلى الأنظمة الوجهة. في الحالة الأخرى، يقوم النظام الوجهة باستطلاع رأي الأنظمة المصدر بانتظام و"يسحب" التغييرات عند العثور عليها.

الطرق الشائعة لالتقاط تغييرات البيانات

هناك عدة طرق لتنفيذ التقاط تغييرات البيانات. ومن الأنواع الشائعة له ما يلي: 

  • التقاط تغييرات البيانات القائم على السجلات
  • التقاط تغييرات البيانات القائم على الطابع الزمني
  • التقاط تغييرات البيانات القائم على المشغِّلات

التقاط تغييرات البيانات القائم على السجلات

تُعَد سجلات معاملات قاعدة البيانات ميزة قياسية لقواعد البيانات وتُستخدَم لتسجيل جميع معاملات قاعدة البيانات. (يمكن استخدام ملفات سجل المعاملات لاستعادة قواعد البيانات في حالة فشل النظام).

في التقاط تغييرات البيانات القائم على السجلات، يُعالج التطبيق التغييرات التي تم تسجيلها في السجل ويشارك التحديثات مع الأنظمة الأخرى. أصبح التقاط تغييرات البيانات القائم على السجلات شائعًا بشكل متزايد، ويرجع ذلك جزئيًا إلى اعتماده على السجلات بدلًا من الاستعلامات التي قد تؤدي إلى تدهور أداء النظام المصدر. ومع ذلك، يمكن أن يؤدي الاختلاف في تنسيقات سجل المعاملات إلى تعقيد تنفيذه عبر قواعد البيانات المختلفة.

التقاط تغييرات البيانات القائم على الطابع الزمني

يتطلب التقاط تغييرات البيانات القائم على الطابع الزمني، والمعروف أيضًا باسم التقاط تغييرات البيانات القائم على الاستعلامات، أن تتضمن مخططات جداول قاعدة البيانات أعمدة مثل أعمدة الطابع الزمني لتسجيل تاريخ ووقت تغيُّر السجلات. يمكن استخدام أداة CDC لتحديد السجلات التي تم تغييرها من خلال عمود الطابع الزمني في الجدول المصدر ثم تقديم التحديثات إلى الأنظمة الوجهة.

رغم أن التقاط تغييرات البيانات القائم على الطابع الزمني سهل التنفيذ، إلا إنه قد يفرض عبئًا إضافيًا على النظام عند تكرار الاستعلام عن بيانات الطابع الزمني بشكل متكرر. يفشل التقاط تغييرات البيانات القائم على الطابع الزمني أيضًا في التقاط عمليات الحذف عند حذف الطابع الزمني مع بقية الصف.

التقاط تغييرات البيانات القائم على المشغِّلات

في التقاط تغييرات البيانات القائم على المشغِّلات، يتم تنفيذ الإجراءات أو الوظائف المخزَّنة المعروفة باسم مشغِّلات قاعدة البيانات بمجرد حدوث تعديلات محددة (مثل الإدراج والحذف والتحديث) في قاعدة البيانات. ثم يتم تخزين البيانات التي تم تغييرها في ما يُعرَف غالبًا بجدول التغيير أو الجدول الظلي.

مثل التقاط تغييرات البيانات القائم على الطابع الزمني، يمكن أن يكون التقاط تغييرات البيانات القائم على المشغِّلات سهل التنفيذ. ومع ذلك، يمكنه أيضًا أن يكون عبئًا على الأنظمة المصدر؛ لأن المشغِّلات "يتم تنفيذها" في كل مرة تحدث فيها معاملة في الجدول المصدر.

أدوات التقاط تغييرات البيانات

قد تكون الأدوات التي تنفِّذ التقاط تغييرات البيانات مدمجة ضمن بيئات وأنظمة قواعد بيانات معينة، مثل AWS Database Migration Service، أو قابلة للتطبيق على نطاق أوسع. تشمل حلول برامج التقاط تغييرات البيانات غير الأصلية منصات مفتوحة المصدر مثل Debezium ومنصات تجارية مثل IBM Streamsets وOracle GoldenGate.

عندما تفكِّر الشركات في اختيار الحل المناسب، قد تأخذ في الاعتبار عوامل مثل التسعير، والموصِّلات إلى الأنظمة المصدر والوجهة، وواجهات برمجة التطبيقات (APIs) الخاصة بتكامل الأنظمة.

حالات استخدام التقاط تغييرات البيانات

يمكن للشركات نشر التقاط تغييرات البيانات في مجموعة متنوعة من الاستخدامات، بما في ذلك:

الكشف عن الغش

يساعد التتبُّع المستمر للتغييرات في السجلات المالية باستخدام تقنية التقاط تغييرات البيانات على كشف الأنشطة الاحتيالية قبل أن تؤدي إلى خسائر كبيرة.

تمكين إنترنت الأشياء (IOT)

تستطيع تقنية التقاط تغييرات البيانات دمج كميات هائلة من البيانات التي يتم توليدها من أجهزة إنترنت الأشياء (IOT) في الوقت الفعلي بكفاءة، ما يُتيح الصيانة التنبؤية والمراقبة في الوقت الفعلي.

إدارة المخزون وسلسلة التوريد

يمكن أن يساعد الوصول إلى معلومات المبيعات والمخزون وسلسلة التوريد في الوقت الفعلي، بدعم من تقنية التقاط تغييرات البيانات، الشركات على تجنُّب نفاد المخزون واتخاذ قرارات تسعير مربحة.

الامتثال التنظيمي

ويمكن أن يساعد الشركات شديدة التنظيم أيضًا على الاحتفاظ بسجلات دقيقة ضرورية لإعداد التقارير والامتثال للوائح والقوانين مثل اللائحة العامة لحماية البيانات وقانون Sarbanes-Oxley (SOX) وقانون نقل التأمين الصحي والمساءلة (HIPAA) في الولايات المتحدة.

حلول ذات صلة
منصة IBM StreamSets

إنشاء أنظمة تدفق البيانات الذكية وإدارتها من خلال واجهة رسومية سهلة الاستخدام، ما يسهِّل تكامل البيانات بسلاسة عبر البيئات الهجينة ومتعددة السحابة.

استكشف StreamSets
IBM Databand

اكتشف IBM Databand، وهو برنامج متخصص في مراقبة مسارات البيانات. يجمع البيانات الوصفية تلقائيًا لبناء خطوط أساسية تاريخية، واكتشاف حالات الخلل، وإنشاء عمليات سير عمل لمعالجة مشكلات جودة البيانات.

استكشف ®Databand
حلول تكامل البيانات

أنشئ مسارات بيانات مرنة وعالية الأداء ومحسَّنة من حيث التكلفة لمبادرات الذكاء الاصطناعي التوليدي، والتحليلات في الوقت الفعلي، وتحديث مستودعات البيانات، وتلبية احتياجات التشغيل باستخدام حلول تكامل البيانات من IBM.

اكتشف حلول تكامل البيانات
اتخِذ الخطوة التالية

اكتشف IBM DataStage، أداة الاستخراج والتحويل والتحميل (ETL) التي توفر واجهة مرئية لتصميم مسارات البيانات وتطويرها ونشرها. وهي متوفرة على هيئة برمجيات كخدمة (SaaS) مُدارة على IBM Cloud، للاستضافة الذاتية، وكمكون إضافي على IBM Cloud Pak for Data.

استكشف DataStage استكشف خدمات التحليلات