أحدث الأخبار التقنية، مدعومة برؤى خبراء
ابقَ على اطلاع دائم على أبرز الاتجاهات في مجالات الذكاء الاصطناعي، والأتمتة، والبيانات، وغيرها الكثير من خلال رسالة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.
تُستخدم تقنية رصد تغييرات البيانات (CDC) لاكتشاف التغييرات التي تطرأ على البيانات داخل قاعدة البيانات وتسجيلها، ثم تمريرها إلى الأنظمة اللاحقة. وتتيح تقنية CDC مزامنة البيانات ونسخها ومعالجتها بين الأنظمة استنادًا إلى الأحداث، سواء في زمن شبه حقيقي أو في الوقت الفعلي، بعد وقوع التغييرات داخل قاعدة البيانات.
وتُعد تقنية رصد تغييرات البيانات أحد أساليب تكامل البيانات في الوقت الفعلي، إذ تساعد على جمع البيانات ومواءمتها بدلًا من بقائها معزولة أو غير متسقة على مستوى المؤسسة. ومن أساليب تكامل البيانات الأخرى تكامل البيانات المتدفقة، والمحاكاة الافتراضية للبيانات، وتكامل التطبيقات.
وتؤدي قدرة CDC على إبقاء العمليات والأنظمة اللاحقة محدّثة بزمن انتقال قصير، سواء في زمن شبه حقيقي أو في الوقت الفعلي، دورًا محوريًا في نجاح تحليلات البيانات في الوقت الفعلي، وعمليات الترحيل إلى السحابة، ونماذج الذكاء الاصطناعي (AI). وتدعم هذه التقنية مجموعة متنوعة من حالات الاستخدام عبر قطاعات مختلفة، منها الكشف عن الغش، وإدارة سلسلة التوريد، والامتثال للوائح التنظيمية في مجالات مثل البيع بالتجزئة والقطاع المالي والرعاية الصحية.
هناك عدة أساليب لرصد تغييرات البيانات، من أبرزها الأسلوب القائم على السجلات، والأسلوب القائم على الطابع الزمني، والأسلوب القائم على المشغِّلات. يمكن للمؤسسات تنفيذ التقاط تغييرات البيانات باستخدام أدوات مدمجة في قواعد البيانات، أو منصات مفتوحة المصدر، أو حلول من جهات خارجية.
ابقَ على اطلاع دائم على أبرز الاتجاهات في مجالات الذكاء الاصطناعي، والأتمتة، والبيانات، وغيرها الكثير من خلال رسالة Think الإخبارية. راجع بيان الخصوصية لشركة IBM.
في مجال إدارة البيانات الحديثة، أصبحت تقنية رصد تغييرات البيانات آلية أساسية في هندسة البيانات. وتتسم بيئات بيانات المؤسسات اليوم بتزايد حجمها وتعقيدها. وقد تضم بيانات صادرة من أجهزة إنترنت الأشياء (IoT)، وقواعد بيانات موزعة، وتطبيقات، وغيرها من المصادر المتنوعة. ومع اتساع منظومة البيانات هذه، يصبح الحفاظ على بيانات متسقة وعالية الجودة تحديًا مستمرًا.
في الوقت نفسه، تتطلب الشركة معلومات دقيقة وحديثة يمكن الاستفادة منها لصناعة القرار في الوقت الفعلي. ويُعَد التقاط تغييرات البيانات إحدى الطرق العديدة التي تساعد المؤسسات على تلبية هذا الطلب.
تتيح تقنية رصد تغييرات البيانات إنشاء مسار بيانات بزمن انتقال قصير يوفّر بيانات محدّثة بكفاءة أعلى واستهلاك أقل للموارد مقارنة بأساليب تكامل البيانات الأخرى. فعلى سبيل المثال، يتطلب نسخ البيانات تكرار مجموعات البيانات كاملة، بينما ترسل تقنية CDC البيانات التي تغيّرت فقط، مما يقلل العبء على أنظمة المصدر وحركة البيانات عبر الشبكة ومتطلبات موارد الحوسبة.
ويساعدهم على الوصول إلى أحدث المعلومات وأدقها بسرعة وكفاءة، ما يؤدي إلى العديد من الفوائد، منها:
تساعد تقنية CDC المؤسسات على بث البيانات التشغيلية إلى منصات تحليلات البيانات ولوحات المعلومات في الوقت الفعلي، بما يدعم إعداد تقارير أحدث وأكثر دقة، واستخلاص رؤى أعمال أفضل، وتعزيز صناعة القرار. وبفضل هذه القدرات، تستطيع الشركات تلبية متطلبات بيئة الأعمال الحالية التي تعمل على مدار الساعة وتتطلب استجابة سريعة.
تدعم المزامنة المستمرة بين مصادر البيانات والأنظمة المستهدفة ترحيل البيانات بين قواعد البيانات أو البيئات السحابية أو التطبيقات بأقل قدر من التعطّل أو الانقطاع. فعلى سبيل المثال، أثناء عمليات الترحيل إلى السحابة، تنقل تقنية CDC بسرعة تغييرات البيانات التي تحدث محليًا إلى جداول البيانات السحابية ذات الصلة، مما يضمن الاتساق بين البيئتين.
تُعَد مسارات البيانات ETL (الاستخراج، والتحويل، والتحميل) جزءًا أساسيًا من تحليلات البيانات ومهام سير عمل التعلم الآلي. لكن تنفيذ ETL، الذي يعتمد على معالجة الدفعات، غالبًا ما يكون بطيئًا ويُجهد موارد النظام. يمكن أن يؤدي دمج CDC في ETL إلى تحسين استخدام الموارد وتسريع نقل البيانات.
يمكن أن يساعد تنفيذ التقاط تغييرات البيانات على ضمان تحديث بيانات مصدر النموذج، بحيث يمكن للنماذج اللغوية الكبيرة (LLMs) تقديم مخرجات دقيقة وفي الوقت المناسب. على سبيل المثال، في حالات استخدام التوليد المعزز بالاسترجاع (RAG)، تتصل نماذج الذكاء الاصطناعي بقواعد المعرفة الخارجية للحصول على استجابات أكثر صلة.
ترصد تقنية رصد تغييرات البيانات عمليات الإدراج والتحديث والحذف التي تحدث في أنظمة بيانات المصدر وتوثّقها. وقد تشمل هذه المصادر قواعد بيانات علائقية مثل Oracle Database وPostgreSQL وMySQL وMicrosoft SQL Server وAzure SQL Database، إلى جانب قواعد بيانات غير علائقية (NoSQL) مثل Apache Cassandra وMongoDB.
تستخدم أنظمة CDC الحديثة غالبًا أسلوب CDC المعتمد على السجلات، حيث تقرأ الأدوات سجلات معاملات قواعد البيانات، وهي ملفات توثّق تغييرات البيانات داخل قاعدة البيانات، من أجل تحديد التغييرات التي حدثت. يرتبط كل حدث تغيير داخل سجل المعاملات بموضع محدد ومتسلسل في السجل، مثل رقم تسلسل السجل (LSN). وتساعد هذه المواضع أنظمة CDC على تحديد وقت حدوث التعديلات بدقة.
وبعد رصد التغييرات وتسجيلها، تُمرَّر إلى الأنظمة اللاحقة في الوقت الفعلي أو في زمن شبه حقيقي، مثل بحيرات البيانات، ومستودعات البيانات، ومنصات البيانات المتدفقة مثل Apache Kafka، ومحركات معالجة تدفق البيانات مثل Apache Spark، ومسارات الاستخراج والتحويل والتحميل (ETL) أو الاستخراج والتحميل والتحويل (ELT).
يمكن بدء رصد تغييرات البيانات إما من النظام المصدر، وفق نهج قائم على الدفع، أو من النظام المستهدف، وفق نهج قائم على السحب. ويكمن الفرق الأساسي في النظام المسؤول عن رصد التغييرات وإرسالها.
في نموذج CDC القائم على الدفع، يرصد النظام المصدر التغييرات ويرسلها فورًا إلى الأنظمة المستهدفة. ويُطبَّق هذا النهج عادةً باستخدام سجلات معاملات قواعد البيانات، أو تدفقات الأحداث، أو وسطاء الرسائل مثل Apache Kafka.
ونظرًا إلى أن التغييرات تُرسل فور حدوثها، فإن نموذج CDC القائم على الدفع يدعم عادةً حالات الاستخدام التي تتطلب نقل البيانات في الوقت الفعلي أو في زمن شبه حقيقي، مثل التحليلات المتدفقة، والبنى القائمة على الأحداث، وأنظمة الذكاء الاصطناعي والتعلم الآلي.
أما في نموذج CDC القائم على السحب، فيفحص النظام المستهدف أنظمة المصدر بانتظام ويستجلب التغييرات عند العثور عليها. ويمكن أن يتم هذا الفحص وفق جدول زمني ثابت، مما يجعل نموذج CDC القائم على السحب مناسبًا لأحمال التشغيل المعتمدة على الدُفعات أو للأنظمة التي لا تحتاج إلى تحديثات فورية.
ورغم أن هذا النهج أبسط ويتطلب بنية تحتية أقل تعقيدًا من نموذج CDC القائم على الدفع، فقد يؤدي إلى زيادة زمن الانتقال ورفع أحمال الاستعلام على قواعد بيانات المصدر، مما قد يؤثر في أداء قاعدة البيانات. وتدعم كثير من منصات البيانات الحديثة النهجين معًا، بحسب احتياجات البيانات والمتطلبات التشغيلية.
هناك عدة طرق لتنفيذ التقاط تغييرات البيانات. ومن الأنواع الشائعة له ما يلي:
تُعَد سجلات معاملات قاعدة البيانات ميزة قياسية لقواعد البيانات وتُستخدَم لتسجيل جميع معاملات قاعدة البيانات. (يمكن استخدام ملفات سجل المعاملات لاستعادة قواعد البيانات في حالة فشل النظام).
في نموذج CDC المعتمد على السجلات، يعالج تطبيق CDC تغييرات قاعدة البيانات المسجلة في السجل، سواء تعلقت بالبيانات أو البيانات الوصفية، ثم يشارك هذه التحديثات مع أنظمة أخرى. تزداد شعبية آلية CDC المعتمدة على السجلات بفضل كفاءتها؛ فهي تعتمد على سجلات المعاملات بدلًا من الاستعلامات التي قد تفرض أحمالًا كبيرة على أنظمة المصدر. لكن اختلاف تنسيقات سجلات المعاملات قد يجعل تنفيذ هذا النهج أكثر تعقيدًا عبر قواعد البيانات المختلفة.
يتطلب التقاط تغييرات البيانات القائم على الطابع الزمني، والمعروف أيضًا باسم التقاط تغييرات البيانات القائم على الاستعلامات، أن تتضمن مخططات جداول قاعدة البيانات أعمدة مثل أعمدة الطابع الزمني لتسجيل تاريخ ووقت تغيُّر السجلات. يمكن استخدام أداة CDC لتحديد السجلات التي تم تغييرها من خلال عمود الطابع الزمني في الجدول المصدر ثم تقديم التحديثات إلى الأنظمة الوجهة.
ورغم أن آلية CDC المعتمدة على حقول التاريخ والوقت قد تكون سهلة التنفيذ، فإنها قد تفرض أعباء إضافية على النظام عند تكرار فحص هذه الحقول بوتيرة عالية. كما أن هذا النهج لا يرصد عمليات الحذف إذا حُذف حقل التاريخ والوقت مع بقية الصف.
في التقاط تغييرات البيانات القائم على المشغِّلات، يتم تنفيذ الإجراءات أو الوظائف المخزَّنة المعروفة باسم مشغِّلات قاعدة البيانات بمجرد حدوث تعديلات محددة (مثل الإدراج والحذف والتحديث) في قاعدة البيانات. ثم يتم تخزين البيانات التي تم تغييرها في ما يُعرَف غالبًا بجدول التغيير أو الجدول الظلي.
مثل التقاط تغييرات البيانات القائم على الطابع الزمني، يمكن أن يكون التقاط تغييرات البيانات القائم على المشغِّلات سهل التنفيذ. ومع ذلك، يمكنه أيضًا أن يكون عبئًا على الأنظمة المصدر؛ لأن المشغِّلات "يتم تنفيذها" في كل مرة تحدث فيها معاملة في الجدول المصدر.
ولإيضاح الصورة الكاملة لآلية CDC، نستعرض فيما يلي بعض مصادرها ووجهاتها الشائعة.
مصادر CDC هي الأنظمة التي تنشأ منها البيانات، مثل:
وجهات CDC هي الأنظمة التي تُبث البيانات إليها أو تُنسخ فيها، مثل:
يتطلب ربط المصادر بالوجهات عادةً استخدام أدوات CDC وموصلات ومنصات لتكامل البيانات.
يُعد كل من الاستخراج والتحويل والتحميل (ETL) ورصد تغييرات البيانات من أساليب تكامل البيانات واسعة الاستخدام، لكن كلًا منهما مصمم لغرض مختلف.
فيما يلي أبرز الفروق بين ETL وCDC:
تستخدم المؤسسات اليوم ETL وCDC على نطاق واسع، وغالبًا ما تجمع بينهما. فعلى سبيل المثال، يكمّل CDC مسارات ETL من خلال إرسال التحديثات التدريجية بعد تحميل البيانات الأولي. ويساعد ذلك على إبقاء مجموعات البيانات محدّثة في الوقت الفعلي مع حدوث التغييرات في أنظمة المصدر، دون الحاجة إلى انتظار تشغيل مهمة ETL التالية.
يعمل CDC مع الأبعاد بطيئة التغير (SCDs) للحفاظ على دقة الأنظمة المستهدفة وتحديثها باستمرار.
فبينما يرصد CDC التغييرات من أنظمة المصدر ويرسلها، تحدد الأبعاد بطيئة التغير (SCDs) كيفية إدارة هذه التغييرات وتخزينها داخل جداول الأبعاد في مستودع البيانات.
وفي هذا السياق، تشير بيانات الأبعاد عادةً إلى جداول الأبعاد في مستودعات البيانات، وهي الجداول التي تخزّن سمات وصفية مثل عناوين العملاء أو أرقام هواتفهم.
هناك نوعان شائعان من الأبعاد بطيئة التغير (SCDs): النوع 1 والنوع 2.
الأبعاد بطيئة التغير من النوع 1: استبدال البيانات الموجودة في جدول الأبعاد ببيانات جديدة دون الاحتفاظ بالسجل التاريخي
الأبعاد بطيئة التغير من النوع 2: إضافة صف جديد إلى جدول الأبعاد مع الاحتفاظ بالسجل الكامل للتغييرات بمرور الوقت
ترصد أدوات رصد تغييرات البيانات (CDC) التغييرات التي تحدث في قواعد البيانات وتمررها في الوقت الفعلي، مما يساعد المؤسسات على دعم تكامل البيانات الحديث، والتحليلات، والبنى القائمة على الأحداث.
قد تكون إمكانات CDC مدمجة أصلاً في بيئات معينة لقواعد البيانات، مثل AWS Database Migration Service (DMS)، أو قد تُطبَّق على نطاق أوسع. تشمل حلول CDC الشائعة أدوات مفتوحة المصدر مثل Debezium، ومنصات تجارية مثل IBM StreamSets وOracle GoldenGate.
تستخدم كثير من المؤسسات Apache Kafka بوصفه أساسًا لمسارات CDC. يمكن للبنى المعتمدة على Kafka في CDC رصد تغييرات قواعد البيانات، وتمريرها عبر موضوعات Kafka، ثم إيصالها إلى التطبيقات اللاحقة ومستودعات البيانات ومنصات التحليلات وأنظمة الذكاء الاصطناعي.
عند تقييم أدوات CDC، غالبًا ما تراعي المؤسسات ما يلي:
يمكن للشركات نشر التقاط تغييرات البيانات في مجموعة متنوعة من الاستخدامات، بما في ذلك:
يساعد التتبُّع المستمر للتغييرات في السجلات المالية باستخدام تقنية التقاط تغييرات البيانات على كشف الأنشطة الاحتيالية قبل أن تؤدي إلى خسائر كبيرة.
تستطيع تقنية التقاط تغييرات البيانات دمج كميات هائلة من البيانات التي يتم توليدها من أجهزة إنترنت الأشياء (IOT) في الوقت الفعلي بكفاءة، ما يُتيح الصيانة التنبؤية والمراقبة في الوقت الفعلي.
يمكن أن يساعد الوصول إلى معلومات المبيعات والمخزون وسلسلة التوريد في الوقت الفعلي، بدعم من تقنية التقاط تغييرات البيانات، الشركات على تجنُّب نفاد المخزون واتخاذ قرارات تسعير مربحة.
ويمكن أن يساعد الشركات شديدة التنظيم أيضًا على الاحتفاظ بسجلات دقيقة ضرورية لإعداد التقارير والامتثال للوائح والقوانين مثل اللائحة العامة لحماية البيانات وقانون Sarbanes-Oxley (SOX) وقانون نقل التأمين الصحي والمساءلة (HIPAA) في الولايات المتحدة.
صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.
يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.
استفِد من قيمة بيانات المؤسسة باستخدام IBM Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.