ما المقصود بعملية تكرار البيانات؟

امرأة تعمل على كمبيوتر محمول وهي جالسة وحدها في مكتب.

ما المقصود بعملية تكرار البيانات؟

تكرار البيانات هي عملية إنشاء نسخ متعددة من البيانات نفسها والاحتفاظ بها في مواقع مختلفة كوسيلة لضمان توافر البيانات وموثوقيتها ومرونتها في المؤسسة.

من خلال نسخ البيانات من الموقع المصدر إلى موقع أو أكثر من المواقع الهدف، توفِّر النسخ المكررة لمستخدمي المؤسسة حول العالم وصولًا سريعًا إلى البيانات التي يحتاجونها دون التعرض لمشكلات زمن الانتقال.

عند وجود نسخ متعددة من البيانات نفسها في مواقع مختلفة، حتى إذا تعذّر الوصول إلى نسخة واحدة بسبب كارثة أو انقطاع أو أي سبب آخر، يمكن استخدام نسخة أخرى كنسخة احتياطية. ويساعد هذا التكرار المؤسسات على تقليل وقت فترة التعطل وفقدان البيانات وتحسين استمرارية الأعمال.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

كيفية عمل تكرار البيانات (Data Replication)؟

يمكن أن تتم عملية تكرار البيانات عبر شبكة التخزين (SAN)، أو الشبكة المحلية (LAN)، أو الشبكة الواسعة المحلية، بالإضافة إلى السحابة. يمكن أن يحدث التكرار إما بشكل متزامن أو غير متزامن، وهذا يشير إلى كيفية إدارة عمليات الكتابة.

  • تكرار البيانات يعني أن البيانات يتم نسخها باستمرار إلى الخادم الرئيسي وجميع الخوادم المتماثلة في نفس الوقت.

  • يعني تكرار البيانات غير المتزامن أن البيانات يتم نسخها أولاً إلى الخادم الرئيسي ثم يتم نسخها إلى خوادم النسخ المتماثلة على دفعات.

على الرغم من أن التكرار المتزامن يضمن عدم فقدان أي بيانات، إلا أن التكرار غير المتزامن يتطلب نطاقًا تردديًا أقل بكثير وأقل تكلفة.

Mixture of Experts | 28 أغسطس، الحلقة 70

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضمّ إلى نخبة من المهندسين والباحثين وقادة المنتجات وغيرهم من الخبراء وهم يقدّمون أحدث الأخبار والرؤى حول الذكاء الاصطناعي، بعيدًا عن الضجيج الإعلامي.

فوائد تكرار البيانات

من خلال استخدام استراتيجية فعالة لتكرار بيانات، يمكن للمؤسسات الاستفادة بالطرق التالية:

قابلية التوسع المحسّنة

يمكن استخدام تكرار البيانات كجزء من إستراتيجية التوسع لاستيعاب زيادة حركة البيانات ومتطلبات أعباء العمل. ويعمل التكرار على بناء قابلية التوسع من خلال توزيع البيانات عبر العديد من العقد، ما يمكن أن يسمح بمزيد من قوة المعالجة وأداء أفضل للخادم.

التعافي السريع من الكوارث

يساعد الاحتفاظ بنسخ من البيانات في مواقع مختلفة على تقليل فقدان البيانات وفترات التعطل في حالة انقطاع التيار الكهربائي أو هجوم أمني إلكتروني أو كارثة طبيعية. تُتيح القدرة على الاستعادة من نسخة بعيدة ضمان متانة النظام والموثوقية المؤسسية والأمان.

تقليل زمن الانتقال

تعني قاعدة البيانات الموزعة عالميًا أنه يجب أن تقطع مسافة أقصر إلى المستخدم النهائي. ويقلل هذا من زمن الانتقال ويزيد من السرعة وأداء الخادم، ما يُعدّ مهمًا بشكل خاص لأحمال العمل القائمة على الوقت الفعلي في أنظمة الألعاب أو أنظمة التوصية أو الأنظمة ذات الموارد الثقيلة مثل أدوات التصميم.

تحسين تحمل الأعطال

تحسِّن عملية التكرار من التسامح مع الأخطاء عن طريق إتاحة إمكانية التكرار. إذا تعرضت إحدى نسخ البيانات للتلف أو فُقدت بسبب عطل ما، فيمكن للنظام الرجوع إلى إحدى النسخ المتماثلة الأخرى. وهذا يساعد على منع فقدان البيانات وضمان استمرار العمليات.

الأداء الأمثل

من خلال توزيع طلبات الوصول إلى البيانات عبر خوادم أو مواقع متعددة، يمكن أن يؤدي نسخ البيانات إلى تحسين أداء الخادم عن طريق تقليل الضغط على الخوادم الفردية. يمكن أن تساعد موازنة الأحمال هذه في إدارة الكميات الكبيرة من الطلبات وضمان تجربة مستخدم أكثر استجابة.

أنواع تكرار البيانات

يمكن تصنيف تكرار البيانات إلى أنواع مختلفة بناءً على طريقة عملية التكرار والغرض منها وخصائصها. وتتمثل الأنواع الثلاثة الرئيسية لتكرار البيانات في التكرارات الثلاثة: تكرار المعاملات وتكرار اللقطات وتكرار الدمج.

تتكون عملية تكرار المعاملات من نسخ قواعد البيانات بالكامل من الخادم الأساسي (الناشر) وإرسالها إلى الخوادم الثانوية (المشتركين). يتم تحديث أي تغييرات في البيانات بشكل متسق ومستمر. ونظرًا لأن البيانات يتم نسخها في الوقت الفعلي وإرسالها من قاعدة البيانات الأساسية إلى الخوادم الثانوية بترتيب حدوثها، يتم ضمان اتساق المعاملات. يستخدم هذا النوع من التكرار لقاعدة البيانات بشكل شائع في بيئات التكرار من خادم إلى خادم.

باستخدام تكرار اللقطات، يتم توزيع لقطة من قاعدة البيانات من الخادم الأساسي إلى الخوادم الثانوية. بدلاً من التحديثات المستمرة، يتم إرسال البيانات كما هي موجودة في وقت حدوث اللقطة. ويوصى بهذا النوع من التكرار في قاعدة البيانات عندما لا يكون هناك الكثير من التغييرات في البيانات أو عند بدء المزامنة لأول مرة بين الخادم الناشر والمشترك. على الرغم من أنها ليست مفيدة للنسخ الاحتياطية للبيانات لأنها لا تراقب التغييرات في البيانات، إلا أن تكرار اللقطات يمكن أن يساعد في عمليات الاسترداد في حال الحذف العرضي.

يتكون تكرار الدمج من قاعدتي بيانات يتم دمجهما في قاعدة بيانات واحدة. ونتيجة لذلك، يمكن تحديث أي تغييرات على البيانات من خادم الناشر إلى خوادم المشتركين. يُعد هذا نوعًا معقدًا من التكرار لقاعدة البيانات نظرًا لأن كلا الطرفين (الخادم الأساسي والخوادم الثانوية) يمكنه إجراء تغييرات على البيانات. ولا يوصى باستخدام هذا النوع من التكرار إلا في بيئة من خادم إلى عميل.

مخططات تكرار البيانات

مخططات التكرار هي العمليات والمهام المطلوبة لإجراء تكرار البيانات. وتتمثل أنظمة تكرار البيانات الثلاثة الرئيسية التكرار الكامل، والتكرار الجزئي، وعدم التكرار.

مع التكرار الكامل، يتم نسخ قاعدة البيانات الأساسية بالكامل إلى كل موقع في النظام الموزع. يوفر مخطط التوزيع العالمي هذا تكرارًا عاليًا لقاعدة البيانات، ويقلل زمن الاستجابة ويسرِّع تنفيذ الاستعلام. وتتمثل سلبيات التكرار الكامل في صعوبة تحقيق التزامن وبطء عمليات التحديث.

يتم نسخ بعض أقسام قاعدة البيانات عبر بعض أو كل المواقع في التكرار الجزئي، وعادةً ما تكون البيانات التي تم تحديثها مؤخرًا. ويتيح التكرار الجزئي تحديد أولويات البيانات المهمة والتي يجب نسخها، إلى جانب توزيع الموارد وفقًا لما يحتاجه المجال.

عدم التكرار هو مخطط يتم فيه تخزين جميع البيانات على موقع واحد فقط. يتيح ذلك استعادة البيانات بسهولة وتحقيق التزامن. وتتمثل عيوب عدم التكرار في أنه يؤثر سلبًا في التوافر ويبطئ أيضًا من تنفيذ الاستعلام.

تقنيات تكرار البيانات

تشير تقنيات تكرار البيانات إلى الطرق والآليات المستخدمة لتكرار البيانات من مصدر أساسي إلى نظام أو موقع مستهدف واحد أو أكثر، حيث أن تقنيات تكرار البيانات الأكثر استخدامًا هي تكرار الجدول الكامل والتكرار المستند إلى المفتاح والتكرار المستند إلى السجل.

يتم نسخ جميع البيانات من مصدر البيانات إلى الوجهة باستخدام تكرار الجدول الكامل، بما في ذلك جميع البيانات الجديدة والحالية. ويوصى بهذه التقنية إذا تم حذف السجلات بانتظام أو إذا كانت التقنيات الأخرى متعذرة من الناحية الفنية. نظرًا لحجم مجموعات البيانات، يتطلب تكرار الجداول الكاملة مزيدًا من موارد المعالجة والشبكة، فضلاً عن كونه أكثر تكلفة.

يتم فقط نسخ البيانات الجديدة التي تمت إضافتها منذ التحديث السابق عند إجراء التكرار التزايدي القائم على أساس المفاتيح. تُعد هذه التقنية أكثر كفاءة لأنه يتم نسخ عدد أقل من الصفوف. ويتمثل أحد الجوانب السلبية للتكرار التزايدي القائم على أساس في أنه لا يمكّن من تكرار البيانات من تحديث سابق تم حذفه بشكل ثابت.

يقوم التكرار القائم على السجل بتتبع التغييرات التي تم إجراؤها على البيانات في مصدر البيانات من خلال مراقبة سجلات سجل قاعدة البيانات (ملف السجل أو سجل التغيير). يتم بعد ذلك تكرار هذه التغييرات على الأنظمة المستهدفة ولا يتم تطبيقها إلا على مصادر قواعد البيانات المدعومة. ويوصى بالتكرار القائم على السجل عندما تكون بنية قاعدة بيانات المصدر ثابتة لأنها قد تصبح عملية كثيفة الاستخدام للموارد.

حالات استخدام تكرار البيانات

يُعد تكرار البيانات تقنية متعددة الاستخدامات ومفيدة في مختلف الصناعات والسيناريوهات لتحسين توافر البيانات وتحمُّل الأخطاء والأداء. تتضمن بعض حالات استخدام تكرار البيانات الأكثر شيوعًا ما يلي:

  • تحسين التوافر وتجاوز الفشل: يُستخدم تكرار البيانات بشكل شائع للاحتفاظ بنسخ مكررة من البيانات المهمة. وفي حال حدوث عطل في الأجهزة أو النظام، يمكن للتطبيقات التحوّل إلى نسخة متماثلة، ما يقلل من فترة التعطل وفقدان البيانات.

  • تعزيز وضع التعافي من الكوارث (DR): من خلال نسخ البيانات إلى مواقع مختلفة، يمكن للمؤسسات ضمان الحفاظ على البيانات أثناء الكوارث الطبيعية أو الحرائق أو غيرها من الأحداث الكارثية التي تؤثِّر في مركز البيانات الرئيسي.

  • زيادة الأداء من خلال موازنة الأحمال: يساعد توزيع طلبات القراءة عبر نسخ متماثلة متعددة لقاعدة البيانات على موازنة الأحمال على النظام الأساسي، ومن ثَمَّ ضمان الأداء الأمثل في أثناء ذروة الاستخدام.
  • تقليل زمن الانتقال للقوى العاملة العالمية: يمكن للمؤسسات التي لديها مكاتب فرعية متعددة في عدد من القارات نسخ البيانات إلى مراكز البيانات الموجودة بالقرب من كل مستخدم. ويقلل ذلك من زمن الانتقال ويحسن تجربة المستخدم.

  • تحسين ذكاء الأعمال والتعلم الآلي: من خلال مزامنة تقارير ذكاء الأعمال القائمة على السحابة وتمكين نقل البيانات من مصادر مختلفة إلى مخازن البيانات، بما في ذلك مستودعات البيانات أو بحيرات البيانات، يدعم تكرار البيانات التحليلات المتقدمة.

  • تحسين الوصول إلى بيانات الرعاية الصحية: يوفر تكرار السجلات الصحية الإلكترونية (EHRs) وبيانات المرضى لموفري الرعاية الصحية وصولاً سريعًا إلى بيانات المريض المهمة مع الحفاظ على تكرار البيانات.

  • الألعاب وتعدد اللاعبين عبر الإنترنت: يساعد تكرار بيانات اللعبة ومعلومات الحالة عبر خوادم الألعاب على دعم الألعاب متعددة اللاعبين عبر الإنترنت، مما يضمن المزامنة وتجارب اللاعبين المتسقة.

مخاطر تكرار البيانات

عند تنفيذ إستراتيجية تكرار البيانات، فإن التعقيد المتزايد لأنظمة البيانات وزيادة المسافة المادية بين الخوادم داخل النظام يشكلان العديد من المخاطر، بما في ذلك:

بيانات غير متسقة

يجب أن تضمن أدوات تكرار البيانات أن تظل البيانات متسقة عبر جميع النسخ المتماثلة. ويمكن أن تتسبب التأخيرات في عملية التكرار أو مشاكل الشبكة أو التعارضات في التحديثات المتزامنة في حدوث حالات غير طبيعية في مخطط البيانات وتوصيف البيانات، مثل الأعداد الفارغة وتغييرات النوع والانحراف.

فقدان البيانات

على الرغم من أن تكرار البيانات يُستخدم غالبًا للنسخ الاحتياطي والتعافي من الكوارث، فإنه ليست كل استراتيجيات التكرار توفِّر حماية البيانات في الوقت الفعلي. في حال وجود فارق زمني بين تغييرات البيانات وتكرارها في أثناء حدوث عطل، فقد ينتج عن ذلك فقدان البيانات.

التأخير في زمن الانتقال

يمكن أن يتسبب تكرار البيانات عبر الشبكة إلى زيادة زمن الانتقال واستهلاك النطاق الترددي. يمكن أن يؤدي زمن انتقال الشبكة العالي أو النطاق الترددي المحدود إلى تأخير التكرار، مما يؤثر على توقيت تحديثات البيانات.

مشاكل متعلقة بأمان البيانات

يمكن أن يؤدي تكرار البيانات إلى مواقع متعددة إلى مخاطر أمنية. ويجب على المؤسسات ضمان حماية أي أدوات لتكرار البيانات مستخدمة بشكل كافٍ للبيانات أثناء التكرار وفي حالة التخزين في جميع المواقع المستهدفة.

تعقيدات الامتثال

يجب على المؤسسات العاملة في الصناعات الخاضعة للوائح التنظيمية التأكد من أن ممارسات تكرار البيانات تتوافق مع اللوائح الخاصة بالصناعة وقوانين خصوصية البيانات، ما قد يضيف تعقيدًا إلى إستراتيجيات التكرار.

إدارة تكرار البيانات

من خلال تنفيذ نظام إدارة البيانات للإشراف على عملية تكرار البيانات ومراقبتها، يمكن للمؤسسات تقليل المخاطر التي تنطوي عليها بشكل كبير. تُعد منصة إمكانية ملاحظة البيانات القائمة على البرمجيات كخدمة (SaaS) أحد هذه الأنظمة التي يمكن أن تساعد في ضمان:

  • يتم نسخ البيانات بنجاح إلى مثيلات أخرى، بما في ذلك مثيلات السحابة
  • تعمل مسارات التكرار والترحيل على النحو المتوقع
  • يتم الإبلاغ الفوري عن المسارات المعطلة أو أحجام البيانات غير المنتظمة
  • يتم تسليم البيانات في الوقت المحدد
  • البيانات المقدمة موثوقة ومعتمدة للاستخدام في التحليلات

يمكن لمهندسي DataOps التأكد من أن جميع البيانات التي يتم نشرها عبر المسارات دقيقة وكاملة وموثوقة من خلال مراقبة مسارات البيانات المشاركة في عملية التكرار. وهذا يضمن إمكانية استخدام البيانات المنسوخة لكل مثيل بشكل موثوق من جانب الأطراف المعنية. فيما يتعلق بالمراقبة، ستكون منصة قابلية الملاحظة الفعالة لخدمة SaaS:

  • دقيق—تشير إلى مكان المشكلة بالتحديد
  • مستمر—تتبع التسلسل لفهم من أين بدأت الأخطاء
  • تلقائي - يقلل من الأخطاء اليدوية ويتيح استخدام الحدود
  • شامل—يوفر تغطية شاملة للمسارات
  • في الوقت المناسب - يتيح اكتشاف الأخطاء في الوقت المحدد قبل أن يكون لها تأثير

يتيح تتبع المسارات إمكانية استكشاف الأخطاء وإصلاحها بشكل منهجي، بحيث يتم تحديد أي أخطاء وإصلاحها في الوقت المناسب. وهذا يضمن استفادة المستخدمين باستمرار من البيانات المحدثة والموثوقة والصحية في تحليلاتهم. وتتضمن الأنواع المختلفة من البيانات الوصفية التي يمكن تتبعها مدة المهمة وحالة المهمة ووقت تحديث البيانات وغير ذلك. وفي حالة حدوث الخلل، يساعد التتبع (والتنبيه) مهندسي DataOps في ضمان صحة البيانات.

يُعد التنبيه إلى الحالات غير الطبيعية في مسارات البيانات خطوة أساسية تغلق حلقة قابلية الملاحظة. ومن خلال التنبيهات، يمكن لمهندسي DataOps إصلاح أي مشاكل في صحة البيانات قبل أن تؤثر في تكرار البيانات عبر مختلف المثيلات. ضمن أنظمة البيانات الموجودة، يمكن لمهندسي البيانات إطلاق تنبيهات من أجل:

  • عمليات تسليم البيانات المفقودة
  • تغييرات المخطط غير المتوقعة
  • أخطاء اتفاقية مستوى الخدمة (SLA)
  • الحالات غير الطبيعية في الإحصائيات على مستوى العمود مثل الأعداد الصفرية والتوزيعات
  • أحجام البيانات غير المنتظمة والأحجام
  • إخفاقات المسارات، وأوجه القصور والأخطاء

يمكن للمؤسسات تحقيق أقصى قدر من المزايا من تكرار البيانات وضمان استمرارية الأعمال من خلال إعداد التنبيهات بشكل استباقي ومراقبتها من خلال لوحات المعلومات والأدوات المفضلة الأخرى (Slack وPagerDuty وغيرها).

حلول ذات صلة
منصة IBM StreamSets

إنشاء أنظمة تدفق البيانات الذكية وإدارتها من خلال واجهة رسومية سهلة الاستخدام، ما يسهِّل تكامل البيانات بسلاسة عبر البيئات الهجينة ومتعددة السحابة.

استكشف StreamSets
IBM Databand

اكتشف IBM Databand، وهو برنامج متخصص في مراقبة مسارات البيانات. يجمع البيانات الوصفية تلقائيًا لبناء خطوط أساسية تاريخية، واكتشاف حالات الخلل، وإنشاء عمليات سير عمل لمعالجة مشكلات جودة البيانات.

استكشف ®Databand
حلول تكامل البيانات

أنشئ مسارات بيانات مرنة وعالية الأداء ومحسَّنة من حيث التكلفة لمبادرات الذكاء الاصطناعي التوليدي، والتحليلات في الوقت الفعلي، وتحديث مستودعات البيانات، وتلبية احتياجات التشغيل باستخدام حلول تكامل البيانات من IBM.

اكتشف حلول تكامل البيانات
اتخِذ الخطوة التالية

اكتشف IBM DataStage، أداة الاستخراج والتحويل والتحميل (ETL) التي توفر واجهة مرئية لتصميم مسارات البيانات وتطويرها ونشرها. وهي متوفرة على هيئة برمجيات كخدمة (SaaS) مُدارة على IBM Cloud، للاستضافة الذاتية، وكمكون إضافي على IBM Cloud Pak for Data.

استكشف DataStage استكشف خدمات التحليلات