تكرار البيانات هي عملية إنشاء نسخ متعددة من البيانات نفسها والاحتفاظ بها في مواقع مختلفة كوسيلة لضمان توافر البيانات وموثوقيتها ومرونتها في المؤسسة.
من خلال تكرار البيانات من موقع مصدر إلى موقع مستهدف واحد أو أكثر، تمنح النسخ المتماثلة المستخدمين العالميين للمؤسسة وصولاً جاهزًا إلى البيانات التي يحتاجون إليها من دون المعاناة من مشاكل زمن الانتقال.
عند وجود نسخ متعددة من البيانات نفسها في مواقع مختلفة، حتى إذا تعذّر الوصول إلى نسخة واحدة بسبب كارثة أو انقطاع أو أي سبب آخر، يمكن استخدام نسخة أخرى كنسخة احتياطية. ويساعد هذا التكرار المؤسسات على تقليل وقت فترة التعطل وفقدان البيانات وتحسين استمرارية الأعمال.
تعرَّف على المعوقات التي تَحُول دون اعتماد الذكاء الاصطناعي، لا سيما عدم تطبيق حوكمة الذكاء الاصطناعي، وعدم إيجاد حلول لإدارة المخاطر.
يمكن أن تحدث عملية تكرار البيانات من خلال شبكة منطقة التخزين أو شبكة المنطقة المحلية أو شبكة محلية واسعة النطاق وكذلك في السحابة. ويمكن أن تحدث إما بشكل متزامن أو غير متزامن، ما يشير إلى كيفية إدارة عمليات الكتابة.
على الرغم من أن التكرار المتزامن يضمن عدم فقدان أي بيانات، إلا أن التكرار غير المتزامن يتطلب نطاقًا تردديًا أقل بكثير وأقل تكلفة.
من خلال استخدام استراتيجية فعالة لتكرار بيانات، يمكن للمؤسسات الاستفادة بالطرق التالية:
يمكن استخدام تكرار البيانات كجزء من إستراتيجية التوسع لاستيعاب زيادة حركة البيانات ومتطلبات أعباء العمل. ويعمل التكرار على بناء قابلية التوسع من خلال توزيع البيانات عبر العديد من العقد، ما يمكن أن يسمح بمزيد من قوة المعالجة وأداء أفضل للخادم.
يساعد الاحتفاظ بنسخ من البيانات في مواقع مختلفة على تقليل فقد البيانات وفترة التعطل في حالة انقطاع التيار الكهربائي أو هجوم أمني إلكتروني أو كارثة طبيعية. تساعد القدرة على الاستعادة من نسخة متماثلة بعيدة على ضمان متانة النظام والموثوقية التنظيمية والأمان.
تعني قاعدة البيانات الموزعة عالميًا أنه يجب أن تقطع مسافة أقصر إلى المستخدم النهائي. ويقلل هذا من زمن الانتقال ويزيد من السرعة وأداء الخادم، ما يُعدّ مهمًا بشكل خاص لأحمال العمل القائمة على الوقت الفعلي في أنظمة الألعاب أو أنظمة التوصية أو الأنظمة ذات الموارد الثقيلة مثل أدوات التصميم.
تحسِّن عملية التكرار من التسامح مع الأخطاء عن طريق إتاحة إمكانية التكرار. إذا تعرضت إحدى نسخ البيانات للتلف أو فُقدت بسبب عطل ما، فيمكن للنظام الرجوع إلى إحدى النسخ المتماثلة الأخرى. وهذا يساعد على منع فقدان البيانات وضمان استمرار العمليات.
من خلال توزيع طلبات الوصول إلى البيانات عبر خوادم أو مواقع متعددة، يمكن أن يؤدي نسخ البيانات إلى تحسين أداء الخادم عن طريق تقليل الضغط على الخوادم الفردية. يمكن أن تساعد موازنة الأحمال هذه في إدارة الكميات الكبيرة من الطلبات وضمان تجربة مستخدم أكثر استجابة.
يمكن تصنيف تكرار البيانات إلى أنواع مختلفة بناءً على طريقة عملية التكرار والغرض منها وخصائصها. وتتمثل الأنواع الثلاثة الرئيسية لتكرار البيانات في التكرارات الثلاثة: تكرار المعاملات وتكرار اللقطات وتكرار الدمج.
تتكون عملية تكرار المعاملات من نسخ قواعد البيانات بالكامل من الخادم الأساسي (الناشر) وإرسالها إلى الخوادم الثانوية (المشتركين). يتم تحديث أي تغييرات في البيانات بشكل متسق ومستمر. ونظرًا لأن البيانات يتم نسخها في الوقت الفعلي وإرسالها من قاعدة البيانات الأساسية إلى الخوادم الثانوية بترتيب حدوثها، يتم ضمان اتساق المعاملات. يستخدم هذا النوع من التكرار لقاعدة البيانات بشكل شائع في بيئات التكرار من خادم إلى خادم.
باستخدام تكرار اللقطات، يتم توزيع لقطة من قاعدة البيانات من الخادم الأساسي إلى الخوادم الثانوية. بدلاً من التحديثات المستمرة، يتم إرسال البيانات كما هي موجودة في وقت حدوث اللقطة. ويوصى بهذا النوع من التكرار في قاعدة البيانات عندما لا يكون هناك الكثير من التغييرات في البيانات أو عند بدء المزامنة لأول مرة بين الخادم الناشر والمشترك. على الرغم من أنها ليست مفيدة للنسخ الاحتياطية للبيانات لأنها لا تراقب التغييرات في البيانات، إلا أن تكرار اللقطات يمكن أن يساعد في عمليات الاسترداد في حال الحذف العرضي.
يتكون تكرار الدمج من قاعدتي بيانات يتم دمجهما في قاعدة بيانات واحدة. ونتيجة لذلك، يمكن تحديث أي تغييرات على البيانات من خادم الناشر إلى خوادم المشتركين. يُعد هذا نوعًا معقدًا من التكرار لقاعدة البيانات نظرًا لأن كلا الطرفين (الخادم الأساسي والخوادم الثانوية) يمكنه إجراء تغييرات على البيانات. ولا يوصى باستخدام هذا النوع من التكرار إلا في بيئة من خادم إلى عميل.
مخططات التكرار هي العمليات والمهام المطلوبة لإجراء تكرار البيانات. وتتمثل أنظمة تكرار البيانات الثلاثة الرئيسية التكرار الكامل، والتكرار الجزئي، وعدم التكرار.
يتم نسخ قاعدة البيانات الأساسية بالكامل إلى كل موقع في النظام الموزع باستخدام التكرار الكامل. يوفر مخطط التوزيع العالمي هذا تكرارًا عاليًا لقاعدة البيانات، ويقلل من زمن الاستجابة ويسرّع تنفيذ الاستعلام. وتتمثل سلبيات التكرار الكامل في صعوبة تحقيق التزامن وبطء عمليات التحديث.
يتم نسخ بعض أقسام قاعدة البيانات عبر بعض أو كل المواقع في التكرار الجزئي، وعادةً ما تكون البيانات التي تم تحديثها مؤخرًا. ويتيح التكرار الجزئي تحديد أولويات البيانات المهمة والتي يجب نسخها، إلى جانب توزيع الموارد وفقًا لما يحتاجه المجال.
عدم التكرار هو مخطط يتم فيه تخزين جميع البيانات على موقع واحد فقط. يتيح ذلك استعادة البيانات بسهولة وتحقيق التزامن. وتتمثل عيوب عدم التكرار في أنه يؤثر سلبًا في التوافر ويبطئ أيضًا من تنفيذ الاستعلام.
تشير تقنيات تكرار البيانات إلى الطرق والآليات المستخدمة لتكرار البيانات من مصدر أساسي إلى نظام أو موقع مستهدف واحد أو أكثر، حيث أن تقنيات تكرار البيانات الأكثر استخدامًا هي تكرار الجدول الكامل والتكرار المستند إلى المفتاح والتكرار المستند إلى السجل.
يتم نسخ جميع البيانات من مصدر البيانات إلى الوجهة باستخدام تكرار الجدول الكامل، بما في ذلك جميع البيانات الجديدة والحالية. ويوصى بهذه التقنية إذا تم حذف السجلات بانتظام أو إذا كانت التقنيات الأخرى متعذرة من الناحية الفنية. نظرًا لحجم مجموعات البيانات، يتطلب تكرار الجداول الكاملة مزيدًا من موارد المعالجة والشبكة، فضلاً عن كونه أكثر تكلفة.
يتم فقط نسخ البيانات الجديدة التي تمت إضافتها منذ التحديث السابق عند إجراء التكرار التزايدي القائم على أساس المفاتيح. تُعد هذه التقنية أكثر كفاءة لأنه يتم نسخ عدد أقل من الصفوف. ويتمثل أحد الجوانب السلبية للتكرار التزايدي القائم على أساس في أنه لا يمكّن من تكرار البيانات من تحديث سابق تم حذفه بشكل ثابت.
يقوم التكرار القائم على السجل بتتبع التغييرات التي تم إجراؤها على البيانات في مصدر البيانات من خلال مراقبة سجلات سجل قاعدة البيانات (ملف السجل أو سجل التغيير). يتم بعد ذلك تكرار هذه التغييرات على الأنظمة المستهدفة ولا يتم تطبيقها إلا على مصادر قواعد البيانات المدعومة. ويوصى بالتكرار القائم على السجل عندما تكون بنية قاعدة بيانات المصدر ثابتة لأنها قد تصبح عملية كثيفة الاستخدام للموارد.
يُعد تكرار البيانات تقنية متعددة الاستخدامات ومفيدة في مختلف الصناعات والسيناريوهات لتحسين توافر البيانات وتحمُّل الأخطاء والأداء. تتضمن بعض حالات استخدام تكرار البيانات الأكثر شيوعًا ما يلي:
عند تنفيذ إستراتيجية تكرار البيانات، فإن التعقيد المتزايد لأنظمة البيانات وزيادة المسافة المادية بين الخوادم داخل النظام يشكلان العديد من المخاطر، بما في ذلك:
يجب أن تضمن أدوات تكرار البيانات أن تظل البيانات متسقة عبر جميع النسخ المتماثلة. ويمكن أن تتسبب التأخيرات في عملية التكرار أو مشاكل الشبكة أو التعارضات في التحديثات المتزامنة في حدوث حالات غير طبيعية في مخطط البيانات وتوصيف البيانات، مثل الأعداد الفارغة وتغييرات النوع والانحراف.
على الرغم من أن تكرار البيانات غالبًا ما يُستخدم للنسخ الاحتياطي للبيانات واستردادها بعد الكوارث، إلا أن جميع إستراتيجيات تكرار البيانات لا توفر حماية للبيانات في الوقت الفعلي (الرابط موجود خارج موقع ibm.com). في حال وجود فارق زمني بين تغييرات البيانات وتكرارها أثناء حدوث عطل، فقد ينتج عن ذلك فقدان البيانات.
يمكن أن يتسبب تكرار البيانات عبر الشبكة إلى زيادة زمن الانتقال واستهلاك النطاق الترددي. يمكن أن يؤدي زمن انتقال الشبكة العالي أو النطاق الترددي المحدود إلى تأخير التكرار، مما يؤثر على توقيت تحديثات البيانات.
يمكن أن يؤدي تكرار البيانات إلى مواقع متعددة إلى مخاطر أمنية. ويجب على المؤسسات ضمان حماية أي أدوات لتكرار البيانات مستخدمة بشكل كافٍ للبيانات أثناء التكرار وفي حالة التخزين في جميع المواقع المستهدفة.
يجب على المؤسسات العاملة في الصناعات الخاضعة للوائح التنظيمية التأكد من أن ممارسات تكرار البيانات تتوافق مع اللوائح الخاصة بالصناعة وقوانين خصوصية البيانات، ما قد يضيف تعقيدًا إلى إستراتيجيات التكرار.
من خلال تنفيذ نظام إدارة البيانات للإشراف على عملية تكرار البيانات ومراقبتها، يمكن للمؤسسات تقليل المخاطر التي تنطوي عليها بشكل كبير. تُعد منصة إمكانية ملاحظة البيانات القائمة على البرمجيات كخدمة (SaaS) أحد هذه الأنظمة التي يمكن أن تساعد في ضمان:
يمكن لمهندسي DataOps التأكد من أن جميع البيانات التي يتم نشرها عبر المسارات دقيقة وكاملة وموثوقة من خلال مراقبة مسارات البيانات المشاركة في عملية التكرار. وهذا يضمن إمكانية استخدام البيانات المنسوخة لكل مثيل بشكل موثوق من جانب الأطراف المعنية. فيما يتعلق بالمراقبة، ستكون منصة قابلية الملاحظة الفعالة لخدمة SaaS:
يتيح تتبع المسارات إمكانية استكشاف الأخطاء وإصلاحها بشكل منهجي، بحيث يتم تحديد أي أخطاء وإصلاحها في الوقت المناسب. وهذا يضمن استفادة المستخدمين باستمرار من البيانات المحدثة والموثوقة والصحية في تحليلاتهم. وتتضمن الأنواع المختلفة من البيانات الوصفية التي يمكن تتبعها مدة المهمة وحالة المهمة ووقت تحديث البيانات وغير ذلك. وفي حالة حدوث الخلل، يساعد التتبع (والتنبيه) مهندسي DataOps في ضمان صحة البيانات.
يُعد التنبيه إلى الحالات غير الطبيعية في مسارات البيانات خطوة أساسية تغلق حلقة قابلية الملاحظة. ومن خلال التنبيهات، يمكن لمهندسي DataOps إصلاح أي مشاكل في صحة البيانات قبل أن تؤثر في تكرار البيانات عبر مختلف المثيلات. ضمن أنظمة البيانات الموجودة، يمكن لمهندسي البيانات إطلاق تنبيهات من أجل:
يمكن للمؤسسات تحقيق أقصى قدر من المزايا من تكرار البيانات وضمان استمرارية الأعمال من خلال إعداد التنبيهات بشكل استباقي ومراقبتها من خلال لوحات المعلومات والأدوات المفضلة الأخرى (Slack وPagerDuty وغيرها).
إن IBM® Databand هو برنامج متخصص في قابلية الملاحظة يستهدف مستودعات ومسارات البيانات؛ حيث يجمع البيانات الوصفية تلقائيًّا لبناء خطوط أساس تاريخية، ويكشف عن الحالات الشاذة ويفرز التنبيهات لمعالجة مشاكل جودة البيانات.
من خلال دعم أنماط ETL و ELT، يوفر ®IBM DataStage تكاملاً مرنًا للبيانات وفي الوقت الفعلي تقريبًا سواءً محليًا أو في السحابة.
يتيح لك كتالوج البيانات الذكي لعصر الذكاء الاصطناعي، IBM ® Knowledge Catalog إمكانية الوصول إلى البيانات والأصول المعرفية وعلاقاتها وتنظيمها وتصنيفها ومشاركتها—بغض النظر عن مكان وجودها.
تعمق في فهم ماهية قابلية ملاحظة البيانات وسبب أهميتها وكيفية تطورها بالتزامن مع أنظمة البيانات الحديثة وأفضل الممارسات لتنفيذ إطار عمل قابلية ملاحظة البيانات.
تعرّف على كيفية إعداد تكرار البيانات باستخدام أفضل الممارسات من Snowflake، بما في ذلك الأسس الجيدة لتتبع تكامل البيانات.
تتطلب مصادر البيانات المتباينة المنتشرة عبر العديد من البيئات السحابية والمحلية نهجًا جديدًا لتكامل البيانات.