إلغاء البيانات المكررة هي عملية تبسيط يتم فيها تقليل البيانات الزائدة عن الحاجة عن طريق التخلص من النسخ الإضافية من نفس المعلومات. والهدف من إلغاء البيانات المكررة، أو "dedupe" كما هو شائع اختصارًا، هو تقليل احتياجات التخزين المستمرة للمؤسسة.
يمكن للمؤسسات تطبيق عمليات وتقنيات إزالة البيانات المكررة للتأكد من وجود نسخة واحدة وفريدة فقط من البيانات داخل نظام التخزين الخاص بها. تتم إزالة البيانات المكررة أو الزائدة ويتم توجيه المستخدمين إلى نسخة واحدة من البيانات.
عندما يكون إلغاء تكرار البيانات ناجحًا، فيمكن أن يؤدي ذلك إلى تحسين الاستخدام الكلي لتخزين المؤسسة ويساعد في تقليل التكاليف.
إذًا، لماذا قد تنشئ شركة بيانات مكررة على أي حال؟ قد يكون هناك سبب واحد أو أكثر من أي عدد من الأسباب الوجيهة، بما في ذلك ما يلي:
سبب رئيسي آخر لتكرار البيانات هو ببساطة لأن هذا ما يحدث غالبًا في معظم المؤسسات متعددة الأقسام. يتم إنشاء البيانات بانتظام أو إعادة إنشائها كوظيفة مقبولة وأساسية لممارسة الأعمال التجارية في سياق حديث. لذلك، فإن إنشاء البيانات أو تكرارها ليس المشكلة الفعلية؛ بل الانتشار المفرط للبيانات هو المشكلة.
لولا الأعباء المالية الإضافية المرتبطة به، لربما بدا انتشار البيانات مشكلة أقل مما هو عليه في الواقع. يمكن للمؤسسة أن تختار تخزين البيانات في مواقع مختلفة ضمن بنيتها التحتية لتكنولوجيا المعلومات ولا تهتم بتلك التكرارات.
ولكن الحقيقة هي أن الشركة تتكبد عقوبات مالية من خلال الاحتفاظ بعدد كبير من حالات تكرار البيانات في شكل تكاليف تخزين إضافية. تحتاج المؤسسات التي لا تستطيع التوقف عن إنشاء حالات تكرار البيانات إلى تخصيص المزيد من العمالة والميزانية لتطبيق حلول تخزين جديدة وإدارة البيانات، سواء كانت تستند إلى مشتريات أجهزة جديدة أو إضافة تخزين سحابي.
تتمثل الفائدة الأكثر وضوحًا لتقنيات إلغاء البيانات المكررة في أن التخلص من البيانات الزائدة يقلل من إجمالي كمية البيانات التي يجب على المؤسسة تخزينها وإدارتها. وهذا يزيد بشكل فعال من سعة تخزين المؤسسة عن طريق تقليل البيانات التي تشغل مساحة التخزين.
بالإضافة إلى انخفاض تكاليف التخزين، يوفر إلغاء تكرار البيانات مزايا رئيسية أخرى، مثل تعزيز خطط النسخ الاحتياطي للبيانات ودعم خطوات الطوارئ لحماية التعافي من الكوارث.
هناك ميزة أخرى تتمثل في تنشيط تكامل البيانات من خلال إزالة البيانات "غير المفيدة" والتأكد من أن البيانات المتبقية قد تم تنظيفها بشكل صحيح. وقد تبين أن البيانات التي تم إلغاء تكرارها تعمل بشكل أفضل وتستهلك طاقة أقل.
فائدة أخرى لإلغاء البيانات المكررة هي مدى توافقه مع عمليات نشر البنية التحتية لسطح المكتب الافتراضي (VDI)، وذلك بفضل حقيقة أن الأقراص الصلبة الافتراضية التي تدعم أجهزة سطح المكتب البعيدة لـ VDI تعمل بشكل متطابق. تتضمن منتجات سطح المكتب كخدمة (DaaS) الشائعة Azure Virtual Desktop من Microsoft و Windows VDI الخاص بها. تقوم هذه المنتجات بإنشاء أجهزة افتراضية (VMs)، والتي يتم إنشاؤها أثناء عملية محاكاة الخادم. بدورها، تعمل هذه الأجهزة الافتراضية على تمكين تقنية VDI.
في أبسط مستوياته، يعمل إلغاء تكرار البيانات من خلال وظائف آلية لتحديد التكرارات في كتل البيانات ثم إزالة تلك التكرارات. ومن خلال العمل على مستوى الكتلة هذا، يمكن تحليل أجزاء من البيانات الفريدة وتحديدها على أنها جديرة بالحفظ. بعد ذلك، عندما يكتشف برنامج إلغاء التكرار تكرارًا لنفس كتلة البيانات، تتم إزالة هذا التكرار ويتم تضمين إشارة إلى البيانات الأصلية مكانه.
تعتمد طريقة بديلة لإزالة البيانات المكررة على مستوى الملفات. تقوم آلية تخزين البيانات ذات النسخة الواحدة بمقارنة النسخ الكاملة للبيانات داخل نظام الملفات، ولكن ليس أجزاء أو كتل البيانات. وعلى غرار الطريقة المقابلة لها، تعتمد إزالة تكرار الملفات على الاحتفاظ بالملف الأصلي وإزالة النسخ الإضافية.
لا تعمل تقنيات إزالة البيانات المكررة بنفس طريقة عمل خوارزميات ضغط البيانات (على سبيل المثال، LZ77، LZ78)، على الرغم من صحة أن كليهما يسعى لتحقيق نفس الهدف العام المتمثل في تقليل التكرارات في البيانات. تحقق تقنيات إزالة البيانات المكررة ذلك على نطاق أوسع وأشمل من خوارزميات الضغط، التي يهدف عملها بشكل أقل إلى استبدال الملفات المتطابقة بنسخ مشتركة وأكثر إلى ترميز تكرارات البيانات بكفاءة.
هناك نوعان أساسيان من إلغاء البيانات المكررة يعتمدان على وقت حدوث العمليات.
يحدث هذا النوع من إزالة البيانات المكررة في الوقت الفعلي أثناء تدفق البيانات داخل النظام. ويحمل النظام حجم مرور بيانات أقل لأنه لا ينقل البيانات المكررة ولا يخزنها. ويمكن أن يؤدي ذلك إلى انخفاض في إجمالي مقدار النطاق الترددي الذي تحتاجه تلك المؤسسة.
يحدث هذا النوع من إلغاء البيانات المكررة بعد كتابة البيانات وتخزينها في أحد أجهزة التخزين.
تأثر كلا النوعين من إزالة البيانات المكررة بحسابات التجزئة المتأصلة في عملية إزالة البيانات المكررة. تعتبر هذه الحسابات المشفرة جزءًا لا يتجزأ من تحديد الأنماط المتكررة في البيانات. أثناء إزالة البيانات المكررة المضمنة، تُجرى هذه الحسابات في اللحظة نفسها، مما قد يهيمن ويطغى مؤقتًا على وظائف الكمبيوتر. في عمليات إزالة البيانات المكررة بعد المعالجة، يمكن إجراء حسابات التجزئة في أي وقت بعد إضافة البيانات.
لا تنتهي الفروق الدقيقة بين أنواع إزالة التكرار عند هذا الحد. هناك طريقة ثانية لتصنيف أنواع إزالة التكرار بناءً على مكان حدوث هذه العمليات.
تحدث هذه الطريقة من إزالة البيانات المكررة بالقرب من مكان إنشاء البيانات الجديدة. يقوم النظام بفحص تلك المنطقة ويكتشف النسخ الجديدة من الملفات، والتي يتم إزالتها بعد ذلك.
إلغاء البيانات المكررة المستهدفة هو في الأساس عكس إلغاء البيانات المكررة من المصدر. في عملية إلغاء البيانات المكررة المستهدفة، يقوم النظام بإزالة أي نسخ مكررة موجودة في مناطق أخرى غير المنطقة التي تم فيها إنشاء البيانات الأصلية.
نظرًا لوجود أنواع مختلفة من طرق إزالة البيانات المكررة قيد الممارسة، يجب على المؤسسات ذات التوجه المستقبلي اتخاذ قرارات دقيقة ومدروسة بشأن نوع إزالة البيانات المكررة التي تختارها، مع الموازنة بين تلك الطريقة والاحتياجات الخاصة لتلك الشركة.
في العديد من حالات الاستخدام، قد يعتمد أسلوب إزالة التكرارات الذي تختاره المؤسسة بشكل كبير على متغيرات داخلية مختلفة، مثل ما يلي:
يُعدّ IBM Storage DS8000 نظام التخزين الأسرع والأكثر موثوقية وأمانًا لأنظمة IBM zSystems وخوادم IBM Power.
IBM Storage هي مجموعة من أجهزة تخزين البيانات والتخزين المعرف بالبرامج وبرامج إدارة التخزين.
توفر IBM دعمًا استباقيًا لخوادم الويب والبنية التحتية لمراكز البيانات لتقليل فترة التعطل وتحسين توفر حلول تكنولوجيا المعلومات.