ما المقصود بإلغاء البيانات المكررة؟

3 يناير 2024

المؤلفين

Phill Powell

Staff Writer

Ian Smalley

Senior Editorial Strategist

ما المقصود بإلغاء البيانات المكررة؟

إلغاء البيانات المكررة هي عملية تبسيط يتم فيها تقليل البيانات الزائدة عن الحاجة عن طريق التخلص من النسخ الإضافية من نفس المعلومات. والهدف من إلغاء البيانات المكررة، أو "dedupe" كما هو شائع اختصارًا، هو تقليل احتياجات التخزين المستمرة للمؤسسة.

يمكن للمؤسسات تطبيق عمليات وتقنيات إزالة البيانات المكررة للتأكد من وجود نسخة واحدة وفريدة فقط من البيانات داخل نظام التخزين الخاص بها. تتم إزالة البيانات المكررة أو الزائدة ويتم توجيه المستخدمين إلى نسخة واحدة من البيانات.

عندما يكون إلغاء تكرار البيانات ناجحًا، فيمكن أن يؤدي ذلك إلى تحسين الاستخدام الكلي لتخزين المؤسسة ويساعد في تقليل التكاليف.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

لماذا يلزم إلغاء البيانات المكررة؟

إذًا، لماذا قد تنشئ شركة بيانات مكررة على أي حال؟ قد يكون هناك سبب واحد أو أكثر من أي عدد من الأسباب الوجيهة، بما في ذلك ما يلي:

  • قد تحتاج المؤسسة أو إحدى إداراتها إلى إعادة توظيف البيانات الأصلية، لذلك يتم إنشاء نسخ بيانات جديدة.
  • قد ترغب إحدى الشركات في الاحتفاظ بنسخ مكررة كجزء من نظام النسخ الاحتياطي في حالة فقدان البيانات.
  • قد تجد المؤسسة أنها تحتفظ بنسخ متعددة من نفس البيانات ولكن مخزنة بتنسيقات مختلفة.

سبب رئيسي آخر لتكرار البيانات هو ببساطة لأن هذا ما يحدث غالبًا في معظم المؤسسات متعددة الأقسام. يتم إنشاء البيانات بانتظام أو إعادة إنشائها كوظيفة مقبولة وأساسية لممارسة الأعمال التجارية في سياق حديث. لذلك، فإن إنشاء البيانات أو تكرارها ليس المشكلة الفعلية؛ بل الانتشار المفرط للبيانات هو المشكلة.

لولا الأعباء المالية الإضافية المرتبطة به، لربما بدا انتشار البيانات مشكلة أقل مما هو عليه في الواقع. يمكن للمؤسسة أن تختار تخزين البيانات في مواقع مختلفة ضمن بنيتها التحتية لتكنولوجيا المعلومات ولا تهتم بتلك التكرارات.

ولكن الحقيقة هي أن الشركة تتكبد عقوبات مالية من خلال الاحتفاظ بعدد كبير من حالات تكرار البيانات في شكل تكاليف تخزين إضافية. تحتاج المؤسسات التي لا تستطيع التوقف عن إنشاء حالات تكرار البيانات إلى تخصيص المزيد من العمالة والميزانية لتطبيق حلول تخزين جديدة وإدارة البيانات، سواء كانت تستند إلى مشتريات أجهزة جديدة أو إضافة تخزين سحابي.

IBM Storage FlashSystem

نظام الذاكرة الوميضية لـ IBM Storage: تحسين VMware من حيث التكلفة والبساطة والمرونة

اكتشف كيف يحسن نظام IBM FlashSystem بيئات VMware لتحقيق الكفاءة من حيث التكلفة والبساطة والمرونة. تسلط هذه الجلسة الضوء على كيفية تعزيز نظام FlashSystem سلامة البيانات وسهولة الوصول إليها وتحسين الأداء، ما يجعله حلاً مثاليًا للبنى التحتية الحديثة لتكنولوجيا المعلومات.

فوائد إلغاء البيانات المكررة

تتمثل الفائدة الأكثر وضوحًا لتقنيات إلغاء البيانات المكررة في أن التخلص من البيانات الزائدة يقلل من إجمالي كمية البيانات التي يجب على المؤسسة تخزينها وإدارتها. وهذا يزيد بشكل فعال من سعة تخزين المؤسسة عن طريق تقليل البيانات التي تشغل مساحة التخزين.

بالإضافة إلى انخفاض تكاليف التخزين، يوفر إلغاء تكرار البيانات مزايا رئيسية أخرى، مثل تعزيز خطط النسخ الاحتياطي للبيانات ودعم خطوات الطوارئ لحماية التعافي من الكوارث.

هناك ميزة أخرى تتمثل في تنشيط تكامل البيانات من خلال إزالة البيانات "غير المفيدة" والتأكد من أن البيانات المتبقية قد تم تنظيفها بشكل صحيح. وقد تبين أن البيانات التي تم إلغاء تكرارها تعمل بشكل أفضل وتستهلك طاقة أقل.

فائدة أخرى لإلغاء البيانات المكررة هي مدى توافقه مع عمليات نشر البنية التحتية لسطح المكتب الافتراضي (VDI)، وذلك بفضل حقيقة أن الأقراص الصلبة الافتراضية التي تدعم أجهزة سطح المكتب البعيدة لـ VDI تعمل بشكل متطابق. تتضمن منتجات سطح المكتب كخدمة (DaaS) الشائعة Azure Virtual Desktop من Microsoft و Windows VDI الخاص بها. تقوم هذه المنتجات بإنشاء أجهزة افتراضية (VMs)، والتي يتم إنشاؤها أثناء عملية محاكاة الخادم. بدورها، تعمل هذه الأجهزة الافتراضية على تمكين تقنية VDI.

كيف تجري عمليات إلغاء البيانات المكررة؟

في أبسط مستوياته، يعمل إلغاء تكرار البيانات من خلال وظائف آلية لتحديد التكرارات في كتل البيانات ثم إزالة تلك التكرارات. ومن خلال العمل على مستوى الكتلة هذا، يمكن تحليل أجزاء من البيانات الفريدة وتحديدها على أنها جديرة بالحفظ. بعد ذلك، عندما يكتشف برنامج إلغاء التكرار تكرارًا لنفس كتلة البيانات، تتم إزالة هذا التكرار ويتم تضمين إشارة إلى البيانات الأصلية مكانه.

تعتمد طريقة بديلة لإزالة البيانات المكررة على مستوى الملفات. تقوم آلية تخزين البيانات ذات النسخة الواحدة بمقارنة النسخ الكاملة للبيانات داخل نظام الملفات، ولكن ليس أجزاء أو كتل البيانات. وعلى غرار الطريقة المقابلة لها، تعتمد إزالة تكرار الملفات على الاحتفاظ بالملف الأصلي وإزالة النسخ الإضافية.

لا تعمل تقنيات إزالة البيانات المكررة بنفس طريقة عمل خوارزميات ضغط البيانات (على سبيل المثال، LZ77، LZ78)، على الرغم من صحة أن كليهما يسعى لتحقيق نفس الهدف العام المتمثل في تقليل التكرارات في البيانات. تحقق تقنيات إزالة البيانات المكررة ذلك على نطاق أوسع وأشمل من خوارزميات الضغط، التي يهدف عملها بشكل أقل إلى استبدال الملفات المتطابقة بنسخ مشتركة وأكثر إلى ترميز تكرارات البيانات بكفاءة.

أنواع إلغاء البيانات المكررة

هناك نوعان أساسيان من إلغاء البيانات المكررة يعتمدان على وقت حدوث العمليات.

إلغاء التكرار المضمن

يحدث هذا النوع من إزالة البيانات المكررة في الوقت الفعلي أثناء تدفق البيانات داخل النظام. ويحمل النظام حجم مرور بيانات أقل لأنه لا ينقل البيانات المكررة ولا يخزنها. ويمكن أن يؤدي ذلك إلى انخفاض في إجمالي مقدار النطاق الترددي الذي تحتاجه تلك المؤسسة.

إلغاء التكرار بعد المعالجة

يحدث هذا النوع من إلغاء البيانات المكررة بعد كتابة البيانات وتخزينها في أحد أجهزة التخزين.

تأثر كلا النوعين من إزالة البيانات المكررة بحسابات التجزئة المتأصلة في عملية إزالة البيانات المكررة. تعتبر هذه الحسابات المشفرة جزءًا لا يتجزأ من تحديد الأنماط المتكررة في البيانات. أثناء إزالة البيانات المكررة المضمنة، تُجرى هذه الحسابات في اللحظة نفسها، مما قد يهيمن ويطغى مؤقتًا على وظائف الكمبيوتر. في عمليات إزالة البيانات المكررة بعد المعالجة، يمكن إجراء حسابات التجزئة في أي وقت بعد إضافة البيانات.

لا تنتهي الفروق الدقيقة بين أنواع إزالة التكرار عند هذا الحد. هناك طريقة ثانية لتصنيف أنواع إزالة التكرار بناءً على مكان حدوث هذه العمليات.

إلغاء التكرار من المصدر

تحدث هذه الطريقة من إزالة البيانات المكررة بالقرب من مكان إنشاء البيانات الجديدة. يقوم النظام بفحص تلك المنطقة ويكتشف النسخ الجديدة من الملفات، والتي يتم إزالتها بعد ذلك.

إلغاء التكرار المستهدف

إلغاء البيانات المكررة المستهدفة هو في الأساس عكس إلغاء البيانات المكررة من المصدر. في عملية إلغاء البيانات المكررة المستهدفة، يقوم النظام بإزالة أي نسخ مكررة موجودة في مناطق أخرى غير المنطقة التي تم فيها إنشاء البيانات الأصلية.

نظرًا لوجود أنواع مختلفة من طرق إزالة البيانات المكررة قيد الممارسة، يجب على المؤسسات ذات التوجه المستقبلي اتخاذ قرارات دقيقة ومدروسة بشأن نوع إزالة البيانات المكررة التي تختارها، مع الموازنة بين تلك الطريقة والاحتياجات الخاصة لتلك الشركة.

في العديد من حالات الاستخدام، قد يعتمد أسلوب إزالة التكرارات الذي تختاره المؤسسة بشكل كبير على متغيرات داخلية مختلفة، مثل ما يلي:

  • كم عدد مجموعات البيانات التي يتم إنشاؤه وما أنواعها
  • نظام التخزين الأساسي للمؤسسة
  • البيئات الافتراضية المستخدمة
  • التطبيقات التي تعتمد عليها الشركة
حلول ذات صلة
IBM Storage DS8000

يُعدّ IBM Storage DS8000 نظام التخزين الأسرع والأكثر موثوقية وأمانًا لأنظمة IBM zSystems وخوادم IBM Power.

استكشف Storage DS8000
حلول تخزين البيانات للمؤسسات

IBM Storage هي مجموعة من أجهزة تخزين البيانات والتخزين المعرف بالبرامج وبرامج إدارة التخزين.

استكشف حلول تخزين البيانات
خدمات دعم الأجهزة والبرامج  

توفر IBM دعمًا استباقيًا لخوادم الويب والبنية التحتية لمراكز البيانات لتقليل فترة التعطل وتحسين توفر حلول تكنولوجيا المعلومات.

خدمات خوادم الويب
اتخِذ الخطوة التالية

بدءًا من إدارة البيئات السحابية الهجينة إلى ضمان مرونة البيانات، تُمكِّنك حلول التخزين من IBM من استكشاف رؤى قيِّمة من بياناتك مع الحفاظ على حماية قوية ضد التهديدات.

استكشف حلول تخزين البيانات ألقِ نظرة على قدرات المنتج