ما هو تقليل البيانات؟

18 يناير 2024

المؤلفون

Phill Powell

Staff Writer

Ian Smalley

Senior Editorial Strategist

ما هو تقليل البيانات؟

تقليل البيانات هو العملية التي تشرع فيها المؤسسة في الحد من كمية البيانات التي تخزنها.

تهدف تقنيات تقليل البيانات إلى الحد من التكرار الموجود في مجموعة البيانات الأصلية، بحيث يمكن تخزين كميات كبيرة من البيانات الأولية بكفاءة أعلى على هيئة بيانات مختزلة.

في البداية، يجب التأكيد على أن مصطلح "تقليل البيانات" لا يعني تلقائيًا فقدان المعلومات. في كثير من الحالات، يعني تقليل البيانات فقط أنه يتم تخزين البيانات الآن بطريقة أكثر ذكاء - ربما بعد المرور بعملية التحسين ثم إعادة تجميعها مع البيانات ذات الصلة في تكوين أكثر عملية.

ومن المهم عدم الخلط بين تقليل البيانات وإزالة التكرار (deduplication)، التي تركز على حذف النسخ الزائدة من البيانات لأغراض التبسيط. وبشكل أكثر دقة، فإن تقليل البيانات يجمع بين جوانب مختلفة من أنشطة مختلفة، مثل إزالة البيانات المكررة وتوحيد البيانات، لتحقيق أهدافه.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

رؤية أشمل للبيانات

عند مناقشة البيانات في سياق تقليلها، يُشار إليها غالبًا بصيغتها، على عكس الاستخدام المعتاد بصيغة الجمع. يتعامل أحد جوانب تقليل البيانات، على سبيل المثال، مع تحديد الأبعاد المادية الفعلية لنقاط البيانات الفردية.

هناك قدر كبير من علم البيانات الذي تنطوي عليه أنشطة تقليل البيانات. يمكن أن تكون المادة معقدة إلى حد ما ويصعب تلخيصها بإيجاز، وقد أدت هذه المعضلة إلى ظهور مصطلحها الخاص- القابلية للتفسير، أو قدرة الإنسان ذو الذكاء المتوسط على فهم نموذج معين للتعلم الآلي .

قد يكون فهم معاني بعض هذه المصطلحات أمراً صعباً لأن هذه البيانات تُرى من منظور شبه مجهري. نحن عادةً ما نتحدث عن البيانات في شكلها "المكبّر"، ولكن في مجال تقليل البيانات، غالبًا ما نتحدث عن البيانات بمعناها "المصغّر". وبشكل أكثر دقة، ستتطلب معظم المناقشات حول هذا الموضوع مناقشات على المستوى المكبّر وأخرى على المستوى المصغّر من المقياس.

أكاديمية الذكاء الاصطناعي

هل تعد إدارة البيانات هي سر الذكاء الاصطناعي التوليدي؟

استكشف سبب أهمية البيانات عالية الجودة للاستخدام الناجح للذكاء الاصطناعي التوليدي.

فوائد تقليل البيانات

عندما تقلل المؤسسة من حجم البيانات التي تحملها، تحقق هذه الشركة عادةً وفورات مالية كبيرة في شكل انخفاض تكاليف التخزين المرتبطة باستهلاك مساحة تخزين أقل.

توفر طرق تقليل البيانات مزايا أخرى أيضًا، مثل زيادة كفاءة البيانات. عندما يتم تحقيق تقليل البيانات، يصبح من السهل على أساليب الذكاء الاصطناعي استخدام تلك البيانات الناتجة بطرق متنوعة، بما في ذلك تطبيقات تحليل البيانات المتطورة التي يمكن أن تبسط مهام اتخاذ القرار بشكل كبير.

فعلى سبيل المثال، يُسهم استخدام المحاكاة الافتراضية للتخزين في تنسيق أفضل بين بيئات الخوادم وأجهزة سطح المكتب، مما يُعزز من كفاءتها ويزيد من موثوقيتها.

تُعد جهود تقليل البيانات عنصرًا أساسيًا في أنشطة التنقيب في البيانات. إذ يجب تنظيف البيانات وتحضيرها بأقصى قدر من الكفاءة قبل استخدامها في التحليل.

أنواع تقليل البيانات

فيما يلي بعض الطرق التي يمكن للمؤسسات استخدامها لتحقيق تقليل البيانات.

تخفيض الأبعاد

تدعم فكرة أبعاد البيانات هذا المفهوم بأكمله. تشير الأبعاد إلى عدد السمات (أو الميزات) المعينة لمجموعة بيانات واحدة. ومع ذلك، هناك مفاضلة في العمل هنا - كلما زادت كمية الأبعاد، زادت مساحة تخزين البيانات التي تتطلبها مجموعة البيانات هذه. علاوة على ذلك، كلما زادت الأبعاد، زاد معدل احتمالية أن تكون البيانات متناثرة ، مما يعقد تحليل القيمة الخارجية الضروري.

يقاوم تقليل الأبعاد ذلك من خلال الحد من "الضوضاء" في البيانات وتمكين تصور أفضل للبيانات. ومن الأمثلة الرئيسية على تقليل الأبعاد طريقة تحويل المويجة، والتي تساعد في ضغط الصورة من خلال الحفاظ على المسافة النسبية الموجودة بين الكائنات بمستويات دقة مختلفة.

استخراج السمات هو تحويل آخر ممكن للبيانات - وهو تحويل البيانات الأصلية إلى سمات رقمية ويعمل جنبًا إلى جنب مع التعلم الآلي. وهو يختلف عن تحليل المكونات الرئيسية (PCA)، وهو وسيلة أخرى لتقليل أبعاد مجموعات البيانات الكبيرة، حيث يتم تحويل مجموعة كبيرة من المتغيرات إلى مجموعة أصغر مع الاحتفاظ بمعظم البيانات من المجموعة الكبيرة.

تقليل العدد

تتضمن الطريقة الأخرى اختيار تنسيق أصغر وأقل كثافة في البيانات لتمثيل البيانات. هناك نوعان من تقليل الأعداد - ذلك الذي يعتمد على طرق المعلمات والآخر الذي يعتمد على طرق غير المعلمات. تركز طرق المعلمات مثل الانحدار على معلمات النموذج، لاستبعاد البيانات نفسها. وبالمثل، يمكن استخدام نموذج خطي لوغاريتمي يركز على المساحات الفرعية داخل البيانات. وفي الوقت نفسه، لا تعتمد طرق غير المعلمات (مثل الرسوم البيانية، التي توضح طريقة توزيع البيانات الرقمية) على النماذج على الإطلاق.

تجميع مكعب البيانات

مكعبات البيانات هي طريقة مرئية لتخزين البيانات. يعد مصطلح "مكعب البيانات" في الواقع مضللًا تقريبًا في معنى الفردية الضمني، لأنه يصف حقًا مكعبًا كبيرًا متعدد الأبعاد يتكون من أشكال مكعبية أصغر منظمة. يمثل كل من الأشكال المكعبية بعض جوانب البيانات الإجمالية داخل مكعب البيانات، على وجه التحديد أجزاء من البيانات المتعلقة بالقياسات والأبعاد. وبالتالي، فإن تجميع مكعب البيانات هو دمج البيانات في التنسيق المرئي متعدد الأبعاد للمكعب، مما يقلل من حجم البيانات من خلال إعطائها حاوية فريدة مصممة خصيصًا لهذا الغرض.

تقسيم البيانات إلى فئات

يُعد تقسيم البيانات إلى فئات أحد الأساليب المُعتمدة في تقليل البيانات، ويتم فيه إنشاء مجموعة خطية من القيم استنادًا إلى مجموعة محددة من الفترات الزمنية أو العددية، بحيث تُطابق كل فترة قيمة بيانات معينة مُحددة مسبقًا.

ضغط البيانات

من أجل الحد من حجم الملف وتحقيق ضغط البيانات بنجاح، يمكن استخدام أنواع مختلفة من الترميز. بشكل عام، يتم أخذ أساليب ضغط البيانات في الاعتبار إما باستخدام الضغط بدون فقدان البيانات أو الضغط مع فقد البيانات، ويتم تصنيفها وفقاً لهذين النوعين. في الضغط بدون فقدان، يتم تقليل حجم البيانات من خلال تقنيات وخوارزميات التشفير، ويمكن استعادة البيانات الأصلية الكاملة إذا لزم الأمر. من ناحية أخرى، يستخدم الضغط مع فقدان البيانات طرقًا أخرى لإجراء الضغط، وعلى الرغم من أن البيانات المعالجة قد تستحق الاحتفاظ بها، إلا أنها لن تكون نسخة طبق الأصل، كتلك التي ستحصل عليها مع الضغط بدون فقدان البيانات.

المعالجة المسبقة للبيانات

تحتاج بعض البيانات إلى التنظيف والمعالجة قبل الخضوع لعمليات تحليل البيانات وتقليل البيانات. قد يتضمن جزء من هذا التحول تغيير البيانات من التناظرية بطبيعتها إلى رقمية. تجميع البيانات هو مثال آخر على المعالجة المسبقة للبيانات، حيث يتم استخدام القيم الوسيطة لتطبيع أنواع مختلفة من البيانات وضمان تكامل البيانات في جميع المجالات.

حلول ذات صلة
برمجيات وحلول إدارة البيانات

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

استكشف حلول إدارة البيانات
IBM watsonx.data

يتيح لك watsonx.data توسيع نطاق التحليلات والذكاء الاصطناعي باستخدام جميع بياناتك، أينما كانت، من خلال مخزن بيانات مفتوح وهجين ومُدار.

اكتشف watsonx.data
خدمات الاستشارات في مجال البيانات والتحليلات

استفِد من قيمة بيانات المؤسسة باستخدام IBM Consulting، من خلال بناء مؤسسة تعتمد على الرؤى التي تقدِّم ميزة للأعمال.

اكتشف خدمات التحليلات
اتخِذ الخطوة التالية

صمم استراتيجية بيانات تقضي على صوامع البيانات، وتقلل من التعقيدات وتحسّن جودة البيانات للحصول على تجارب استثنائية للعملاء والموظفين.

استكشف حلول إدارة البيانات اكتشف watsonx.data