تقليل الأبعاد هو تقنية علم البيانات المستخدمة في خطوة المعالجة المسبقة في التعلم الآلي.6 خلال هذه العملية، تتم إزالة البيانات غير ذات الصلة والزائدة عن الحاجة مع الاحتفاظ بالمعلومات ذات الصلة بمجموعة البيانات الأصلية.
يمكن اعتبار الميزات على أنها سمات كائن البيانات. على سبيل المثال، في مجموعة البيانات للحيوانات، قد تتوقع بعض الميزات العددية (العمر والطول والوزن) والميزات الفئوية (اللون والنوع والسلالة). يُعَد استخراج الميزات جزءًا من بنية الشبكة العصبية للنموذج، مثل الشبكة العصبية التلافيفية (CNN).
في البداية، يستقبل النموذج بيانات الإدخال، ثم يحوِّل مستخرج الميزات هذه البيانات إلى تمثيل رقمي يمكن استخدامه لحساب أساليب تقليل الأبعاد لاستخراج الميزات. يتم تخزين هذه التمثيلات في متجهات ميزات حتى يتمكن النموذج من تنفيذ خوارزميات لتقليل البيانات.
بعد الاستخراج، من الضروري في بعض الأحيان توحيد معايير البيانات باستخدام تطبيع الميزات، خاصةً عند استخدام خوارزميات حساسة لحجم المتغيرات ومقياسها (مثل خوارزميات الانحدار المعتمدة على التدرج، والتجميع بالمتوسط K-means).
يمكن اتباع طرق مختلفة لتحقيق نتائج معينة اعتمادًا على المهام. تسعى جميع الطرق إلى تبسيط البيانات مع الحفاظ على المعلومات الأكثر قيمة.
تعمل معظم نماذج الذكاء الاصطناعي الحديثة على استخراج الميزات تلقائيًا، ولكن لا يزال من المفيد فهم الطرق المتنوعة للتعامل معها. فيما يلي بعض طرق استخراج الميزات الشائعة المستخدمة للأبعاد:
تحليل العناصر الأساسية (PCA): تعمل هذه التقنية على تقليل عدد الميزات في مجموعة البيانات الكبيرة إلى عناصر أساسية أو ميزات جديدة يستخدمها مصنِّف النموذج لمهامه المحددة.
تحظى PCA بشعبية بسبب قدرتها على إنشاء بيانات أصلية غير مرتبطة، ما يعني أن الأبعاد الجديدة التي تُنشئها PCA مستقلة عن بعضها.7 هذا يجعل PCA حلًا فعَّالًا للإفراط في التخصيص بسبب نقص تكرار البيانات لأن كل ميزة فريدة من نوعها.
تحليل التمييز الخطي (LDA): تُستخدم هذه التقنية عادةً في التعلم الآلي الخاضع للإشراف لفصل الفئات والميزات المتعددة لحل مشكلات التصنيف.
وتُستخدم هذه التقنية بشكل شائع لتحسين نماذج التعلم الآلي. يتم تصنيف نقاط البيانات الجديدة باستخدام الإحصاء البايزي لنمذجة توزيع البيانات لكل فئة.
التمثيل المضمَّن للعلاقات الجوارية العشوائية الموزعة (t-SNE): تُستخدَم هذه التقنية في التعلم الآلي عادةً في مهام مثل تصور الميزات في التعلم العميق.8 ويكون ذلك مفيدًا بشكل خاص عندما تكون المهمة هي إنشاء تصورات لبيانات عالية الأبعاد في بُعدين أو ثلاثة أبعاد.
ويُستخدَم هذا بشكل شائع لتحليل الأنماط والعلاقات في علم البيانات. نظرًا لطبيعته غير الخطية، يُعَد t-SNE مكلفًا حسابيًا، وغالبًا ما يُستخدم فقط في مهام التصور.
تكرار المصطلح وعكس تكرار الوثيقة (TF-IDF): تُقيّم هذه الطريقة الإحصائية أهمية الكلمات بناءً على مدى تكرار ظهورها. يتم قياس تكرار المصطلح في وثيقة معينة مقابل مدى تكراره عبر جميع الوثائق ضمن المجموعة أو المتن اللغوي.9
وتُستخدم هذه التقنية عادةً في معالجة اللغة الطبيعية (NLP) لأغراض التصنيف والتجميع واسترجاع المعلومات. تُعَد طريقة حقيبة الكلمات (Bag of words) تقنية مشابهة، لكنها لا تأخذ في الاعتبار مدى أهمية المصطلح، بل تتعامل مع جميع الكلمات على نحو متساوٍ.