ما هو تقليل الأبعاد؟
تطبيق تقليل الأبعاد باستخدام watsonx.ai سجل للتعرف على تحديثات الذكاء الاصطناعي
توضيح لمساحة البيانات متعددة الأبعاد

نُشر في: 5 يناير 2024
المشاركون: Jacob Murel Ph.D.، Eda Kavlakoglu

ما هو تقليل الأبعاد؟

تُعزز تقنيات تقليل الأبعاد، مثل تحليل مكونات البيانات الرئيسية (PCA) والتحليل التمييزي الخطي (LDA) وتضمين الجوار العشوائي الموزع (t-SNE)، نماذج التعلم الآلي، حيث تحافظ هذه التقنيات على الميزات الأساسية لمجموعات البيانات المعقدة من خلال تقليل عدد المتغيرات المتنبئة لزيادة قابلية التعميم.

يُعد تقليل الأبعاد طريقة لتمثيل مجموعة بيانات معينة باستخدام عدد أقل من الميزات (أي الأبعاد) مع الحفاظ على الخصائص ذات المغزى للبيانات الأصلية.1 ويعني ذلك إزالة الميزات غير ذات الصلة أو المكررة أو ببساطة البيانات الصاخبة لإنشاء نموذج يحتوي على عدد أقل من المتغيرات، كما يشمل تقليل الأبعاد مجموعة من أساليب اختيار الميزات وضغط البيانات المستخدمة أثناء المعالجة المسبقة. وعلى الرغم من اختلاف طرق تقليل الأبعاد في آلية العمل، فإنها جميعًا تحول المساحات عالية الأبعاد إلى مساحات منخفضة الأبعاد من خلال استخراج المتغيرات أو دمجها.

الذكاء الاصطناعي التوليدي والتعلم الآلي (ML) للمؤسسات

تعرّف على المزايا الرئيسية للذكاء الاصطناعي التوليدي وكيف يمكن للمؤسسات دمج الذكاء الاصطناعي التوليدي والتعلم الآلي في أعمالها.

محتوى ذو صلة سجّل للحصول على الدليل لقادة البيانات
لماذا تستخدم تقليل الأبعاد؟

في التعلم الآلي، الأبعاد (أو الميزات) هي المتغيرات المتنبئة التي تحدد مخرجات النموذج، كما يُمكن أن تُسمى المتغيرات المدخلة. وتُشير البيانات عالية الأبعاد إلى أي مجموعة بيانات تحتوي على عدد كبير من المتغيرات المتنبئة، حيث يمكن أن تظهر مثل هذه المجموعات من البيانات بشكل متكرر في علم الأحياء الإحصائي وكذلك في الدراسات الرصدية للعلوم الاجتماعية، حيث يفوق عدد نقاط البيانات (أي الملاحظات) عدد المتغيرات المتنبئة.

تُشكل مجموعات البيانات عالية الأبعاد عددًا من المخاوف العملية لخوارزميات التعلم الآلي، مثل زيادة وقت الحوسبة ومساحة التخزين للبيانات الكبيرة، وما إلى ذلك. ومع ذلك، فإن التحدي الأكبر قد يكون انخفاض الدقة في النماذج التنبؤية، فغالبًا ما تعمم النماذج الإحصائية ونماذج التعلم الآلي المدربة على مجموعات البيانات عالية الأبعاد بشكل سيئ.

لعنة الأبعاد

تُشير لعنة الأبعاد إلى العلاقة العكسية بين زيادة أبعاد النموذج وانخفاض قابليته للتعميم. فمع زيادة عدد المتغيرات المدخلة للنموذج، تزداد مساحة النموذج. ومع ذلك، إذا ظل عدد نقاط البيانات كما هو، تصبح البيانات متناثرة. وهذا يعني أن معظم مساحة ميزات النموذج فارغة، أي بدون نقاط بيانات قابلة للملاحظة. فمع زيادة تباعد البيانات، تصبح نقاط البيانات مختلفة لدرجة أن النماذج التنبؤية تصبح أقل فعالية في تحديد الأنماط التفسيرية.2

لتفسير الأنماط بشكل كافٍ في البيانات المتناثرة، قد تقوم النماذج بفرط التخصيص مع بيانات التدريب. وبهذه الطريقة، يمكن أن تؤدي الزيادات في الأبعاد إلى ضعف القابلية للتعميم، كما يمكن للأبعاد العالية أن تعيق تفسير النموذج من خلال إحداث التعدد الخطي. فمع زيادة كمية متغيرات النموذج، تزداد أيضًا إمكانية أن تكون بعض المتغيرات مكررة أو مترابطة.

يُمكن أن يقلل جمع مزيد من البيانات من تباعد البيانات وبالتالي يعوض عن لعنة الأبعاد. ومع ذلك، مع زيادة عدد الأبعاد في النموذج، يزداد عدد نقاط البيانات اللازمة للحد من لعنة الأبعاد بشكل كبير.3 وبطبيعة الحال، فإن جمع بيانات كافية ليس ممكنًا دائمًا. وبالتالي، هناك حاجة إلى تقليل الأبعاد لتحسين عملية تحليل البيانات.

طرق تقليل الأبعاد

تُقلل تقنيات تقليل الأبعاد عادةً من النماذج إلى مساحة أقل أبعادًا عن طريق استخراج ميزات النموذج أو دمجها. ومع ذلك، تختلف خوارزميات تقليل الأبعاد فيما بينها رغم هذا التشابه الأساسي.

تحليل المكونات الرئيسية

تحليل المكونات الرئيسية (PCA) هو ربما الطريقة الأكثر شيوعًا لتقليل الأبعاد. فهو شكل من أشكال استخراج الميزات، مما يعني أنه يجمع ويحوّل الميزات الأصلية لمجموعة البيانات لإنتاج ميزات جديدة، تُسمى المكونات الرئيسية. وفي الأساس، يختار تحليل المكونات الرئيسية (PCA) مجموعة فرعية من المتغيرات من أحد النماذج بحيث تشكل معًا غالبية أو كل التباين الموجود في مجموعة المتغيرات الأصلية. ثم يقوم تحليل المكونات الرئيسية (PCA) بإسقاط البيانات على مساحة جديدة تُعرَّف بهذه المجموعة الفرعية من المتغيرات.4

فعلى سبيل المثال، تخيل لدينا مجموعة بيانات حول الأفاعي تحتوي على أربعة متغيرات: طول الجسم (X1)، وقطر الجسم عند أوسع نقطة (X2)، وطول الأنياب (X3)، والوزن (X4)، والعمر (X5). بالطبع، قد تكون بعض هذه الميزات الخمس مترابطة، مثل طول الجسم والقطر والوزن، ويمكن أن يؤدي هذا التكرار في الميزات إلى بيانات متناثرة وتراكب زائد، مما يقلل من تباين النموذج (أو قابليته للتعميم) الذي يتم إنتاجه من هذه البيانات، حيث يحسب تحليل المكونات الرئيسية (PCA) متغير جديد (PC1) من هذه البيانات والذي يجمع بين متغيرين أو أكثر ويزيد من تباين البيانات. فعن طريق دمج المتغيرات المحتملة التكرار، يقوم تحليل المكونات الرئيسية (PCA) أيضًا بإنشاء نموذج يحتوي على عدد أقل من المتغيرات مقارنةً بالنموذج الأولي. وهكذا، نظرًا لأن مجموعة البيانات الخاصة بنا بدأت بخمسة متغيرات (أي خمسة أبعاد)، يمكن أن يحتوي النموذج المُخفَّض على أي عدد من واحد إلى أربعة متغيرات (أي نموذج أحادي إلى رباعي الأبعاد). وبعد ذلك، يتم تعيين البيانات على هذا النموذج الجديد.5

هذا المتغير الجديد ليس أيًا من المتغيرات الأصلية الخمسة ولكنه ميزة مجمعة تم حسابها من خلال تحويل خطي لمصفوفة التباين في البيانات الأصلية. وتحديدًا، يكون مكوننا الرئيسي المجمع هو المتجه الذاتي المقابل لأكبر قيمة ذاتية في مصفوفة التباين، كما يمكننا إنشاء مكونات رئيسية إضافية تجمع بين متغيرات أخرى. ويكون المكون الرئيسي الثاني هو المتجه الذاتي للقيمة الذاتية الثانية الأكبر، وهكذا.6

التحليل التمييزي الخطي

يُشابه التحليل التمييزي الخطي (LDA) تحليل المكونات الرئيسية (PCA) من حيث أنه يقوم بإسقاط البيانات على مساحة جديدة أقل أبعادًا، وتُستمد الأبعاد من النموذج الأولي، حيث يختلف التحليل التمييزي الخطي (LDA) عن تحليل المكونات الرئيسية (PCA) في اهتمامه بالاحتفاظ بتسميات التصنيف في مجموعة البيانات. فبينما ينتج تحليل المكونات الرئيسية (PCA) متغيرات مكونات جديدة تهدف إلى زيادة تباين البيانات، ينتج التحليل التمييزي الخطي (LDA) متغيرات مكونات تهدف أيضًا إلى زيادة الفرق بين الفئات في البيانات.7

فخطوات تنفيذ التحليل التمييزي الخطي (LDA) مشابهة لتلك الخاصة بتحليل المكونات الرئيسية (PCA). والاستثناء الرئيسي هو أن الأول يستخدم مصفوفة التشتت بينما يستخدم الأخير مصفوفة التباين. وإلا، كما هو الحال في تحليل المكونات الرئيسية (PCA)، يحسب التحليل التمييزي الخطي (LDA) بحساب تركيبات خطية لميزات البيانات الأصلية التي تتوافق مع أكبر القيم الذاتية في مصفوفة التشتت. فأحد أهداف التحليل التمييزي الخطي (LDA) هو زيادة الفرق بين الفئات إلى الحد الأقصى مع تقليل الفرق داخل الفئات.8

تضمين الجوار العشوائي الموزع

التحليل التمييزي الخطي (LDA) وتحليل المكونات الرئيسية (PCA) هما نوعان من خوارزميات تقليل الأبعاد الخطية. ومع ذلك، يُعد تضمين الجوار العشوائي الموزع (t-SNE) شكل من أشكال تقليل الأبعاد غير الخطية (أو التعلم المتشعب/متعدد الأبعاد). في حين يهدف التحليل التمييزي الخطي (LDA) وتحليل المكونات الرئيسية (PCA) بشكل أساسي إلى الحفاظ على تباين النموذج، فإنهما يُركزان على الاحتفاظ بالمسافات بين نقاط البيانات غير المتشابهة في تمثيلاتها الأقل أبعادًا. وفي المقابل، يهدف تضمين الجوار العشوائي الموزع (t-SNE) إلى الحفاظ على الهيكل المحلي للبيانات مع تقليل أبعاد النموذج، كما يختلف تضمين الجوار العشوائي الموزع (t-SNE) عن التحليل التمييزي الخطي (LDA) وتحليل المكونات الرئيسية (PCA) في أن الأخيرين قد ينتجان نماذج تحتوي على أكثر من ثلاثة أبعاد، طالما أن النموذج الناتج يحتوي على أبعاد أقل من البيانات الأصلية. أما تضمين الجوار العشوائي الموزع (t-SNE)، فيقوم بتصور جميع مجموعات البيانات في بُعدين أو ثلاثة أبعاد.

وكأسلوب تحويل غير خطي، يتخلى تضمين الجوار العشوائي الموزع (t-SNE) عن مصفوفات البيانات. وبدلاً من ذلك، يستخدم تضمين الجوار العشوائي الموزع (t-SNE) نواة غاوسي (Gaussian) لحساب التشابه الزوجي بين نقاط البيانات. حيث يكون للنقاط القريبة من بعضها في المجموعة الأصلية احتمالية أكبر أن تكون قريبة من بعضها مقارنة بالنقاط الأبعد. وبعد ذلك، يرسم تضمين الجوار العشوائي الموزع (t-SNE) نقاط البيانات على مساحة ثلاثية أو ثنائية الأبعاد مع محاولة الحفاظ على أزواج البيانات.9

هناك عدد من طرق تقليل الأبعاد الأخرى، مثل تحليل المكونات الرئيسية (PCA) ذو النواة، وتحليل العوامل، والغابات العشوائية، وتحليل القيمة المفردة (SVD). فطرق تحليل المكونات الرئيسية (PCA) والتحليل التمييزي الخطي (LDA) وتضمين الجوار العشوائي الموزع (t-SNE) هم من بين الأكثر استخدامًا وتداولًا. لاحظ أن كثير من الحزم والمكتبات، مثل scikit-learn، تأتي محملة مسبقًا بوظائف لتنفيذ هذه التقنيات.

أمثلة على حالات الاستخدام

غالبًا ما يُستخدم تقليل الأبعاد لغرض عرض البيانات عرضًا مصورًا.

الإحصاء الحيوي

في سياق الأبحاث البيولوجية، حيث يتجاوز عدد المتغيرات الجينية عدد الملاحظات، يتم اللجوء إلى تقنيات تقليل الأبعاد. لذلك، تقارن عدد من الدراسات بين تقنيات تقليل الأبعاد المختلفة، مع تحديد تقنية تضمين الجوار العشوائي الموزع (t-SNE) وتحليل المكونات الرئيسية (PCA) للنواة كأكثر الأساليب فعالية لمجموعات البيانات الجينومية المختلفة،10 بينما تقترح دراسات أخرى معايير أكثر تحديدًا لاختيار طرق تقليل الأبعاد في الأبحاث البيولوجية الحاسوبية.11 وإحدى الدراسات الحديثة تقترح نسخة معدلة من تحليل المكونات الرئيسية (PCA) للتحليلات الجينية المتعلقة بالأصول (الأسلاف) مع توصيات للحصول على إسقاطات غير متحيزة.12

معالجة اللغة الطبيعية

يُعد التحليل الدلالي الكامن (LSA) شكلاً من أشكال تحليل القيمة المفردة (SVD) والذي يُطبق على المستندات النصية في معالجة اللغة الطبيعية. وبشكل أساسي، يعتمد التحليل الدلالي الكامن (LSA) على مبدأ أن الكلمات المتشابهة في المعنى تميل إلى الظهور معًا في المساحات الفرعية أو العينات الصغيرة من اللغة،13 حيث يُستخدم التحليل الدلالي الكامن لمقارنة لغة الدعم العاطفي الذي يقدمه العاملون في المجال الطبي للجدال من أجل أفضل الممارسات الخطابية للمرضى في نهاية حياتهم،14 كما تستخدم أبحاث أخرى التحليل الدلالي الكامن كمقياس تقييم لتأكيد الرؤى والفعالية التي توفرها تقنيات التعلم الآلي الأخرى.15

موارد ذات الصلة التعلم الخاضع لإشراف مقابل التعلم غير الخاضع لإشراف: ما الفرق؟

يتناول منشور مدونة IBM مناقشة تقليل الأبعاد في سياق التعلم الخاضع لإشراف وغير الخاضع لإشراف.

تنفيذ التحليل التمييزي الخطي (LDA) في Python

يرشد دليل IBM المستخدمين حول كيفية تنفيذ التحليل التمييزي الخطي (LDA) في Python لتحسين أداء نماذج التصنيف.

التعلم غير الخاضع لإشراف باستخدام نماذج المتغيرات الكامنة المتباينة

يقترح باحثو IBM نموذجًا احتماليًا لتقليل الأبعاد بهدف اكتشاف إشارات مُثْرَاة في مجموعة البيانات المستهدفة مقارنةً بمجموعة البيانات الخلفية.

الحواشي

1 Lih-Yuan Deng, Max Garzon, and Nirman Kumar, Dimensionality Reduction in Data Science, Springer, 2022.

2 Ian Goodfellow Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016.

3 Richard Bellman, Adaptive Control Processes: A Guided Tour, Princeton University Press, 1961.

4 I.T. Jollife, Principal Component Analysis, Springer, 2002.

5 Chris Albon, Machine Learning with Python Cookbook, O’Reilly, 2018. Nikhil Buduma, Fundamentals of Deep Learning, O’Reilley, 2017.

6 I.T. Joliffe, Principal Component Analysis, Springer, 2002. Heng Tao Shen, “Principal Component Analysis,” Encyclopedia of Database Systems, Springer, 2018.

7 Chris Albon, Machine Learning with Python Cookbook, O’Reilly, 2018.

8 Chris Ding, “Dimension Reduction Techniques for Clustering,” Encyclopedia of Database Systems, Springer, 2018.

9 Laurens van der Maaten and Geoffrey Hinton, “Visualizing Data Using t-SNE,” Journal of Machine Learning Research, vol. 9, no. 86, 2008, pp. 2579−2605, https://www.jmlr.org/papers/v9/vandermaaten08a.html (link resides outside ibm.com).

10 Shunbao Li, Po Yang,  and Vitaveska Lanfranchi, "Examing and Evaluating Dimension Reduction Algorithms for Classifying Alzheimer’s Diseases using Gene Expression Data," 17th International Conference on Mobility, Sensing and Networking (MSN), 2021, pp. 687-693, https://ieeexplore.ieee.org/abstract/document/9751471 (link resides outside ibm.com). Ruizhi Xiang, Wencan Wang, Lei Yang, Shiyuan Wang, Chaohan Xu, and Xiaowen Chen, "A Comparison for Dimensionality Reduction Methods of Single-Cell RNA-seq Data," Frontiers in Genetics, vol. 12, 2021, https://www.frontiersin.org/journals/genetics/articles/10.3389/fgene.2021.646936/full (link resides outside ibm.com).

11 Shiquan Sun, Jiaqiang Zhu, Ying Ma, and Xiang Zhou, “Accuracy, robustness and scalability of dimensionality reduction methods for single-cell RNA-seq analysis,” Genome Biology, vol. 20, 2019, https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1898-6 (link resides outside ibm.com).  Lan Huong Nguyen and Susan Holmes, “Ten quick tips for effective dimensionality reduction,” PLoS Computational Biology, vol. 15, no. 6, 2019, https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1006907 (link resides outside ibm.com).

12 Daiwei Zhang, Rounak Dey, and Seunggeun Lee, "Fast and robust ancestry prediction using principal component analysis," Bioinformatics, vol. 36, no. 11, 2020, pp. 3439–3446, https://academic.oup.com/bioinformatics/article/36/11/3439/5810493 (link resides outside ibm.com).

13 Nitin Indurkhya and Fred Damerau, Handbook of Natural Language Processing, 2nd edition, CRC Press, 2010.

14 Lauren Kane, Margaret Clayton, Brian Baucom, Lee Ellington, and Maija Reblin, "Measuring Communication Similarity Between Hospice Nurses and Cancer Caregivers Using Latent Semantic Analysis," Cancer Nursing, vol. 43, no. 6, 2020, pp. 506-513, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6982541/ (link resides outside ibm.com).

15 Daniel Onah, Elaine Pang, and Mahmoud El-Haj, "Data-driven Latent Semantic Analysis for Automatic Text Summarization using LDA Topic Modelling," 2022 IEEE International Conference on Big Data, 2022, pp. 2771-2780, https://ieeexplore.ieee.org/abstract/document/10020259 (link resides outside ibm.com).