ما هو تحليل المكونات الرئيسية (PCA)؟

8 ديسمبر 2023

ما المقصود بتحليل المكونات الرئيسية (PCA)؟

تحليل المكونات الرئيسية (PCA) هو تقنية لتقليل عدد الأبعاد في مجموعات البيانات الكبيرة إلى مكونات رئيسية تحتفظ بمعظم المعلومات الأصلية. ويتم تحليل PCA ذلك عن طريق تحويل المتغيرات التي يُحتمل أن تكون مترابطة إلى مجموعة أصغر من المتغيرات، تُسمَّى المكونات الرئيسية.

يُنسب إلى Karl Pearson تطوير تحليل PCA عام 1901، ولكن زادت شعبيته مع زيادة توفر أجهزة الكمبيوتر، مما سمح بإجراء حسابات إحصائية متعددة المتغيرات على نطاق واسع. يُعد تحليل PCA فعالاً للغاية في تصور مجموعات البيانات عالية الأبعاد واستكشافها، أو البيانات التي تحتوي على العديد من الميزات، حيث يمكنه بسهولة تحديد الاتجاهات أو الأنماط أو القيم الخارجية.

يُستخدم تحليل PCA عادةً لمعالجة البيانات قبل استخدامها مع خوارزميات التعلم الآلي. إذ يمكنه استخراج الميزات الأكثر إفادة من مجموعات البيانات الكبيرة مع الحفاظ على المعلومات الأكثر أهمية من مجموعة البيانات الأصلية. يؤدي هذا إلى تقليل تعقيد النموذج حيث إن إضافة كل ميزة جديدة تؤثر سلبًا على أداء النموذج، وهو ما يشار إليه أيضًا باسم "لعنة الأبعاد". 

ومن خلال إسقاط مجموعة بيانات عالية الأبعاد في مساحة ميزات أصغر، يقلل تحليل المكونات الرئيسية (PCA) المشكلات الشائعة مثل التعدد الخطي والإفراط في التكيف أو يزيلها تمامًا. فالتعددية الخطية تحدث عندما تكون متغيرات مستقلة متعددة مترابطة بشكل كبير مع بعضها، ما يمكن أن يتسبب في حدوث مشكلة في النمذجة السببية. ومن ثمَّ ستعمل النماذج التي تعاني من الإفراط في التخصيص بشكل ضعيف عند تعميم النتائج على البيانات الجديدة، ما يؤثر سلبًا في قيمتها. 
يُعد تحليل PCA نهجًا شائع الاستخدام في تحليل الانحدار، ولكن يُستفاد منه أيضًا في مجموعة متنوعة من حالات الاستخدام، مثل التعرُّف على الأنماط، ومعالجة الإشارات، ومعالجة الصور، وغيرها الكثير.

عل الرغم من وجود أنواع أخرى من تحليل PCA، مثل الانحدار باستخدام المكونات الرئيسية و تحليل kernel PCA، يركز هذا المقال على الطريقة الأساسية المتداولة في الأدبيات الحالية.

مقارنة بين تحليل المكونات الرئيسية (PCA) وتحليل التمييز الخطي (LDA) وتحليل العوامل (Factor Analysis)

يُعَد تحليل PCA تقنية لتقليل الأبعاد مثل التحليل التمييزي الخطي (LDA). على عكس تحليل LDA، لا يقتصر تحليل PCA على مهام التعلم الموجّه. بالنسبة لمهام التعلم غير الموجّه، هذا يعني أنه يمكن استخدام تحليل PCA لتقليل الأبعاد دون الحاجة إلى النظر إلى تسميات أو فئات التصنيف. يرتبط تحليل PCA أيضًا ارتباطًا وثيقًا بتحليل العوامل، حيث يهدف كلاهما إلى تقليل عدد الأبعاد أو المتغيرات في مجموعة البيانات مع تقليل فقدان المعلومات إلى أدنى حد. يقسِّم تحليل PCA المتغيرات إلى مجموعة فرعية من المكونات الرئيسية المستقلة خطيًا. أما تحليل العوامل فيُستخدَم بشكل عام لفهم هياكل البيانات الأساسية، حيث يركِّز على المتغيرات الكامنة، أو العوامل غير المُقاسة، التي تفسِّر انتشار المتغير.

الفرق بين تحليل PCA وخوارزمية التجميع بالمتوسطات (K-means clustering)

يُعَد كل من تحليل PCA وخوارزمية k-means clustering تقنيات تعلم آلي موجّه تُستخدَم لتحليل البيانات، ولكن لكل منهما أهداف وأساليب مختلفة. يُستخدم تحليل PCA لتقليل أبعاد البيانات، في حين تهدف خوارزمية k-mean إلى تجميع نقاط البيانات معًا بناء على التشابه. تعتمد التقنية التي تختارها على مجموعة البيانات التي تحددها وأهداف تحليلك.

يُنشئ تحليل المكونات الرئيسية (PCA) متغيرات جديدة، مثل المكونات الرئيسية، وهي تركيبات خطية من المتغيرات الأصلية. يأخذ تحليل PCA مجموعة بيانات تحتوي على متغيرات متعددة كمدخلات، وينتج مجموعة بيانات في مساحة فرعية أقل، أي مجموعة بيانات أقل تعقيدًا مع متغيرات أقل. غالبًا ما يُستخدَم في تحليل البيانات الاستكشافي لبناء نماذج تنبؤية، كما يُستخدَم أيضًا في المعالجة المسبقة للبيانات لتقليل الأبعاد.

أما خوارزمية K-mean فهي خوارزمية تجميع تقوم بتعيين نقاط البيانات للمجموعات بناءً على بعدها عن مراكز الكتلة. تأخذ مجموعة بيانات تحتوي على متغير واحد أو أكثر كمدخلات، وتُنتِج مجموعات ذات نقاط بيانات مماثلة. تُستخدَم خوارزمية K-means عادةً في تجميع البيانات لمجموعة متنوعة من حالات الاستخدام، مثل تقسيم الصور، وتقسيم العملاء، واكتشاف حالات الخلل.

ما هو تحليل المكونات الرئيسية؟

يقوم تحليل PCA بتلخيص محتوى المعلومات في مجموعات البيانات الكبيرة في مجموعة أصغر من المتغيرات غير المترابطة تُعرف باسم المكونات الرئيسية. هذه المكونات الرئيسية عبارة عن مجموعات خطية من المتغيرات الأصلية تمتلك أكبر قدر من التباين مقارنةً بالمجموعات الخطية الأخرى. تلتقط هذه المكونات أكبر قدر ممكن من المعلومات من مجموعة البيانات الأصلية.

تتضمن هذه التقنية الإحصائية كلا من الجبر الخطي وعمليات المصفوفة، وتستخدم في تحويل مجموعة البيانات الأصلية إلى نظام إحداثيات جديد يُنظم حسب المكونات الرئيسية. يتم تمثيل المكونات الرئيسية بواسطة المتجهات الذاتية (eigenvectors) والقيم الذاتية (eigenvalues) من مصفوفة التغاير، والتي تساعد في تحليل التحولات الخطية.

لنفترض أنك قد رسمت مخططاً لمجموعة بيانات متعددة الخصائص، مما أدى إلى حصولك على مخطط تشتت متعدد الأبعاد. تحدد المتجهات الذاتية اتجاه التباين في مخطط التشتت. أما القيم الذاتية فهي المعاملات المرتبطة بالمتجهات الذاتية، والتي تشير إلى أهمية هذه البيانات الاتجاهية. لذلك، إذا كانت القيمة الذاتية عالية، فهذا يعني أن المتجه الذاتي المرتبط بها أكثر أهمية. وبما أن المكونات الرئيسية تمثل اتجاهات التباين الأكبر في البيانات، فهي أيضًا المتجهات الذاتية لمصفوفة التغاير.

يتم حساب مكونين رئيسيين في تحليل PCA: المكون الرئيسي الأول (PC1) والمكون الرئيسي الثاني (PC2).

المكون الرئيسي الأول

المكون الرئيسي الأول (PC1) هو الاتجاه الموجود في الفضاء الذي تمتلك فيه نقاط البيانات أعلى أو أكبر قدر من التباين. يُعتبر الخط الذي يشكل أفضل تمثيل لشكل النقاط المسقطة. وكلما زاد التباين الذي يمثله هذا المكون، زادت كمية المعلومات المحتفظ بها من مجموعة البيانات الأصلية. لا يمكن لأي مكون رئيسي آخر أن يمتلك تباين أعلى.

المكون الرئيسي الثاني

نحسب المكون الرئيسي الثاني (PC2) بالطريقة نفسها التي نحسب بها المكون الرئيسي الأول (PC1). يمثل مكون PC2 أعلى تباين تالٍ في مجموعة البيانات ويجب أن يكون غير مرتبط بالمكون PC1. وهذا يعني أنه يجب أن يكون المكون PC2 متعامدًا على المكون PC1. يمكن أيضًا التعبير عن هذه العلاقة على أن الارتباط بين المكون الرئيسي الأول (PC1) والمكون الرئيسي الثاني (PC2) يساوي صفرًا.

عادة ما يتم استخدام مخطط التشتت لإظهار العلاقة بين المكون PC1 والمكون PC2 عند تطبيق تحليل PCA على مجموعة بيانات. ستكون المحاور الخاصة بالمكون PC1 والمكون PC2 متعامدة على بعضهما البعض.

إذا كان هناك أي مكونات إضافية، فستحتفظ أيضًا بنفس الخصائص، حيث لن تكون مرتبطة بالمكونات الأخرى وستفسر أي تباينات متبقية.

حساب المكونات الرئيسية

فيما يلي الخطوات الموجزة التي توضح كيفية حساب المكونات الرئيسية وكيفية ارتباطها بالبيانات الأصلية:

توحيد نطاق المتغيرات الأولية المستمرة

نظرًا لأن تحليل PCA يمكن أن يميل نحو ميزات محددة، فمن المهم تقييم إذا ما كانت هناك حاجة إلى تطبيع البيانات. يجب أن تعكس البيانات توزيعًا طبيعيًا بمتوسط صفر وانحراف معياري يساوي واحدًا.

في هذه الخطوة، يتم حساب القيم المتوسطة للمتغيرات وطرحها من مجموعة البيانات الأصلية، بحيث يساهم كل متغير بالتساوي في التحليل. ثم يتم قسمة هذه القيمة على الانحراف المعياري لكل متغير بحيث يتم استخدام نفس المقياس لجميع المتغيرات.

حساب مصفوفة التغاير لتحديد الارتباطات

يقيس التغاير (cov) مدى قوة الارتباط بين متغيرين أو أكثر. تلخص مصفوفة التغاير التغايرات المرتبطة بجميع أزواج المتغيرات الأولية في مجموعة البيانات. يساعد حساب مصفوفة التغاير في تحديد العلاقات بين المتغيرات - أي كيف تختلف المتغيرات عن المتوسط بالنسبة لبعضها البعض. هذه المصفوفة هي عبارة عن مصفوفة متماثلة، ما يعني أن مجموعات المتغيرات يمكن تمثيلها بحجم d × d، حيث d هو عدد الأبعاد. على سبيل المثال، بالنسبة لمجموعة البيانات ثلاثية الأبعاد، سيتم تمثيلها في مصفوفة التغاير المشترك 3 × 3 أو 9 مجموعات متغيرة .

إشارة المتغيرات في المصفوفة توضح ما إذا كانت المجموعات مترابطة:

  • إيجابي (المتغيرات مترابطة وتزداد أو تنخفض في الوقت نفسه).

  • سلبي (المتغيرات غير مترابطة، ما يعني أن أحدهما يتناقص في حين يزداد الآخر)

  • صفر (المتغيرات غير مترابطة ببعضها البعض)

حساب المتجهات الذاتية والقيم الذاتية لمصفوفة التغاير

في هذه الخطوة، يتم حساب المتجهات الذاتية (المكونات الرئيسية) والقيم الذاتية لمصفوفة التغاير. كمتجهات ذاتية، تمثل المكونات الرئيسية اتجاهات التباين الأقصى في البيانات. تمثل القيم الذاتية مقدار التباين في كل مكون. يحدد ترتيب المتجهات الذاتية حسب القيمة الذاتية ترتيب المكونات الرئيسية.

اختيار المكونات الرئيسية

في هذه الخطوة، نقرر أي المكونات يجب الاحتفاظ بها وأيها يجب التخلص منها. لن تكون المكونات ذات القيم الذاتية المنخفضة عادةً ذا أهمية. يمكن استخدام مخططات Scree لعرض نسبة التباين الإجمالي المفسر والنسبة التراكمية للتباين، مما يساعد على تحديد عدد المكونات التي ينبغي الاحتفاظ بها. النقطة التي ينشأ فيها "الانحناء" على المحور Y للقيم الذاتية أو للتباين الإجمالي المفسر تشير عادةً إلى عدد المكونات في تحليل PCA التي نريد تضمينها.

تحويل البيانات إلى نظام إحداثيات جديد

وأخيرًا، يتم تحويل البيانات إلى نظام الإحداثيات الجديد الذي تحدده المكونات الرئيسية. أي أن متجه الميزات الناتج عن المتجهات الذاتية لمصفوفة التغاير يقوم بإسقاط البيانات على المحاور الجديدة المحددة بواسطة المكونات الرئيسية. ينتج عن ذلك بيانات جديدة، تحتفظ بمعظم المعلومات الأصلية ولكن بأبعاد أقل من مجموعة البيانات الأصلية.

تفسير نتائج تحليل PCA

يتم تمثيل نتائج PCA عادةً باستخدام مخطط انتشار (scatter plot) يعتمد على أول مكونين رئيسيين كمحاور يمثل المكون الرئيسي الأول (PC1) المحور الأفقي (x-axis)، ويمثل المكون الرئيسي الثاني (PC2) المحور العمودي (y-axis) يظهر مخطط التشتت العلاقات بين الملاحظات (نقاط البيانات) والمتغيرات الجديدة (المكونات الرئيسية). يوضح موضع كل نقطة قيم المكون PC1 والمكون PC2 لتلك الملاحظة.

يشير اتجاه وطول الأسهم في المخطط إلى أحمال المتغيرات، أي مدى مساهمة كل متغير في المكونات الرئيسية. إذا كانت قيمة التحميل لمتغير معين عالية، فهذا يعني أن المتغير مرتبط بقوة بهذا المكون يمكن أن يبرز ذلك المتغيرات التي لها تأثير كبير على التباين في البيانات.

يمكن أن يساعدك عدد المكونات الرئيسية المتبقية بعد تطبيق تحليل PCA في تفسير مخرجات البيانات. يفسر المكون الرئيسي الأول أكبر قدر من التباين في البيانات، ويفسر كل مكون لاحق تباينا أقل. وبالتالي، يمكن أن يشير عدد المكونات إلى مقدار المعلومات المحتفظ بها من مجموعة البيانات الأصلية. وجود عدد أقل من المكونات بعد تطبيق تحليل PCA قد يعني أن القليل من التباين في البيانات قد تم التقاطه. وجود المزيد من المكونات يعني مزيدًا من التباين في البيانات، ولكن النتائج قد تكون أصعب في التفسير. يمكنك تحديد العدد الأمثل للمكونات للاحتفاظ بها باستخدام إما مخطط سكري (scree plot) أو النسبة التراكمية للتباين المفسَّر.

تطبيقات تحليل المكونات الرئيسية

يمكن أن يساعد تطبيق تحليل PCA في المعالجة المسبقة لمجموعات البيانات ذات العديد من المتغيرات أو استخراج الميزات الأكثر إفادة منها. تقلل المعالجة المسبقة من التعقيد مع الاحتفاظ بالمعلومات المهمة. تتضمن السيناريوهات الشائعة التي تستخدم تحليل PCA ما يلي:

ضغط الصور

يعمل تحليل PCA على تقليل أبعاد الصورة مع الاحتفاظ بالمعلومات الأساسية. يساعد ذلك على إنشاء تمثيلات مضغوطة للصور، ما يسهل تخزينها ونقلها.

عرض مصور للبيانات

يساعد تحليل PCA على تصور البيانات عالية الأبعاد من خلال إسقاطها في مساحة ذات بُعد أقل، مثل المخططات ثنائية الأبعاد أو ثلاثية الأبعاد. وهذا يسهّل تفسير البيانات واستكشافها.

تنقية الضوضاء

يمكن لتحليل المكونات الرئيسية (PCA) إزالة الضوضاء أو المعلومات الزائدة من البيانات من خلال التركيز على المكونات الرئيسية التي تلتقط الأنماط الأساسية.

التنبؤ بسرطان الثدي

يُستخدَم تحليل PCA أيضًا في مجال الرعاية الصحية. على سبيل المثال، ساعد التحليل على تشخيص الأمراض في وقت مبكر وبشكل أكثر دقة. تناولت الورقة البحثية "Breast Cancer Prediction using Principal Component Analysis with Logistic Regression" تحليل مجموعة بيانات معروفة عن سرطان الثدي2 والتي تم جمعها من مرضى في مستشفيات جامعة ويسكونسن، ماديسون. يستخدِم مؤلف الدراسة، Akbar، تحليل PCA لتقليل أبعاد خصائص البيانات الست المختلفة:

  • متوسط نصف قطر ورم الثدي

  • متوسط النسيج لصورة الأشعة السينية

  • متوسط محيط الورم

  • متوسط مساحة الورم

  • متوسط نعومة الصورة

  • التشخيص (ما إذا كان تم تشخيص المريض بالسرطان أم لا).

بعد تقليل الأبعاد باستخدام تحليل PCA، تم تطبيق خوارزمية تعلم موجّه، وهي الانحدار اللوجستي، للتنبؤ بما إذا كان سرطان الثدي موجودًا أم لا.

متى يتم استخدام تحليل المكونات الرئيسية

توجد العديد من تقنيات تقليل الأبعاد الأخرى المتاحة، مثل التحليل التمييزي الخطي، والغابة العشوائية، والتقريب والإسقاط المتشعب الموحد (UMAP)، والجار العشوائي الموزع (t-SNE). إليك بعض العوامل التي يجب مراعاتها لتحديد إذا ما كان تحليل PCA هو النهج الصحيح لتحليلك:

  • الخطية: تحليل PCA هو تقنية خطية، في حين تُعَد التقنيات الأخرى مثل t-SNE وUMAP غير خطية. وبالتالي، فإن تحليل PCA أكثر ملاءمة لمجموعات البيانات التي تحتوي على علاقات خطية بين المتغيرات. أما التقنيات غير الخطية فهي أكثر ملاءمة لمجموعات البيانات التي تحتوي على علاقات غير خطية أو أكثر تعقيدًا بين المتغيرات.

  • الحساب: يعتمد تحليل PCA على العمليات المصفوفية لإدارة مجموعات البيانات الكبيرة بكفاءة. على العكس من ذلك، فإن التقنيات الأخرى، مثل t-SNE وUMAP، أكثر تكلفة من الناحية الحسابية وقد لا تكون مناسبة للتعامل مع مجموعات البيانات الكبيرة.

  • الحفاظ على المعلومات: يركِّز تحليل PCA على الحفاظ على أكبر قدر من التباين في البيانات، في حين يركِّز t-SNE وUMAP على الحفاظ على البنية المحلية للبيانات. لذلك، يُعَد تحليل PCA أكثر ملاءمة لتحديد متغيرات البيانات الأكثر أهمية. في حين تكون التقنيات غير الخطية أكثر ملاءمة لتصور البيانات في أبعاد أقل.

  • استخراج الميزات: يعدّ تحليل PCA تقنية لاستخراج الميزات، حيث ينتج متغيرات جديدة تمثل مزيجًا خطيًا من المتغيرات الأصلية. أما التقنيات الأخرى (مثل UMAP و t-SNE) فهي لا تنشأ متغيرات جديدة. هذا يعني أن تحليل PCA يمكنه تحديد أهم المتغيرات في البيانات. في حين تكون التقنيات غير الخطية أكثر ملاءمة لتصور البيانات في أبعاد أقل.