يقوم تحليل PCA بتلخيص محتوى المعلومات في مجموعات البيانات الكبيرة في مجموعة أصغر من المتغيرات غير المترابطة تُعرف باسم المكونات الرئيسية. هذه المكونات الرئيسية عبارة عن مجموعات خطية من المتغيرات الأصلية تمتلك أكبر قدر من التباين مقارنةً بالمجموعات الخطية الأخرى. تلتقط هذه المكونات أكبر قدر ممكن من المعلومات من مجموعة البيانات الأصلية.
تتضمن هذه التقنية الإحصائية كلا من الجبر الخطي وعمليات المصفوفة، وتستخدم في تحويل مجموعة البيانات الأصلية إلى نظام إحداثيات جديد يُنظم حسب المكونات الرئيسية. يتم تمثيل المكونات الرئيسية بواسطة المتجهات الذاتية (eigenvectors) والقيم الذاتية (eigenvalues) من مصفوفة التغاير، والتي تساعد في تحليل التحولات الخطية.
لنفترض أنك قد رسمت مخططاً لمجموعة بيانات متعددة الخصائص، مما أدى إلى حصولك على مخطط تشتت متعدد الأبعاد. تحدد المتجهات الذاتية اتجاه التباين في مخطط التشتت. أما القيم الذاتية فهي المعاملات المرتبطة بالمتجهات الذاتية، والتي تشير إلى أهمية هذه البيانات الاتجاهية. لذلك، إذا كانت القيمة الذاتية عالية، فهذا يعني أن المتجه الذاتي المرتبط بها أكثر أهمية. وبما أن المكونات الرئيسية تمثل اتجاهات التباين الأكبر في البيانات، فهي أيضًا المتجهات الذاتية لمصفوفة التغاير.
يتم حساب مكونين رئيسيين في تحليل PCA: المكون الرئيسي الأول (PC1) والمكون الرئيسي الثاني (PC2).