Se atribuye a Karl Pearson el desarrollo del ACP en 1901, pero su popularidad aumentó con la mayor disponibilidad de ordenadores, que permitían realizar cálculos estadísticos multivariantes1 a escala. El PCA es muy eficaz para visualizar y explorar conjuntos de datos de alta dimensión, o datos con muchas características, ya que puede identificar fácilmente tendencias, patrones o valores atípicos.
El PCA se utiliza comúnmente para el preprocesamiento de datos para su uso con algoritmos de machine learning. Puede extraer las características más informativas de grandes conjuntos de datos al tiempo que conserva la información más relevante del conjunto de datos inicial. Esto reduce la complejidad del modelo, ya que la adición de cada nueva característica repercute negativamente en el rendimiento del modelo, lo que también se conoce comúnmente como la "maldición de la dimensionalidad".
Al proyectar un conjunto de datos de alta dimensión en un espacio de características más pequeño, el PCA también minimiza, o elimina por completo, problemas comunes como la multicolinealidad y el sobreajuste. La multicolinealidad ocurre cuando dos o más variables independientes están altamente correlacionadas entre sí, lo que puede ser problemático para el modelado causal. Los modelos sobreajustados se generalizan mal a los nuevos datos, lo que disminuye su valor. El PCA es un enfoque de uso común dentro del análisis de regression, pero también se aprovecha para una variedad de casos de uso, como el reconocimiento de patrones, el procesamiento de señales, el procesamiento de imágenes y más.
Aunque hay otras variaciones del PCA, como la regresión de componentes principales y el PCA del núcleo, el alcance de este artículo se centrará en el método principal de la literatura actual.