A Karl Pearson se le atribuye el desarrollo de PCA en 1901, pero ganó popularidad con la mayor disponibilidad de computadoras, lo que permitió cálculos estadísticos multivariantes1 a escala. PCA es muy eficaz para visualizar y explorar conjuntos de datos de alta dimensión, o datos con muchas características, ya que puede identificar fácilmente tendencias, patrones o valores atípicos.
PCA se utiliza comúnmente en el preprocesamiento de datos para su uso con algoritmos de aprendizaje automático. Puede extraer las características más informativas de grandes conjuntos de datos mientras conserva la información más relevante del conjunto de datos inicial. Esto reduce la complejidad del modelo, ya que la adición de cada nueva característica afecta negativamente el rendimiento del modelo, lo que también se conoce comúnmente como la “maldición de la dimensionalidad”.
Al proyectar un conjunto de datos de alta dimensión en un espacio de características más pequeño, PCA también minimiza, o elimina por completo, problemas comunes como la multicolinealidad y el ajuste excesivo. La multicolinealidad ocurre cuando dos o más variables independientes están altamente correlacionadas entre sí, lo que puede ser problemático para el modelado causal. Los modelos con un ajuste excesivo se generalizarán deficientemente como nuevos datos, lo que disminuirá por completo su valor. PCA es un enfoque comúnmente utilizado dentro del análisis de regression, pero también se aprovecha para una variedad de casos de uso, como reconocimiento de patrones, procesamiento de señales, procesamiento de imágenes y más.
Si bien existen otras variaciones de PCA, como regression de componentes principales y la PCA de kernel, el alcance de este artículo se centrará en el método principal dentro de la literatura actual.