Karl Pearson é creditado como o criador da análise de componentes principais em 1901, mas ele ganhou popularidade com o aumento da disponibilidade de computadores, o que permitiu cálculos estatísticos multivariados em escala. A análise de componentes principais é muito eficaz para visualizar e explorar conjuntos de dados de alta dimensão ou dados com muitos atributos, pois pode identificar facilmente tendências, padrões ou valores discrepantes.
A análise de componentes principais é comumente usado para pré-processamento de dados para uso com algoritmos de aprendizado de máquina. Ele pode extrair os atributos mais informativos de grandes conjuntos de dados, simultaneamente preservando as informações mais relevantes do conjunto de dados inicial. Isso reduz a complexidade do modelo, pois a adição de cada novo atributo impacta negativamente o desempenho desse modelo, o que também é comumente chamado de "maldição da dimensionalidade".
Ao projetar um conjunto de dados de alta dimensão em um espaço menor de atributos, a PCA também minimiza ou elimina completamente problemas comuns, como multicolinearidade e sobreajuste (overfitting). A multicolinearidade ocorre quando duas ou mais variáveis independentes estão altamente correlacionadas entre si, o que pode ser problemático para a modelagem causal. Os modelos sobreajustados tendem a generalizar os novos dados de modo insatisfatório, diminuindo completamente seu valor. PCA é uma abordagem comumente usada na análise de regressão, mas também é empregada em uma variedade de casos de uso, como reconhecimento de padrões, processamento de sinais, processamento de imagens e muito mais.
Embora existam outras variações da PCA, como a regressão por componentes principais e o Kernel PCA, o escopo deste artigo se concentrará no método principal da literatura atual.