A análise de componentes principais (PCA) é, possivelmente, o método de redução de dimensionalidade mais comum. Trata-se de uma forma de extração de funcionalidades, o que significa que combina e transforma as funcionalidades originais do conjunto de dados para produzir novas características, chamadas componentes principais. Essencialmente, o PCA seleciona um subconjunto de variáveis de um modelo que, juntas, capturam a maior parte ou toda a variância presente no conjunto original de variáveis. O PCA então projeta os dados em um novo espaço definido por esse subconjunto de variáveis.4

Por exemplo, imagine um conjunto de dados sobre cobras com cinco variáveis: comprimento do corpo (X 1 ), diâmetro do corpo no ponto mais largo (X 2 ), comprimento das presas (X 3 ), peso (X 4 ) e idade (X 5 ). Algumas dessas características podem ser correlacionadas, como comprimento do corpo, diâmetro e peso. Essa redundância pode levar à esparsidade dos dados e ao superajuste, reduzindo a variância (ou a capacidade de generalização) do modelo. O PCA calcula uma nova variável (PC 1 ) que combina duas ou mais variáveis e maximiza a variância dos dados. Ao combinar variáveis potencialmente redundantes, o PCA também cria um modelo com menos variáveis do que o modelo inicial. Assim, se nosso conjunto de dados começou com cinco variáveis (isto é, cinco dimensões), o modelo reduzido pode ter de uma a quatro variáveis (ou seja, de uma a quatro dimensões). Os dados são então mapeados nesse novo modelo.5

Essa nova variável não é nenhuma das cinco originais, mas sim uma característica combinada obtida por meio de uma transformação linear da matriz de covariância dos dados originais. Especificamente, nosso componente principal combinado é o autovetor correspondente ao maior autovalor da matriz de covariância. Também podemos criar componentes principais adicionais combinando outras variáveis. O segundo componente principal é o autovetor do segundo maior autovalor, e assim por diante.6