Início

topics

Análise de componentes principais

O que é a análise de componentes principais (PCA)?
Explore a solução IBM® PCA Inscreva-se para receber atualizações sobre IA
Ilustração com colagem de pictogramas de nuvens, gráfico de pizza, pictogramas de gráficos

Data de publicação: 8 de dezembro de 2023

O que é análise de componentes principais?

A análise de componentes principais (PCA) reduz o número de dimensões em grandes conjuntos de dados para os componentes principais que retêm a maior parte das informações originais. Ela faz isso transformando variáveis potencialmente correlacionadas em um conjunto menor de variáveis, chamadas componentes principais.

Karl Pearson é creditado como o criador da análise de componentes principais em 1901, mas ele ganhou popularidade com o aumento da disponibilidade de computadores, o que permitiu cálculos estatísticos multivariados em escala. A análise de componentes principais é muito eficaz para visualizar e explorar conjuntos de dados de alta dimensão ou dados com muitos atributos, pois pode identificar facilmente tendências, padrões ou valores discrepantes.

A análise de componentes principais é comumente usado para pré-processamento de dados para uso com algoritmos de aprendizado de máquina. Ele pode extrair os atributos mais informativos de grandes conjuntos de dados, simultaneamente preservando as informações mais relevantes do conjunto de dados inicial. Isso reduz a complexidade do modelo, pois a adição de cada novo atributo impacta negativamente o desempenho desse modelo, o que também é comumente chamado de "maldição da dimensionalidade". 

Ao projetar um conjunto de dados de alta dimensão em um espaço menor de atributos, a PCA também minimiza ou elimina completamente problemas comuns, como multicolinearidade e sobreajuste (overfitting). A multicolinearidade ocorre quando duas ou mais variáveis independentes estão altamente correlacionadas entre si, o que pode ser problemático para a modelagem causal. Os modelos sobreajustados tendem a generalizar os novos dados de modo insatisfatório, diminuindo completamente seu valor. PCA é uma abordagem comumente usada na análise de regressão, mas também é empregada em uma variedade de casos de uso, como reconhecimento de padrões, processamento de sinais, processamento de imagens e muito mais.

Embora existam outras variações da PCA, como a regressão por componentes principais e o Kernel PCA, o escopo deste artigo se concentrará no método principal da literatura atual.

PCA x LDA x análise fatorial

A PCA é uma técnica de redução da dimensionalidade como a análise discriminante linear (LDA). Ao contrário da LDA, a PCA não se limita a tarefas de aprendizado supervisionado.

Nas tarefas de aprendizado não supervisionado, na prática a PCA pode reduzir dimensões sem ter que considerar rótulos de classe ou categorias. A PCA também está intimamente relacionada à análise fatorial. Ambas reduzem o número de dimensões ou variáveis em um conjunto de dados, minimizando a perda de informações.

A PCA decompõe as variáveis em um subconjunto de componentes principais linearmente independentes. A análise fatorial, no entanto, é geralmente usada para entender as estruturas de dados subjacentes, com foco em variáveis latentes, ou fatores não medidos, que capturam a dispersão de uma variável.

PCA x agrupamento k-means

PCA e agrupamento k-means são técnicas de aprendizado de máquina não supervisionadas usadas para análise de dados, mas elas têm objetivos e métodos diferentes. A PCA é usada para reduzir a dimensionalidade dos dados, enquanto o agrupamento k-means agrupa pontos de dados com base na similaridade. A técnica selecionada depende do conjunto de dados e dos objetivos específicos da sua análise.

A PCA cria novas variáveis, como componentes principais, que são combinações lineares das variáveis originais. A PCA toma um conjunto de dados com múltiplas variáveis como entrada e produz um conjunto de dados em um subespaço inferior, ou seja, um conjunto de dados reduzido com menos variáveis. É frequentemente usado na análise exploratória de dados para construir modelos preditivos, mas também é usada no pré-processamento de dados para redução da dimensionalidade.

O K-means é um algoritmo de agrupamento que atribui pontos de dados a clusters com base em sua distância dos centros desses clusters. Ele usa um conjunto de dados com uma ou mais variáveis como entrada e produz um conjunto de clusters com pontos de dados semelhantes. Ele é frequentemente usado para agrupar dados para uma variedade de casos de uso, como segmentação de imagens, segmentação de clientes e detecção de anomalias.

Veja nosso tutorial passo a passo do agrupamento k-means
IBM nomeada líder pela IDC

Leia por que a IBM foi nomeada líder no relatório IDC MarketScape: Worldwide AI Governance Platforms 2023 report.

Conteúdo relacionado Registre-se para o white paper sobre governança de IA
Como a análise de componentes principais funciona

A PCA resume o conteúdo de informações de grandes conjuntos de dados em um conjunto menor de variáveis não correlacionadas conhecidas como componentes principais. Esses componentes principais são combinações lineares das variáveis originais que têm a variância máxima em comparação com outras combinações lineares. Esses componentes capturam o máximo possível de informações do conjunto de dados original.

Essa técnica estatística envolve operações de álgebra linear e matrizes e transforma o conjunto de dados original em um novo sistema de coordenadas estruturado pelos componentes principais. Os autovetores e autovalores da matriz de covariância que servem de base para os componentes principais permitem a análise dessas transformações lineares.

Imagine que você mapeou um conjunto de dados com vários atributos, resultando em um gráfico de dispersão multidimensional. Os autovetores fornecem a direção da variância no gráfico de dispersão. Os autovalores são os coeficientes dos autovetores; eles denotam a importância desses dados direcionais. Portanto, um autovalor alto significa que o autovetor correspondente é mais crítico. Como os componentes principais representam as direções da variância máxima nos dados, eles também são os autovetores da matriz de covariância.

Dois componentes principais são calculados na PCA: o primeiro componente principal (PC1) e o segundo componente principal (PC2).

Primeiro componente principal

O primeiro componente principal (PC1) é a direção no espaço ao longo da qual os pontos de dados têm a maior parte da variância ou a variância mais alta. É a linha que melhor representa a forma dos pontos projetados. Quanto maior a variabilidade capturada no primeiro componente, maior será a informação retida do conjunto de dados original. Nenhum outro componente principal pode ter uma variabilidade maior.

Segundo componente principal

Calculamos o segundo componente principal (PC2) da mesma forma que o PC1. O PC2 representa a segunda maior variância no conjunto de dados e não deve estar correlacionada com o PC1. Ou seja, o PC2 deve ser ortogonal, ou seja, vertical, ao PC1. Essa relação também pode ser expressa como a correlação entre PC1 e PC2 igual a zero. 

Um gráfico de dispersão é normalmente usado para mostrar a relação entre o PC1 e o PC2 quando a PCA é aplicada a um conjunto de dados. Os eixos PC1 e PC2 são perpendiculares entre si.

Se houver componentes subsequentes, eles também reteriam as mesmas propriedades, nas quais não seriam correlacionados com outros componentes, explicando toda a variação restante.

Experimente por conta própria com o IBM® watsonx

Aprenda como reduzir a dimensionalidade de um conjunto de dados aplicando a PCA com Python.

Cálculo dos componentes principais

O processo de cálculo da PCA está resumido nas etapas abaixo, mostrando como os componentes principais são calculados e como eles se relacionam com os dados originais.

Padronização do intervalo de variáveis iniciais contínuas

Como a PCA pode exibir um viés para atributos específicos, é importante avaliar se a normalização dos dados é necessária. Os dados devem refletir uma distribuição normal com uma média de zero e um desvio padrão de um. 

Nessa etapa, os valores médios das variáveis são calculados e subtraídos do conjunto de dados original para que cada variável contribua igualmente para a análise. Esse valor é então dividido pelo desvio padrão de cada variável para que todas as variáveis usem a mesma escala.

Cálculo da matriz de covariância para identificar correlações

A covariância (cov) mede a intensidade da correlação entre duas ou mais variáveis. A matriz de covariância resume as covariâncias associadas a todas as combinações de pares das variáveis iniciais do conjunto de dados. O cálculo da matriz de covariância ajuda a identificar as relações entre as variáveis, ou seja, como as variáveis se desviam da média em relação umas às outras. Essa matriz de dados é uma matriz simétrica, o que significa que as combinações de variáveis podem ser representadas como d × d, em que d é o número de dimensões. Por exemplo, em um conjunto de dados tridimensional, haveria 3 × 3 ou 9 combinações de variáveis na matriz de covariância.

O sinal das variáveis na matriz nos diz se as combinações estão correlacionadas:

  • Positivo (as variáveis são correlacionadas e aumentam ou diminuem ao mesmo tempo)
  • Negativo (as variáveis não estão correlacionadas, o que significa que uma diminui enquanto a outra aumenta)
  • Zero (as variáveis não estão relacionadas entre si)
Cálculo dos autovetores e dos autovalores da matriz de covariância

Aqui, calculamos os autovetores (componentes principais) e os autovalores da matriz de covariância. Como autovetores, os componentes principais representam as direções de máxima variância dos dados. Os autovalores representam a quantidade de variância em cada componente. A classificação dos autovetores pelo autovalor identifica a ordem dos componentes principais.

Seleção dos componentes principais

Aqui, decidimos quais componentes manter e quais descartar. Componentes com autovalores baixos normalmente não serão tão significativos. Os gráficos de declive (scree plots) geralmente representam a proporção da variância total explicada e a proporção cumulativa da variância. Essas métricas ajudam a determinar o número ideal de componentes a serem retidos. O ponto em que o eixo Y dos autovalores ou da variância total explicada cria um "cotovelo" geralmente indicará quantos componentes da PCA devemos incluir.

Transformação dos dados no novo sistema de coordenadas

Por fim, os dados são transformados no novo sistema de coordenadas definido pelos componentes principais. Ou seja, o vetor de atributos criado a partir dos autovetores da matriz de covariância projeta os dados nos novos eixos definidos pelos componentes principais. Isso cria novos dados, capturando a maior parte das informações, mas com menos dimensões do que o conjunto de dados original.

Interpretação dos resultados da PCA

O gráfico da PCA é um gráfico de dispersão criado através do uso dos dois primeiros componentes principais como eixos. O primeiro componente principal (PC1) é o eixo x, e o segundo componente principal (PC2) é o eixo y. O gráfico de dispersão mostra as relações entre as observações (pontos de dados) e as novas variáveis (os componentes principais). A posição de cada ponto mostra os valores de PC1 e PC2 nessa observação.

A direção e o comprimento das setas do gráfico indicam as cargas das variáveis, ou seja, como cada variável contribui para os componentes principais. Se uma variável tiver uma carga alta em relação a um componente específico, ela estará fortemente correlacionada com esse componente. Isso mostra quais variáveis têm impacto significativo nas variações de dados.

O número de componentes principais que permanecem após a aplicação da PCA ajuda na interpretação da saída de dados. O primeiro componente principal explica a maior parte da variância dos dados, e cada componente posterior é responsável por menos variância. Assim, o número de componentes pode indicar a quantidade de informações retidas do conjunto de dados original. Ter menos componentes após a aplicação da PCA pode significar que você não capturou uma variação de dados muito grande. Ter mais componentes indica mais variação de dados, mas os resultados podem ser mais difíceis de interpretar. Você pode decidir o número ideal de componentes a serem retidos usando um gráfico de declive ou a variância explicada acumulada.

Aplicações da análise de componentes principais  

A aplicação da PCA ajuda no pré-processamento ou na extração dos atributos mais informativos dos conjuntos de dados com muitas variáveis. O pré-processamento reduz a complexidade e ao mesmo tempo preserva as informações relevantes. Os cenários comuns de uso da PCA incluem:

Compressão de imagens

A PCA reduz a dimensionalidade da imagem e retém as informações essenciais. Ela ajuda a criar representações compactas das imagens, tornando-as mais fáceis de armazenar e transmitir.

Visualização de dados

A PCA ajuda a visualizar dados de alta dimensão projetando-os em um espaço de menor dimensão, como um gráfico 2D ou 3D. Isso simplifica a interpretação e a exploração de dados.

Filtragem de ruído

A PCA pode remover ruídos ou informações redundantes dos dados concentrando-se nos componentes principais que capturam os padrões subjacentes. 

Prevenção do câncer de mama

A PCA também tem aplicações na área da saúde.

Por exemplo, ela auxilia o diagnóstico de doenças de forma mais precoce e precisa. O artigo "Breast Cancer Prediction using Principal Component Analysis with Logistic Regression" analisa um conjunto de dados bem conhecido de câncer de mama coletado de pacientes nos hospitais da Universidade de Wisconsin, na cidade de Madison.

O autor do estudo, Akbar, usa a PCA para reduzir as dimensões dos seis diferentes atributos de dados:

  • mean_radius (raio médio) do nódulo na mama

  • mean_texture (textura média) da imagem de raio-X

  • mean_perimeter (perímetro médio) do nódulo

  • mean_area (área média) do caroço

  • mean_smoothness (nitidez média) da imagem

  • diagnóstico (se o paciente foi diagnosticado com câncer ou não)
     

Um algoritmo de classificação de aprendizado supervisionado, de regressão logística, foi então aplicado para prever se o câncer de mama estava presente.

Quando usar a análise de componentes principais

Há muitas outras técnicas de redução de dimensionalidade disponíveis, incluindo a análise discriminante linear, a floresta aleatória, a aproximação e projeção múltipla uniforme (UMAP) e a incorporação de vizinhos estocásticos distribuídos em t (t-SNE). Considere os seguintes fatores para decidir se a PCA é a abordagem certa para sua análise:

  • Linearidade: a PCA é uma técnica linear, enquanto outras técnicas, como t-SNE e UMAP, são não lineares. Isso significa que a PCA é mais adequada para conjuntos de dados com relações lineares entre as variáveis. As técnicas não lineares são mais adequadas para conjuntos de dados com relações não lineares ou mais complexas entre as variáveis.

  • Computação: a PCA usa operações de matrizes para computação para gerenciar com eficiência grandes conjuntos de dados. Outras técnicas, como t-SNE e UMAP, são caras e podem não ser adequadas para grandes conjuntos de dados.

  • Preservação de informações: a PCA preserva a quantidade máxima de variância nos dados. As técnicas t-SNE e UMAP se concentram na preservação da estrutura local dos dados. A PCA é, portanto, mais adequada para identificar as variáveis de dados mais importantes. As técnicas não lineares são mais adequadas para visualizar os dados em dimensões mais baixas. 

  • Extração de atributos: a PCA é uma técnica de extração de atributos. Ela produz novas variáveis que são combinações lineares das variáveis originais. Outras técnicas (como UMAP e t-SNE) não criam novas variáveis. Isso significa que a PCA pode identificar as variáveis mais importantes nos dados. As técnicas não lineares são mais adequadas para visualizar os dados em dimensões mais baixas.
Produtos relacionados
Serviços de consultoria de IA

Reinvente sua forma de trabalhar com a IA: nossa equipe global diversificada de mais de 20 mil especialistas em IA pode ajudar você a projetar e escalar a IA e a automação de forma rápida e confiável em toda a sua empresa, trabalhando com nossa própria tecnologia IBM watsonx e um ecossistema aberto de parceiros para oferecer qualquer modelo de IA, em qualquer nuvem, orientado por ética e confiança.

Explore os serviços de consultoria em IA da IBM
Soluções de IA

Operacionalize a IA em seu negócio para oferecer benefícios com rapidez e ética.  Nosso amplo portfólio de produtos de IA empresarial e soluções de análise são projetados para reduzir as barreiras da adoção de IA e estabelecer a base de dados correta, ao mesmo tempo em que otimizam os resultados e o uso responsável.

Explore as soluções de IA da IBM

IBM watsonx

Multiplique o poder da IA com nossa plataforma de dados e IA de última geração. O IBM watsonx é um portfólio de ferramentas, aplicações e soluções prontas para o negócio, projetado para reduzir os custos e os obstáculos da adoção da IA e, ao mesmo tempo, otimizar os resultados e o uso responsável da IA.

Explore o watsonx

Recursos relacionados Participe da discussão

Saiba mais sobre a relação entre a matriz de componentes e o gráfico de componentes na saída da PCA com nossa comunidade de ciência de dados.

A PCA ideal em modelos distribuídos e de streaming

Este artigo estuda o problema da análise de componentes principais (PCA) nos modelos de computação distribuídos e de streaming.

Pré-processamento de dados em detalhes

Saiba como refinar seus modelos e previsões com diferentes abordagens de pré-processamento de dados.

Redução da dimensionalidade com a análise de componentes principais (PCA) com Python

Reduza a dimensionalidade de um conjunto de dados aplicando a PCA em conjunto com Python.

Redução da dimensionalidade com a análise de componentes principais em conjunto com R

Otimize a classificação de um conjunto de dados aplicando a PCA com o R.

Dê o próximo passo

Crie uma estratégia de IA para sua empresa em uma plataforma colaborativa de IA e dados, o IBM watsonx. Treine, valide, ajuste e implemente modelos de IA para ajudar você a escalar e acelerar o impacto da IA com dados confiáveis em toda a sua empresa.

Explore o watsonx Agende uma demonstração em tempo real