¿Qué es el análisis de componentes principales (PCA)?

¿Qué es el análisis de componentes principales (PCA)?

El análisis de componentes principales (PCA) reduce el número de dimensiones de grandes conjuntos de datos a componentes principales que conservan la mayor parte de la información original. Esto se logra transformando variables potencialmente correlacionadas en un conjunto más pequeño de variables, llamadas componentes principales.

A Karl Pearson se le atribuye el desarrollo de PCA en 1901, pero ganó popularidad con la mayor disponibilidad de computadoras, lo que permitió cálculos estadísticos multivariantesa escala. PCA es muy eficaz para visualizar y explorar conjuntos de datos de alta dimensión, o datos con muchas características, ya que puede identificar fácilmente tendencias, patrones o valores atípicos.

PCA se utiliza comúnmente en el preprocesamiento de datos para su uso con algoritmos de aprendizaje automático. Puede extraer las características más informativas de grandes conjuntos de datos mientras conserva la información más relevante del conjunto de datos inicial. Esto reduce la complejidad del modelo, ya que la adición de cada nueva característica afecta negativamente el rendimiento del modelo, lo que también se conoce comúnmente como la “maldición de la dimensionalidad”. 

Al proyectar un conjunto de datos de alta dimensión en un espacio de características más pequeño, PCA también minimiza, o elimina por completo, problemas comunes como la multicolinealidad y el ajuste excesivo. La multicolinealidad ocurre cuando dos o más variables independientes están altamente correlacionadas entre sí, lo que puede ser problemático para el modelado causal. Los modelos con un ajuste excesivo se generalizarán deficientemente como nuevos datos, lo que disminuirá por completo su valor. PCA es un enfoque comúnmente utilizado dentro del análisis de regression, pero también se aprovecha para una variedad de casos de uso, como reconocimiento de patrones, procesamiento de señales, procesamiento de imágenes y más.

Si bien existen otras variaciones de PCA, como regression de componentes principales y la PCA de kernel, el alcance de este artículo se centrará en el método principal dentro de la literatura actual.

Las últimas tendencias de IA presentadas por expertos

Obtenga insights curados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM .

¡Gracias! Ya está suscrito.

Su suscripción se entregará en inglés. En cada boletín, encontrará un enlace para darse de baja. Puede gestionar sus suscripciones o darse de baja aquí. Consulte nuestra Declaración de privacidad de IBM para obtener más información.

PCA vs LDA vs análisis factorial

El PCA es una técnica de reducción de dimensiones como el análisis discriminatorio lineal (LDA). A diferencia de LDA, PCA no se limita a tareas de aprendizaje supervisado . Para las tareas de aprendizaje no supervisado , esto significa que PCA puede reducir las dimensiones sin tener que considerar etiquetas de clase o categories. El PCA también está estrechamente relacionado con el análisis factorial. Ambos reducen el número de dimensiones o variables en un conjunto de datos a la vez que minimizan la pérdida de información. PCA desglosa las variables en un subconjunto de componentes principales linealmente independientes. Sin embargo, el análisis factorial se usa generalmente para comprender las estructuras de datos subyacentes, centrándose en variables latentes, o factores no medidos, que capturan la dispersión de una variable.

Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

PCA vs agrupación de K-means

PCA y la agrupación k-means son técnicas de machine learning no supervisado que se usan para el análisis de datos, pero tienen objetivos y métodos diferentes. El PCA se emplea para reducir la dimensionalidad de los datos, mientras que la agrupación k-means reúne los puntos de datos en función de su similitud. La técnica que elija dependerá del conjunto de datos específico y de los objetivos de su análisis.

PCA crea nuevas variables, como los componentes principales, que son combinaciones lineales de las variables originales. PCA toma un conjunto de datos con diversas variables como entrada y produce un conjunto de datos en un subespacio inferior, es decir, un conjunto de datos reducido con menos variables. A menudo se emplea en el análisis exploratorio de datos para crear modelos predictivos, pero también en el preprocesamiento de datos para la reducción de la dimensionalidad.

K-means es un algoritmo de agrupamiento que asigna puntos de datos a los clústeres en función de su distancia desde los centros de los clústeres. Toma un conjunto de datos con una o más variables como entrada y produce un conjunto de clústeres con puntos de datos similares. A menudo se emplea para agrupar datos para una variedad de casos de uso, como la segmentación de imágenes, la segmentación de clientes y la detección de anomalías.

Cómo funciona el análisis de componentes principales

PCA resume el contenido de información de grandes conjuntos de datos en un conjunto más pequeño de variables no correlacionadas conocidas como componentes principales. Estos componentes principales son combinaciones lineales de las variables originales que tienen la varianza máxima en comparación con otras combinaciones lineales. Estos componentes capturan tanta información del conjunto de datos original como sea posible.

Esta técnica estadística involucra operaciones de álgebra lineal y matricial, y transforma el conjunto de datos original en un nuevo sistema de coordenadas que está estructurado por los componentes principales. Los vectores propios y los valores propios de la matriz de covarianza que sustentan los componentes principales permiten el análisis de estas transformaciones lineales.

Imagine que trazó un conjunto de datos con múltiples características, lo que da como resultado un diagrama de dispersión multidimensional. Los vectores propios proporcionan la dirección de la varianza en el diagrama de dispersión. Los valores propios son los coeficientes de los vectores propios; estos denotan la importancia de estos datos direccionales. Por lo tanto, un valor propio alto significa que el vector propio correspondiente es más crítico. Dado que los componentes principales representan las direcciones de máxima varianza en los datos, también son los vectores propios de la matriz de covarianza.

En el PCA se calculan dos componentes principales: el primer componente principal (PC1) y el segundo componente principal (PC2).

Primer componente principal

El primer componente principal (PC1) es la dirección en el espacio a lo largo de la cual los puntos de datos tienen la mayor o más alta varianza. Es la línea que mejor representa la forma de los puntos proyectados. Cuanto mayor sea la variabilidad capturada en el primer componente, mayor será la información retenida del conjunto de datos original. Ningún otro componente principal puede tener una variabilidad mayor.

Segundo componente principal

Calculamos el segundo componente principal (PC2) de la misma manera que PC1. PC2 representa la siguiente varianza más alta en el conjunto de datos y no debe estar correlacionada con PC1. Es decir, PC2 debe ser ortogonal, es decir, perpendicular, a PC1. Esta relación también se puede expresar como la correlación entre PC1 y PC2 igual a cero.

Normalmente, se emplea un diagrama de dispersión para mostrar la relación entre PC1 y PC2 cuando se aplica PCA a un conjunto de datos. Los ejes PC1 y PC2 serán perpendiculares entre sí.

Si hay componentes posteriores, también conservarían las mismas propiedades, donde no estarían correlacionados con otros componentes y explicarían cualquier variación restante.

Cálculo de los componentes principales

El proceso de cálculo de PCA se resume en los pasos siguientes, mostrando cómo se calculan los componentes principales y cómo se relacionan con los datos originales.

Estandarice el rango de variables iniciales continuas

Dado que el PCA puede tener un sesgo respecto a las características específicas, es importante evaluar si es necesaria la normalización de los datos. Los datos deben reflejar una distribución normal con una media de cero y una desviación estándar de uno.

En este paso, se calculan los valores medios de las variables y se restan del conjunto de datos original para que cada variable contribuya por igual al análisis. Posteriormente, este valor se divide por la desviación estándar de cada variable para que todas las variables empleen la misma escala.

Calcule la matriz de covarianza para identificar correlaciones

La covarianza (cov) mide el grado de correlación entre dos o más variables. La matriz de covarianzas resume las covarianzas asociadas con todas las combinaciones de pares de las variables iniciales en el conjunto de datos. El cálculo de la matriz de covarianza ayuda a identificar las relaciones entre las variables, es decir, cómo las variables varían de la media entre sí. Esta matriz de datos es una matriz simétrica, lo que significa que las combinaciones de variables se pueden representar como d × d, donde d es el número de dimensiones. Por ejemplo, para un conjunto de datos tridimensional, habría 3 × 3 o 9 combinaciones de variables en la matriz de covarianza.

El signo de las variables de la matriz nos indica si las combinaciones están correlacionadas:

  • Positivo (las variables están correlacionadas y aumentan o disminuyen al mismo tiempo)

  • Negativo (las variables no están correlacionadas, lo que significa que una disminuye mientras que la otra aumenta)

  • Cero (las variables no están relacionadas entre sí)

Calcule los vectores propios y los valores propios de la matriz de covarianza

Aquí, calculamos los vectores propios (componentes principales) y los valores propios de la matriz de covarianza. Como vectores propios, los componentes principales representan las direcciones de máxima varianza en los datos. Los valores propios representan la cantidad de varianza en cada componente. La clasificación de los vectores propios por valor propio identifica el orden de los componentes principales.

Seleccione los componentes principales

Aquí, decidimos qué componentes conservar y cuáles descartar. Los componentes con valores propios bajos normalmente no serán tan significativos. Los diagramas de sedimentación suelen representar la proporción de la varianza total explicada y la proporción acumulada de la varianza. Estas métricas ayudan a determinar el número óptimo de componentes que se deben retener. El punto en el que el eje Y de los valores propios o la varianza total explicada crea un "codo" indicará generalmente cuántos componentes de PCA queremos incluir.

Transforme los datos en el nuevo sistema de coordenadas

Finalmente, los datos se transforman al nuevo sistema de coordenadas definido por los componentes principales. Es decir, el vector de características creado a partir de los vectores propios de la matriz de covarianza proyecta los datos sobre los nuevos ejes definidos por los componentes principales. Esto crea datos nuevos, capturando la mayor parte de la información pero con menos dimensiones que el conjunto de datos original.

Interpretación de los resultados del PCA

Un gráfico PCA es un gráfico de dispersión creado por medio de los dos primeros componentes principales como ejes. El primer componente principal (PC1) es el eje x, y el segundo componente principal (PC2) es el eje y. El diagrama de dispersión muestra las relaciones entre las observaciones (puntos de datos) y las nuevas variables (los componentes principales). La posición de cada punto muestra los valores de PC1 y PC2 para esa observación.

La dirección y la longitud de las flechas del gráfico indican las cargas de las variables, es decir, cómo cada variable contribuye a los componentes principales. Si una variable tiene una carga alta para un componente en particular, está fuertemente correlacionada con ese componente. Esto puede resaltar qué variables tienen un impacto significativo en las variaciones de datos.

El número de componentes principales que quedan después de aplicar PCA puede ayudarle a interpretar la salida de datos. El primer componente principal explica la mayor variación de datos, y cada componente posterior representa menos varianza. Por lo tanto, el número de componentes puede indicar la cantidad de información retenida del conjunto de datos original. Menos componentes después de aplicar PCA podría significar que no capturó mucha variación de datos. Más componentes indican más variación de datos, pero los resultados pueden ser más difíciles de interpretar. Puede decidir el número óptimo de componentes que se van a conservar a través de un diagrama de pantalla o la varianza explicada acumulativa.

Aplicaciones del análisis de componentes principales

La aplicación del ACP puede ayudar a preprocesar o extraer las características más informativas de conjuntos de datos con muchas variables. El preprocesamiento reduce la complejidad al tiempo que preserva la información relevante. Entre los escenarios más comunes en los que se emplea el ACP se incluyen:

Compresión de imágenes

PCA reduce la dimensionalidad de la imagen al tiempo que conserva la información esencial. Ayuda a crear representaciones compactas de imágenes, lo que facilita su almacenamiento y transmisión.

Visualización de datos

El PCA ayuda a visualizar datos de alta dimensión al proyectarlos en un espacio de menor dimensión, como un gráfico 2D o 3D. Esto simplifica la interpretación y exploración de datos.

Filtrado de ruido

El PCA puede eliminar el ruido o la información redundante de los datos al centrarse en los componentes principales que capturan los patrones subyacentes.

Predicción del cáncer de mama

La PCA también tuvo aplicaciones dentro de la atención médica. Por ejemplo, ayudó a diagnosticar enfermedades de forma más temprana y precisa. El artículo Breast Cancer Prediction using Principal Component Analysis with Logistic Regression (Predicción del cáncer de mama mediante análisis de componentes principales con regresión logística) analiza un conocido conjunto de datos2 sobre cáncer de mamarecopilados de pacientes de los hospitales de la Universidad de Wisconsin, en Madison. El autor del estudio, Akbar, emplea PCA para reducir las dimensiones de los seis atributos de datos diferentes:

  • mean_radius de un bulto en la mama

  • mean_texture de la imagen de rayos X

  • mean_perimeter del bulto

  • mean_area del bulto

  • mean_smoothness de la imagen

  • diagnóstico (si el paciente ha sido diagnosticado con cáncer o no).

Posteriormente se aplicó un algoritmo de clasificación de aprendizaje supervisado y regression logística para predecir si el cáncer de mama está presente.

Cuándo usar análisis de componentes principales

Hay muchas otras técnicas de reducción de dimensionalidad disponibles, incluido el análisis discriminatorio linealel bosque aleatorio, la aproximación y proyección de colectores uniformes (UMAP), así como el vecino estocástico distribuido en t (t-SNE). Considere los siguientes factores para decidir si el PCA es el enfoque adecuado para su análisis:

  • Linealidad: El PCA es una técnica lineal, mientras que otras técnicas como t-SNE y UMAP no son lineales. Esto significa que PCA es más adecuado para conjuntos de datos con relaciones lineales entre variables. Las técnicas no lineales son más adecuadas para conjuntos de datos con relaciones no lineales o más complejas entre variables.

  • Computación: PCA utiliza operaciones matriciales para el cálculo con el fin de administrar de manera eficiente grandes conjuntos de datos. Otras técnicas, como t-SNE y UMAP, son costosas y pueden no ser adecuadas para conjuntos grandes de datos.

  • Preservación de la información: PCA preserva la máxima cantidad de varianza en los datos. t-SNE y UMAP se centran en preservar la estructura local de los datos. Por lo tanto, PCA es más adecuado para identificar las variables de datos más importantes. Las técnicas no lineales son más adecuadas para visualizar los datos en dimensiones más bajas.

  • Extracción de características: PCA es una técnica de extracción de características. Produce nuevas variables que son combinaciones lineales de las variables originales. Otras técnicas (como UMAP y t-SNE) no crean nuevas variables. Esto significa que PCA puede identificar las variables más importantes en los datos. Las técnicas no lineales son más adecuadas para visualizar los datos en dimensiones más bajas.
Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai Reserve una demostración en vivo